bigdata(70)
-
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사 Alphabetical list of part-of-speech tags used in the Penn Treebank Project Number Tag Description 1. CC Coordinating conjunction 2. CD Cardinal number 서수 3. DT Determiner 관형사 4. EX Existential there 5. FW Foreign word 6. IN Preposition or subordinating conjunction 7. JJ Adjective 8. JJR Adjective, comparative 9. JJS Adjective, superlative 10. LS List item..
-
데이터 비식별화 기법 - 가명처리(pseudonymisation), 총계처리(aggregation), 데이터 값 제거(data reduction), 범주화(data suppression), 데이터 마스킹(data masking)
데이터 비식별화 기법 대표적인 비식별화 기법으로는 다음과 같은 것들이 있습니다. · 가명처리(pseudonymisation) · 총계처리(aggregation) · 데이터 값 제거(data reduction) · 범주화(data suppression) · 데이터 마스킹(data masking) 가명처리(pseudonymisation) · 식별 가능한 변수값을 다른 값으로 대체합니다. · 세부기법으로 휴리스틱 가명화, 암호화, 교환방법등을 사용합니다. 비식별화 전 데이터 비식별화 나실명, 38세, 수원 거주 홍길동, 38세, 수원 거주 홍길동, 27세, 서울 거주, 한국대 재학 홍길동, 27세, 서울 거주, A대 재학 총계처리(aggregation) · 개인정보 보호를 위해 데이터를 총합하거나 평균을 사용..
-
홀드아웃 (Holdout) 방법 ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법
홀드아웃 (Holdout) 방법 · ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법 · 주어진 원천 데이터를 랜덤(random)하게 두 분류로 분리하여 교차 검정을 실시하는 방법입니다. 하나는 모형의 학습 및 구축을 위한 훈련용 데이터로 하나는 성과 평가를 위한 검증용 데이터로 사용합니다. · 데이터 집합을 서로 겹치지 않는 훈련 집합(training set)과 시험 집합(test set)으로 무작위 로 구분한 후, 훈련 집합을 이용하여 분석 모형을 구축하고 시험 집합을 이용하여 분석 모형의 성능을 평가하는 기법입니다. (P. Tan, M. Steinbach, and V. Kumar, 2007) · 훈련 집합과 시험 집합의 비율은 50:50, 70:30 등으로..
-
w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트
w.elnn.kr 딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다. 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다. CORPUS 실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의..
-
빅데이터 기술 분류
빅데이터 기술 분류 빅데이터로부터 지식을 발굴해 활용하기까지는 데이터 생성 및 수집, 저장, 처리, 분석, 시각화와 같은 여러 과정을 거칩니다. 각 단계별로 지원하는 다양한 기술이 있습니다. 과정 설명 해당기술 생성 조직의 내부와 외부에 존재하는 여러 데이터를 생성하는 기술 • 데이터베이스(Database) • 파일관리시스템(File Management system) • 인터넷으로 연결된 파일 등 수집 조직의 내부와 외부에서 생성되는 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술로 단순 데이터 확보가 아닌 검색, 수집, 변환을 통해 정제된 데이터를 확보하는 기술 • 로그 수집기 • 크롤링 • 센싱 • RSS Reader, Open API • ETL(..
-
한국정보화진흥원, 빅데이터 기술 분류 및 현황
한국정보화진흥원, 빅데이터 기술 분류 및 현황 http://bit.ly/2AXod3Q http://bit.ly/2qEDrVi 목차 1. 빅데이터 기술 동향 2. 빅데이터 요소기술 분류 3. 빅데이터 기술별 유형 및 특성 4. 국내외 빅데이터 표준화 동향 직접 다운로드