ML(102)
-
데이터 비식별화 기법 - 가명처리(pseudonymisation), 총계처리(aggregation), 데이터 값 제거(data reduction), 범주화(data suppression), 데이터 마스킹(data masking)
데이터 비식별화 기법 대표적인 비식별화 기법으로는 다음과 같은 것들이 있습니다. · 가명처리(pseudonymisation) · 총계처리(aggregation) · 데이터 값 제거(data reduction) · 범주화(data suppression) · 데이터 마스킹(data masking) 가명처리(pseudonymisation) · 식별 가능한 변수값을 다른 값으로 대체합니다. · 세부기법으로 휴리스틱 가명화, 암호화, 교환방법등을 사용합니다. 비식별화 전 데이터 비식별화 나실명, 38세, 수원 거주 홍길동, 38세, 수원 거주 홍길동, 27세, 서울 거주, 한국대 재학 홍길동, 27세, 서울 거주, A대 재학 총계처리(aggregation) · 개인정보 보호를 위해 데이터를 총합하거나 평균을 사용..
-
홀드아웃 (Holdout) 방법 ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법
홀드아웃 (Holdout) 방법 · ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법 · 주어진 원천 데이터를 랜덤(random)하게 두 분류로 분리하여 교차 검정을 실시하는 방법입니다. 하나는 모형의 학습 및 구축을 위한 훈련용 데이터로 하나는 성과 평가를 위한 검증용 데이터로 사용합니다. · 데이터 집합을 서로 겹치지 않는 훈련 집합(training set)과 시험 집합(test set)으로 무작위 로 구분한 후, 훈련 집합을 이용하여 분석 모형을 구축하고 시험 집합을 이용하여 분석 모형의 성능을 평가하는 기법입니다. (P. Tan, M. Steinbach, and V. Kumar, 2007) · 훈련 집합과 시험 집합의 비율은 50:50, 70:30 등으로..
-
load_boston() - scikit-learn 패키지, 보스턴 주택가격(Boston Housing) 데이터셋
load_boston() · scikit-learn 패키지에 포함된 테이터 셋 · 보스턴 주택가격(Boston Housing) 데이터셋 · 1978 보스턴 주택 가격, 506개 타운의 주택 가격 중앙값 (단위 1,000 달러) · 범죄율, 찰스강 인접도, 고속도로 접근성 등의 정보가 저장되어 있습니다. 속성 설명 CRIM 범죄율 INDUS 비소매상업지역 면적 비율 NOX 일산화질소 농도 RM 주택당 방 수 LSTAT 인구 중 하위 계층 비율 B 인구 중 흑인 비율 PTRATIO 학생/교사 비율 ZN 25,000 평방피트를 초과 거주지역 비율 CHAS 찰스강의 경계에 위치 유무 1 찰스강의 경계에 위치한 경우 0 찰스강의 경계에 위치하지 않은 경우 AGE 1940년 이전에 건축된 주택의 비율 RAD 방사형..
-
w.elnn.kr - 워드 임베딩(word embedding) 한글 테스트
w.elnn.kr 딥러닝 자연어처리의 워드 임베딩(word embedding)을 한글로 테스트할 수 있는 사이트입니다. 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이스 상에 하나씩 매핑시킵니다. 그러면 비슷한 맥락을 갖는 단어들은 가까운 벡터를 지니게 되며, 벡터끼리 시맨틱 연산도 수행할 수 있습니다. 이는 분산 시맨틱스 가정에 기초하고 있습니다. CORPUS 실험을 위해 한국어 위키백과와 나무위키에서 제공하는 자료를 사용했습니다. 주어진 자료를 특수문자 제거, 띄어쓰기 정정, 형태소 분석 등의 방법으로 처리한 결과, 약 45만 종류, 4.2억 개의..
-
summary() 함수의 결과 - 회귀모델, 해석하기
summary() 함수의 결과 - 회귀모델 > summary(m) Call: lm(formula = dist ~ speed, data = cars) Residuals: Min 1Q Median 3Q Max -29.069 -9.525 -2.272 9.215 43.201 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 15.38 on 48 degrees of ..
-
종속변수 vs 독립변수
종속변수 vs 독립변수 입력 데이터와 출력 데이터는 분석기법에서 독립변수와 종속변수으로 불리워집니다. 구분 입력 데이터 출력 데이터 개념 · 분석의 기반이 되는 데이터 · 추정하거나 예측하고자 하는 목적 데이터 표기 · 보통 알파벳 X 로 표기합니다. · 보통 x, x1, x2, xn등으로 표시합니다. · y의 변화를 회귀방정식으로 표현하고 설명하기 위해 필요한 변수 · 보통 알파벳 Y 로 표기합니다. 유사용어 · 독립변수(independent variable) · 특징(feature) · 설명변수(explanatory variable) · 예측변수 · 종속변수(dependent variable) · 반응변수 · 목표변수 · 목적 값(Target Value) · 종속변수가 카테고리값이면 라벨(label)..