Development/AI(891)
-
명목형 데이터, 명목형 데이터 예
명목형 데이터가능한 값이 제한되어 있고 종종 고정되어 있는 변수를 의미합니다. 명목형 데이터 예 · yes/no, 양성/음성, 합격/불합격, · 성별, · 상/중/하, · 등급, · 국가명, · 혈액형, · 등
-
상관계수(Correlation Coefficient), 상관계수 값 해석
상관계수(Correlation Coefficient) · 두 변수 간 관련성의 정도를 나타내주는 값을 의미합니다. · 두 변수 간 상관관계의 크기를 나타내주는 값을 의미합니다. · 산점도의 점들의 분포를 통해 일정한 패턴을 확인한 후, 상관계수를 구해 두 변수간의 선형관계의 정도를 알아내는 것입니다. · 변수 간 높은 상관 계수가 존재한다는 것은 두 변수가 같이 커지거나 작아지는 경향이 있다는 의미입니다. · 상관계수는 알파벳 'r' 또는 σ 로 표기합니다. · 변수들 간의 상관도가 높아질수록↑ 상관계수 r값이 커집니다↑. 상관계수 값 · 상관계수는 -1≤r≤1 범위로 표시됩니다. · 상관계수는 양수(+) 또는 음수(-)의 형태를 가집니다. 즉, 변수의 관련성에 따라 양의 상관, 음의 상관, 무상관의 형..
-
의사결정나무 수행 단계
의사결정나무 수행 단계
-
의사결정나무 구조
의사결정나무 구조 · 의사 결정 나무는 각 노드마다 질문을 던지고 그 응답에 따라 가지를 쳐서 데이터를 분리합니다. · 데이터가 얼마나 잘 분리되었는지는 불순도(impurity)라는 기준으로 평가하며, 가장 좋은 질문은 한 노드의 데이터를 두 개의 자식 노드로 분리했을 때 자식 노드들의 불순도가 가장 낮아지는 질문입니다.
-
기계학습 방법(알고리즘 분류)
기계학습 방법(알고리즘 분류) 기계학습 방법에는 교사 학습, 비교사 학습, 강화 학습 세 가지가 있습니다.
-
랜덤포레스트(Random forest)
랜덤포레스트(Random forest) · 분산이 큰 의사결정나무의 단점을 통계적 기법으로 극복한 방법입니다. · 여러 개의 의사결정 나무를 만들고, 각각의 나무에, 부트스트랩을 이용해 생성한 데이터셋으로 모델을 구성합니다. 편향을 증가시킴으로써, 분산이 큰 의사결정나무의 단점을 완화시킵니다. · 배깅에 랜덤 과정을 추가한 방법입니다. (bagging + random) · 배깅(bagging)의 개념과 feature(또는 변수)의 임의 선택(Random selection)을 결합한 앙상블 기법(ensemble)입니다. · 원 자료로부터 부트스트랩 샘플을 추출하고, 각 부트스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모든 예측변수안에서 최적의 분할(split)을 선택하는 ..