Development/AI(891)
-
과적합 발생 원인, 과적합을 해결하기 어려운 이유
과적합 발생 원인 · 학습 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있습니다. · 학습 데이터는 실제 데이터에서 편향된 부분만을 가지고 있을 수 있습니다. (데이터 편향) · 학습 데이터에는 오류가 포함된 값이 있을 수 있습니다. (데이터 오류) · 과거 학습한 데이터가 대표성을 가지지 못하는 경우 발생할 수 있습니다. · 고려하는 변수가 지나치게 많을 때 발생할 수 있습니다.(차원의 저주 현상, 데이터가 표현하는 공간이 넓어지면서 얕게 분포, 점들이 서로 멀어지면서 각 값들이 모델에 미치는 영향이 커짐, 즉 극단적인 값이 평균에 영향을 주게 됩니다.) · 모델이 너무 복잡한 경우 발생할 수 있습니다. · 오류가 거의 0에 가까운 모델이라 할지라도 실제 눈으..
-
1.Summary - 1.빅데이터 분석시스템 설계하기
R Code 예시 1testDB.csv(헤더없음) 파일을 읽어서 헤더(id,name,score)를 생성하여 데이터 기본통계함수와 데이터 구조를 확인하는 R 코드 예시입니다. #header=FALSE를 지정하여 헤더 없이 파일의 모든 데이터를 읽어옵니다.#x > x V1 V2 V3 1 1 codedragon 95 2 2 bufferfly 97 3 3 unicorn 92 > # -------------------------------------------------------- #names()함수를 사용해 별도로 컬럼 이름을 지정해 줍니다. # 데이터 기본통계함수 > summary(x) id name score Min. :2.00 bufferfly:1 Min. :92.00 1st Qu.:2.25 unicor..
-
결측치가 발생하는 이유
결측치가 발생하는 이유· 데이터 입력 중 실수로 값을 입력하지 않은 경우· 값을 어떤 이유로든 관찰되지 못한 경우(예를 들어, 인구 조사에서 특정 가구가 소득을 기재하지 않은 경우)· 해당 항목에 적절한 값이 없어서 값이 입력되지 않은 경우(예를 들어, 약품의 냄새를 기록하고 있는 칸에서 특정 약품은 향이 없는 경우)
-
의사결정나무 분석과정
의사결정나무 분석과정수행단계에서 분리기준, 정지규칙, 평가 기준 등을 어떻게 적용하느냐에 따라 서로 다른 의사결정 트리를 생성하게 됩니다.
-
통계학 분야의 알고리즘
통계학 분야의 알고리즘 통계학 분야에서는 카트(CART), 체이드(CHAID) 알고리즘이 개발되었습니다.
-
의사결정나무 분석 알고리즘
의사결정나무 분석 알고리즘 의사결정나무 분석에는 인공지능, 기계학습 분야에서 개발된 ID3, C4.5, C4.8 C5.0 알고리즘들과 통계학 분야에서 개발된 카트(CART), 체이드(CHAID) 알고리즘으로 나눌 수 있습니다.