CODEDRAGON ㆍDevelopment/Big Data, R, ...
이상치(Outlier; Anomaly)
· ≒ 특이점 ≒ 극단치
· ≒ 아웃라이어(Outlier) ≒ 아웃라이더
· ≒ Anomaly
· 통계에서 '아웃라이더'란 다른 대부분의 관측치와 확연하게 다른 개별 데이터들을 말합니다.
· 주어진 회귀 모델에 의해 잘 설명되지 않는 데이터 점들을 말합니다.
· 특정 데이터 변수의 분포에서 비정상적으로 벗어난 값을 뜻합니다.
· 다른 데이터 포인트들과 매우 동떨어져 있는 데이터를 뜻합니다.
· 데이터 집합에서 대부분의 다른 샘플들과 현저한 차이를 보이는 샘플 혹은 변수값을 말합니다.
· 데이터 기록 과정 중 벌어지는 오류 또는 독특한 성격을 갖는 이종 데이터로 인해 발생할 수 있습니다.
· 차이는 단순 오류일 수도 있지만 정상적으로 측정된 특이값일 수도 있으므로 주의가 필요합니다.
· 예를 들면 워싱턴 주 시민들의 소득 중 빌 게이츠의 소득 같은 값을 말합니다. 이런 데이터는 보통 잘못된 데이터로 의심을 하게 되거나 대표값으로는 사용하지 않습니다.
· 아웃라이더를 찾기 위해 수많은 방법들이 고안되어지고 있습니다.
https://en.wikipedia.org/wiki/Outlier
'Development > Big Data, R, ...' 카테고리의 다른 글
데이터 분석 시장 전망 (0) | 2019.12.03 |
---|---|
분산 파일 시스템(Distributed File System; DFS) (0) | 2019.12.02 |
군집 vs 분류 (0) | 2019.11.30 |
교사 학습 도식도 (0) | 2019.11.30 |
데이터 마이닝(Data Mining) (0) | 2019.11.29 |