IT&기계학습 - 인스턴스의 ID 속성

CODEDRAGON Development/Database

반응형


 

 

IT&기계학습 - 인스턴스의 ID 속성

기존(전통) IT 에서의 데이터를 바라보는 관점과 기계학습(Machine Learning)에서 바라보는 관점은 완전히 반대가 되어야 합니다.

 

관점

ID 속성

기존  IT

·       데이터의 무결성(중복/누락 방지)를 위해 데이터(인스턴스)별로 Unique ID key 를 부여하여 저장합니다.

기계학습

·       Unique ID값으로 인한 무결성이 오히려 데이터 모델링의 일반화를 방해합니다.

·       왜냐하면, 인스턴스별로 ID 속성을 부여하면 ID속성의 정보이론 비트는 1에 수렴하여 바로 루트노드로 됩니다. 그러나 이는 일반화 되지 않은 상태라 올바르지 않은 분석결과가 됩니다.