CODEDRAGON ㆍDevelopment/Big Data, R, ...
빅데이터의 데이터 정제를 위한 핵심요소
핵심요소 |
설명 |
데이터 정제는 단계가 아닌 여정임을 명시하라 |
· 데이터는 비즈니스 실행 방식을 바꿔주는 툴이다. 따라서 데이터 품질 향상은 일회성 프로젝트가 아니라 끊임없이 지속되어야 한다. · 따라서 데이터 관리자를 지정해 데이터 소스 및 프로세스와 관련된 결과를 문서화하고, 보관해야 한다. 이렇게 하면 데이터 품질에 대한 접근방식 이 지속적으로 개선되고, 이해관계자들과 더불어 데이터 품질 결과물을 감독하고 커뮤니케이션하는 방안을 찾을 수 있다. |
‘P-해킹(P-hacking)’을 경계하라 |
· P-해킹은 원하는 결과를 얻기 위해 정확성이 떨어지는 데이터를 사용하거나 의도적으로 데이터를 조작하는 것을 의미한다. · 충분한 시간을 갖고 데이터의 출처, 다른 데이터 소스와의 연관성, 비즈니스 관련성 등을 파악하면 의사결정을 내리거나 실행에 옮길 때 더 높은 정확성 을 확보할 수 있다. |
데이터 투자를 통해 조직을 선도하라 |
· 데이터는 기업의 가장 중요한 전략 자산이므로, 성과를 극대화하려면 데이터에도 충분한 투자가 이뤄져야 한다. · 데이터 신선도 유지와 적절한 수준의 정제를 가능하게 해주는 데이 터 품질 관리시스템은 이제 선택이 아닌 필수다. 이러한 시스템은 데이터 품질, 신뢰성, 완전성을 검토하고 평가함으로써 적절한 시점에 필요한 데이터가 문제를 해결할 수 있도록 지원한다. |
조직 내 모든 데이터를 종합하라 |
· 데이터는 조직 내 여러 곳에 동시에 존재한다. · 성공적인 이니셔티브((initiative)는 기업 내 데이터를 전체적으로 조망할 수 있느냐에 그 성패가 달려 있으며, 이를 가능하게 해주는 핵심이 바로 데이터의 품질이다. 따라서 데이터 품질 관리 시스템은 데이터 소스의 종류에 상관 없이 모든 데이터 유형의 통합을 지원해야 한다. |
데이터 소유권을 명확히 하라 |
· 모든 데이터가 동일한 조건에서 동일하게 생성되는 것은 아니다. 잠깐 사용 후 바로 폐기되는 데이터가 있는 반면, 비즈니스 운영에 중요한 데이터도 존재한다. · 기업 데이터의 대부분은 일정 기간 동안 보관이 필요한 레거시 데이터들이다. 따라서 가능한 한 빠르게 데이터에 대한 소유권과 책임을 명확히 하는 것이 중요하다. 소유권의 부재는 곧 통제의 부재를 의미하기 때문이다. |
https://codedragon.tistory.com/9893
'Development > Big Data, R, ...' 카테고리의 다른 글
2.Summary - 2.데이터 분포 분석하기 (0) | 2019.12.23 |
---|---|
지금은 빅데이터 시대! 데이터 품질 관리로 경쟁 우위를 선점하라 (0) | 2019.12.23 |
[나는 엔지니어다] 인공지능의 '인'字만 알면…"문과생마저 모셔가" (0) | 2019.12.22 |
F1지표(F1 score) (0) | 2019.12.22 |
분석 모형 구축시 오류(error) - 일반화 오류(generalization error), 훈련 오류(training error) (0) | 2019.12.21 |