2.Summary-2.빅데이터 품질관리시스템 구성하기

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

빅데이터의 데이터 정제를 위한 핵심요소

핵심요소

설명

데이터 정제는 단계가 아닌 여정임을 명시하라

·         데이터는 비즈니스 실행 방식 바꿔주는 툴이다. 따라서 데이터 품질 향상은 일회성 프로젝트가 아니라 끊임없이 지속되어야 한다.

·         따라서 데이터 관리자를 지정해 데이터 소스 프로세스와 관련된 결과를 문서화하고, 보관해야 한다. 이렇게 하면 데이터 품질에 대한 접근방식 지속적으로 개선되고, 이해관계자들과 더불어 데이터 품질 결과물을 감독하고 커뮤니케이션하는 방안을 찾을 있다.

P-해킹(P-hacking)’을 경계하라

·         P-해킹은 원하는 결과 얻기 위해 정확성이 떨어지는 데이터 사용하거나 의도적으로 데이터를 조작하는 것을 의미한다.

·         충분한 시간을 갖고 데이터의 출처, 다른 데이터 소스와의 연관성, 비즈니스 관련성 등을 파악하면 의사결정을 내리거나 실행에 옮길 높은 정확성 확보할 있다.

데이터 투자를 통해 조직을 선도하라

·         데이터는 기업의 가장 중요한 전략 자산이므로, 성과를 극대화하려면 데이터에도 충분한 투자가 이뤄져야 한다.

·         데이터 신선도 유지와 적절한 수준의 정제 가능하게 해주는 데이 품질 관리시스템은 이제 선택이 아닌 필수다. 이러한 시스템은 데이터 품질, 신뢰성, 완전성 검토하고 평가함으로써 적절한 시점에 필요한 데이터가 문제를 해결할 있도록 지원한다.

조직 모든 데이터를 종합하라

·         데이터는 조직 여러 곳에 동시에 존재한다.

·         성공적인 이니셔티브((initiative) 기업 데이터를 전체적으로 조망 있느냐에 성패가 달려 있으며, 이를 가능하게 해주는 핵심이 바로 데이터의 품질이다. 따라서 데이터 품질 관리 시스템은 데이터 소스의 종류에 상관 없이 모든 데이터 유형의 통합을 지원해야 한다.

데이터 소유권을 명확히 하라

·         모든 데이터가 동일한 조건에서 동일하게 생성되는 것은 아니다. 잠깐 사용 바로 폐기되는 데이터가 있는 반면, 비즈니스 운영에 중요한 데이터도 존재한다.

·         기업 데이터의 대부분은 일정 기간 동안 보관이 필요한 레거시 데이터들이다. 따라서 가능한 빠르게 데이터에 대한 소유권과 책임을 명확히 하는 중요하다. 소유권의 부재는 통제의 부재 의미하기 때문이다.

 

 

https://codedragon.tistory.com/9893