달력

12

« 2019/12 »



 

 

빅데이터의 데이터 정제를 위한 핵심요소

핵심요소

설명

데이터 정제는 단계가 아닌 여정임을 명시하라

·         데이터는 비즈니스 실행 방식 바꿔주는 툴이다. 따라서 데이터 품질 향상은 일회성 프로젝트가 아니라 끊임없이 지속되어야 한다.

·         따라서 데이터 관리자를 지정해 데이터 소스 프로세스와 관련된 결과를 문서화하고, 보관해야 한다. 이렇게 하면 데이터 품질에 대한 접근방식 지속적으로 개선되고, 이해관계자들과 더불어 데이터 품질 결과물을 감독하고 커뮤니케이션하는 방안을 찾을 있다.

P-해킹(P-hacking)’을 경계하라

·         P-해킹은 원하는 결과 얻기 위해 정확성이 떨어지는 데이터 사용하거나 의도적으로 데이터를 조작하는 것을 의미한다.

·         충분한 시간을 갖고 데이터의 출처, 다른 데이터 소스와의 연관성, 비즈니스 관련성 등을 파악하면 의사결정을 내리거나 실행에 옮길 높은 정확성 확보할 있다.

데이터 투자를 통해 조직을 선도하라

·         데이터는 기업의 가장 중요한 전략 자산이므로, 성과를 극대화하려면 데이터에도 충분한 투자가 이뤄져야 한다.

·         데이터 신선도 유지와 적절한 수준의 정제 가능하게 해주는 데이 품질 관리시스템은 이제 선택이 아닌 필수다. 이러한 시스템은 데이터 품질, 신뢰성, 완전성 검토하고 평가함으로써 적절한 시점에 필요한 데이터가 문제를 해결할 있도록 지원한다.

조직 모든 데이터를 종합하라

·         데이터는 조직 여러 곳에 동시에 존재한다.

·         성공적인 이니셔티브((initiative) 기업 데이터를 전체적으로 조망 있느냐에 성패가 달려 있으며, 이를 가능하게 해주는 핵심이 바로 데이터의 품질이다. 따라서 데이터 품질 관리 시스템은 데이터 소스의 종류에 상관 없이 모든 데이터 유형의 통합을 지원해야 한다.

데이터 소유권을 명확히 하라

·         모든 데이터가 동일한 조건에서 동일하게 생성되는 것은 아니다. 잠깐 사용 바로 폐기되는 데이터가 있는 반면, 비즈니스 운영에 중요한 데이터도 존재한다.

·         기업 데이터의 대부분은 일정 기간 동안 보관이 필요한 레거시 데이터들이다. 따라서 가능한 빠르게 데이터에 대한 소유권과 책임을 명확히 하는 중요하다. 소유권의 부재는 통제의 부재 의미하기 때문이다.

 

 

https://codedragon.tistory.com/9893

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

[나는 엔지니어다] 인공지능의 ''字만 알면…"문과생마저 모셔가"

 

3m 7s

https://www.youtube.com/watch?v=j5rDULcDGJo


 

 

http://bit.ly/36Y84Ir

 


 

 

 

앞으로 4년간 1 4천여 명의 AI 전문가가 필요한데 충원 예상 인원은 4 명에 불과합니다.

 


print.pdf


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

VisualStudio Code Shortcuts 20

http://bit.ly/2WYkZGs

 



keyboard-shortcuts-linux.pdf

keyboard-shortcuts-macos.pdf

keyboard-shortcuts-windows.pdf



Posted by codedragon codedragon

댓글을 달아 주세요



 

 

파이썬 자료형

파이썬의 모든 자료형은 객체(Object)입니다. 그래서 파이썬에서 사용되는 모든 것은 객체로 처리합니다.

 

 

 


'Development > Python' 카테고리의 다른 글

numpy에서 제공하는 함수 - 배열 생성 방법  (0) 2019.12.23
한글 유니코드 찾기  (0) 2019.12.23
파이썬 자료형  (0) 2019.12.22
1차원 실수 분포 플롯  (0) 2019.12.21
{pandas} DataFrame  (0) 2019.12.21
Python 삭제하기 - uninstall  (0) 2019.12.21
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

오분류표를 활용하여 모형을 평가하는 지표4

정확도와 재현율은 모형의 평가에 대표적으로 사용되는 지표이긴 하지만 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있습니다.

 

암환자의 분류 분석 모형에서 대부분의 사람은 암환자로 예측하였다고 가정하면 높은 정확도를 가지게 되지만 재현율은 현저히 낮은 값을 보이게 됩니다. 이러한 효과를 보정하여 하나의 지표로 나타낸 것이 F1지표(F1 score) Fβ지표입니다.

 

·         F1지표(F1 score)

·         Fβ지표

 

 

 

 

 

 

 

F1지표(F1 score)

·         재현율(Recall) 정밀도(Precision)

·         실제 맞춘 + 예측 맞춘

·         정확도와 재현율의 조화평균 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균하게 됩니다.

 

 


 

 

https://en.wikipedia.org/wiki/F1_score

 

 

 

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요