DATA(8)
-
보스턴 집값 데이터(Boston Housing Data)
보스턴 집값 데이터(Boston Housing Data) · 1978년, 하버드대학교 도시개발학과에서 집값에 가장 큰 영향을 미치는 것이 '깨끗한 공기'라는 연구 결과 논문을 발표하였습니다. · 발표 후 자신의 주장을 뒷받침하기 위해 집값의 변동에 영향을 미치는 여러 가지 요인을 모아서 환경과 집값의 변동을 보여주는 데이터셋을 만들어서 공개였습니다. · 그 이후, 공개된 데이터셋은 머신러닝의 선형 회귀를 테스트하는 가장 유명한 데이터로 사용되고 있습니다. Harrison, David, and Daniel L. Rubinfeld. "Hedonic housing prices and the demand for clean air." Journal of environmental economics and manag..
-
빅데이터에서의 데이터, 데이터 시각화(Data Visualization)
빅데이터에서의 데이터 · 디지털시대에 생성되는 규모가 방대하고 생성주기가 짧은 빅데이터는 결과를 이해할 수 있는 내용을 데이터 시각화하는 작업이 필요합니다. · 그러나 기존의 방법이나 도구로는 데이터를 수집하고 저장하고 가공하고 분석하기 어렵고 데이터를 프로그래밍하여 분석하기에는 너무 많은 시간과 비용이 들어갑니다. · 최근에는 이를 해결한 자바스크립트로 만든 오픈 소스형태의 라이브러리들이 많이 나오고 있습니다. 이를 통해 데이터를 쉽고 멋지게 시각화해 낼 수 있습니다. · 데이터의 집합은 방대하고 복잡한 데이터 집합을 정보 그래픽스, 과학적 시각화, 통계그래픽스와 연관지어 사용자가 상호작용하거나 직관적으로 이해할 수 있도록 해 줍니다. · 방대한 데이터를 분석하고 '시각화'하는 작업이 필요합니다. 데이..
-
rstudio::global 2021 - 이번년도 온라인 무료
rstudio::global 2021 - 온라인 무료· 원래 유료 컨퍼런스이지만 이번년도에는 온라인이라서 무료로 관람할 수 있습니다.· 24시간 스트리밍으로 진행됩니다. http://bit.ly/3ssiQCg
-
향상도(lift), 향상도 값에 따른 관계와 의미
향상도(lift) · 품목 B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률을 의미합니다. · 연관규칙 A→B는 품목 A와 품목B의 구매가 서로 관련이 없는 경우( 독립적인 경우)에 P(B|A)=P(B)이므로 향상도는 1이 됩니다. 만일 향상도가 1보다 크면 이 규칙은 결과를 예측하는 데 있어서 우수하다는 것을 의미합니다. 1보다 작으면 우연적 기회보다 도움이 되지 않음을 의미합니다. 향상도 값에 따른 관계와 의미 향상도 의미 1 이다 두 품목간에 연관성이 없는 서로 독립적인 관계입니다. 1보다 작다 두 품목이 서로 음의 상관관계입니다. 품목 A와 품목 B는 연관성이 없음을 의미합니다. 1보다 크다 두 품목이 서로 양의 상관관계입니다. 품목 B를 구매할 확률보다 품목 A를..
-
데이터 비식별화 기법 - 가명처리(pseudonymisation), 총계처리(aggregation), 데이터 값 제거(data reduction), 범주화(data suppression), 데이터 마스킹(data masking)
데이터 비식별화 기법 대표적인 비식별화 기법으로는 다음과 같은 것들이 있습니다. · 가명처리(pseudonymisation) · 총계처리(aggregation) · 데이터 값 제거(data reduction) · 범주화(data suppression) · 데이터 마스킹(data masking) 가명처리(pseudonymisation) · 식별 가능한 변수값을 다른 값으로 대체합니다. · 세부기법으로 휴리스틱 가명화, 암호화, 교환방법등을 사용합니다. 비식별화 전 데이터 비식별화 나실명, 38세, 수원 거주 홍길동, 38세, 수원 거주 홍길동, 27세, 서울 거주, 한국대 재학 홍길동, 27세, 서울 거주, A대 재학 총계처리(aggregation) · 개인정보 보호를 위해 데이터를 총합하거나 평균을 사용..
-
데이터 일관성(Consistency) 유지의 어려움
데이터 일관성(Consistency) 유지의 어려움 동일한 데이터가 여러 파일에 흩어져 있으므로, 시간이 지남에 따라 동일한 데이터가 서로 다른 값을 가질 가능성이 커집니다 데이터 불일치 예 어떤 회원의 ‘휴대폰번호’가 두 개의 다른 데이터 파일에 저장되어 있는데, 회원정보 관리 프로그램을 통해서만 휴대폰번호를 변경한 경우, 양쪽 파일의 데이터 값이 서로 다르므로 데이터의 일관성이 유지되지 않습니다. 회원 등급이 변경되어 회원등급 관리 프로그램에서 휴대폰으로 문자를 보내면, 변경 전의 휴대폰 번호로 문자를 보내게 되므로 문자가 제대로 전달되지 않게 됩니다. 회원 데이터베이스(데이터 파일 1)-회원관리 '휴대폰 번호' 변경 회원번호 이름 휴대폰 번호 주소 이메일 113482 홍길동 010-2233-4455..