Development(7985)
-
2.Summary - 2.빅데이터 저장관리시스템 구성하기
MongoDB 데이터모델 사례 두 개체의 관계가 n:m인 경우 · 개념적 도메인 데이터 모델에서 두 개 개체의 관계가 m:n인 경우는, NoSQL DBMS의 양쪽 테이블에 link로 표현 가능합니다. · embedding으로 n:m으로 표현할 수도 있는 데, embedding하는 경우에는 데이터의 중복이 필연적으로 발생하므로 데이터 중복에 따른 데이터 불일치 문제가 생기지 않도록 하거나, 문제가 생겨도 상관없는 경우에만 사용해야 합니다. 블로그 데이터의 데이터 모델링 사례 (MongoDB 데이터모델) RDBMS -> MongoDB https://codedragon.tistory.com/2932 https://codedragon.tistory.com/9710 MongoDB Query 예시 MongoDB에서..
-
4.Summary - 4.실시간 수행모듈 개발하기
스쿱(Sqoop) · 스쿱(Sqoop)은 RDBMS와 HDFS 사이에 데이터를 주고받을 수 있는 데이터 통합 툴입니다. · 하이브테이블(Hive table), Avro 파일 등 하둡의 다양한 파일 형태를 HDFS로 가져오거나 내보낼 수 있습니다. https://codedragon.tistory.com/9570
-
VSCode (VisualStudio Code) - 줄 끝 공백 제거하기
VSCode - 줄 끝 공백 제거하기 VSCode 메뉴: [File] >> [Preferences] >> [Settings] "Trim Trailing Whitespace" 으로 검색 >> [Trim Trailing Whitespace] 항목을 체크합니다. Trim Trailing Whitespace
-
결측값 대체 방법
결측값 대체 방법 평균 대체, 빈도 대체, 회귀대체를 할 수 있으며 값을 대체하는 가장 간단한 방법은 데이터의 평균이나 중앙값을 취하는 것입니다. · 더미 대체 · 평균 대체 · 빈도 대체 · 회귀대체 · 중심 경향 값으로 대체 · 랜덤 추출(분포 기반) · 다중 대체(Multiple Imputation) 더미 대체 · 누락된 값을 더미 값 또는 대표값으로 대체합니다. · 더미는 대체로 0으로 채워줍니다. 이름 나이 키 몸무게 헌혈횟수 홍길동 39 160cm 50kg 2 도레미 27 175cm 45kg NA 이순신 25 185cm 72kg 10 후
-
결측값 대체(Missing Value Imputation)
결측값 대체(Missing Value Imputation) · 결측값을 대표값으로 대체합니다. · "해당 레코드 모두 삭제"의 문제점을 해결하기 위해서 결측값을 해당 변수의 대표값으로 대체하는 방법입니다. · 결측치를 다른 값으로 바꾸는 것을 대체(대치;imputation)라고 합니다. · 데이터에 결측치가 있는 경우 모델 자체에서 제공하는 알고리즘을 사용할 수 있습니다. · 결측치를 다른 값으로 대체해주는 함수를 활용합니다.
-
해당 레코드 모두 삭제
해당 레코드 모두 삭제 · 일반적인 결측값 처리 방식은 해당 레코드를 모두 삭제하는 방법입니다. · 전체적으로 결측값이 많은 레코드에 걸쳐 분포하면 너무 많은 자료가 삭제돼 정보를 획득하기 어려워질 수 있습니다. · {stats}패키지의 complete.cases()함수를 이용하여 결측값이 포함된 관측치를 삭제할 수 있습니다. '몸무게' 항목에 값이 없는 '도레미' 레코드를 삭제합니다. 이름 나이 키 몸무게 헌혈횟수 홍길동 39 160cm 50kg 2 도레미 27 175cm NA 7 이순신 25 185cm 72kg 10 후