Development/AI(891)
-
R 데이터 구조
R 데이터 구조
-
2.Summary - 2.빅데이터 처리시스템 구성하기
하둡 에코시스템(Ecosystem) · 하둡은 특정 모듈 보다는 데이터처리 플랫폼 전체를 뜻합니다. · 에코 시스템은 하둡 핵심 기능을 보완하는 서브 오픈 소스 소프트웨어들이다. 하둡이란 플랫폼상에 다양한 에코시스템(Eco-system)인 피그(Pig), 주키퍼(Zookeeper), 하이브(Hive), 플럼(Flume), 스쿱(Sqoop), 스파크(Spark) 등 수 많은 오픈소스 기술이 하둡 플랫폼과 함께 사용되며 주로 동물들의 이름을 딴 경우가 많습니다. https://codedragon.tistory.com/9570 HDFS 명령어 예시 HDFS 파일 시스템에 대한 정보를 확인하는 명령어
-
2.Summary - 2.빅데이터 저장관리시스템 구성하기
MongoDB 데이터모델 사례 두 개체의 관계가 n:m인 경우 · 개념적 도메인 데이터 모델에서 두 개 개체의 관계가 m:n인 경우는, NoSQL DBMS의 양쪽 테이블에 link로 표현 가능합니다. · embedding으로 n:m으로 표현할 수도 있는 데, embedding하는 경우에는 데이터의 중복이 필연적으로 발생하므로 데이터 중복에 따른 데이터 불일치 문제가 생기지 않도록 하거나, 문제가 생겨도 상관없는 경우에만 사용해야 합니다. 블로그 데이터의 데이터 모델링 사례 (MongoDB 데이터모델) RDBMS -> MongoDB https://codedragon.tistory.com/2932 https://codedragon.tistory.com/9710 MongoDB Query 예시 MongoDB에서..
-
4.Summary - 4.실시간 수행모듈 개발하기
스쿱(Sqoop) · 스쿱(Sqoop)은 RDBMS와 HDFS 사이에 데이터를 주고받을 수 있는 데이터 통합 툴입니다. · 하이브테이블(Hive table), Avro 파일 등 하둡의 다양한 파일 형태를 HDFS로 가져오거나 내보낼 수 있습니다. https://codedragon.tistory.com/9570
-
결측값 대체 방법
결측값 대체 방법 평균 대체, 빈도 대체, 회귀대체를 할 수 있으며 값을 대체하는 가장 간단한 방법은 데이터의 평균이나 중앙값을 취하는 것입니다. · 더미 대체 · 평균 대체 · 빈도 대체 · 회귀대체 · 중심 경향 값으로 대체 · 랜덤 추출(분포 기반) · 다중 대체(Multiple Imputation) 더미 대체 · 누락된 값을 더미 값 또는 대표값으로 대체합니다. · 더미는 대체로 0으로 채워줍니다. 이름 나이 키 몸무게 헌혈횟수 홍길동 39 160cm 50kg 2 도레미 27 175cm 45kg NA 이순신 25 185cm 72kg 10 후
-
결측값 대체(Missing Value Imputation)
결측값 대체(Missing Value Imputation) · 결측값을 대표값으로 대체합니다. · "해당 레코드 모두 삭제"의 문제점을 해결하기 위해서 결측값을 해당 변수의 대표값으로 대체하는 방법입니다. · 결측치를 다른 값으로 바꾸는 것을 대체(대치;imputation)라고 합니다. · 데이터에 결측치가 있는 경우 모델 자체에서 제공하는 알고리즘을 사용할 수 있습니다. · 결측치를 다른 값으로 대체해주는 함수를 활용합니다.