Development/Big Data, R, ...(885)
-
3.Summary - 3.빅데이터 적재모듈 개발하기
데이터 저장을 위한 ERD를 통한 최적화된 Table로 도식화 CASE 1 - 1NF 반복 집합이 있는 비정규 테이블 - Before 정규화 학번 과목명 성적 이름 100 전자계산기 구조 92 김사랑 100 운영체제 90 김사랑 101 데이터베이스 82 오지호 101 데이터 통신 76 오지호 102 운영체제 82 이선균 CASE 2 - 2NF 1NF 정규 테이블 - Before 정규화 학번 과목명 성적 100 전자계산기 구조 92 100 운영체제 90 101 데이터베이스 82 101 데이터 통신 76 102 운영체제 82 학생 테이블 학번 지도교수 학과 100 이순재 컴퓨터 공학과 101 김연아 멀티미디어학과 102 이순재 컴퓨터 공학과 103 강부자 경영 정보학과 104 이순재 컴퓨터 공학과 105 김..
-
Hadoop - download for windows
Hadoop - download for windows 홈페이지에 접속 >> [Download] http://hadoop.apache.org/ "Binary download"의 binary 링크 클릭 링크 클릭하여 파일 다운로드 https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
-
과적합 발생 원인, 과적합을 해결하기 어려운 이유
과적합 발생 원인 · 학습 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있습니다. · 학습 데이터는 실제 데이터에서 편향된 부분만을 가지고 있을 수 있습니다. (데이터 편향) · 학습 데이터에는 오류가 포함된 값이 있을 수 있습니다. (데이터 오류) · 과거 학습한 데이터가 대표성을 가지지 못하는 경우 발생할 수 있습니다. · 고려하는 변수가 지나치게 많을 때 발생할 수 있습니다.(차원의 저주 현상, 데이터가 표현하는 공간이 넓어지면서 얕게 분포, 점들이 서로 멀어지면서 각 값들이 모델에 미치는 영향이 커짐, 즉 극단적인 값이 평균에 영향을 주게 됩니다.) · 모델이 너무 복잡한 경우 발생할 수 있습니다. · 오류가 거의 0에 가까운 모델이라 할지라도 실제 눈으..
-
1.Summary - 1.빅데이터 분석시스템 설계하기
R Code 예시 1testDB.csv(헤더없음) 파일을 읽어서 헤더(id,name,score)를 생성하여 데이터 기본통계함수와 데이터 구조를 확인하는 R 코드 예시입니다. #header=FALSE를 지정하여 헤더 없이 파일의 모든 데이터를 읽어옵니다.#x > x V1 V2 V3 1 1 codedragon 95 2 2 bufferfly 97 3 3 unicorn 92 > # -------------------------------------------------------- #names()함수를 사용해 별도로 컬럼 이름을 지정해 줍니다. # 데이터 기본통계함수 > summary(x) id name score Min. :2.00 bufferfly:1 Min. :92.00 1st Qu.:2.25 unicor..
-
결측치가 발생하는 이유
결측치가 발생하는 이유· 데이터 입력 중 실수로 값을 입력하지 않은 경우· 값을 어떤 이유로든 관찰되지 못한 경우(예를 들어, 인구 조사에서 특정 가구가 소득을 기재하지 않은 경우)· 해당 항목에 적절한 값이 없어서 값이 입력되지 않은 경우(예를 들어, 약품의 냄새를 기록하고 있는 칸에서 특정 약품은 향이 없는 경우)
-
의사결정나무 분석과정
의사결정나무 분석과정수행단계에서 분리기준, 정지규칙, 평가 기준 등을 어떻게 적용하느냐에 따라 서로 다른 의사결정 트리를 생성하게 됩니다.