Development/Big Data, R, ...(885)
-
데이터 정규화(normalization)
데이터 정규화(normalization) · 데이터 정규화를 통해 노이즈를 제거하여 줄여줍니다. · 숫자 값을 지정된 범위로 다시 조정하는 방법입니다. · 데이터의 폭이 클 때 적절한 값으로 분산의 정도를 바꾸는 과정입니다. 정규화 방법 항목 설명 최소-최대 정규화 · 0~1 사이에서 데이터를 선형적인 범위로 변환합니다. · 최소 0, 최대 1로 조정 Z점수 정규화 · 평균 및 표준편차를 기반으로 조정합니다. · 데이터와 평균의 차이를 표준편차로 나눠줍니다. 소수점 배열 · 특성 값의 소수점을 이동하여 데이터 크기를 조정합니다.
-
HDFS(하둡 분산파일시스템)
HDFS(하둡 분산파일시스템) · Hadoop Distributed File SYstem · 하둡은 대량의 자료를 저장하고 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 자바기반의 오픈소스 프레임 워크입니다. · 분산처리 시스템인 맵리듀스(MapReduce)를 이용해 데이터를 처리합니다. · 하둡은 7년 간 개발되면서 개방형 프레임 워크로 빅데이터 시대를 이끌고 있습니다. 최근 하둡의 도입성과가 가시화되고 다양한 프로젝트가 진행되면서 하둡을 중심으로 한 새로운 제품군들이 등장하고 있습니다. · 하둡의 분산 파일 시스템 HDFS는 이기종간의 하드웨어로 구성된 컴퓨터 클러스터에서 대용량 데이터 처리를 위하여 개발된 것입니다. · 하둡이 사용하는 분산 저장소입니다. 분산된 환경에서..
-
수행 내용-빅데이터 처리를 위한 준비하기
수행 내용-빅데이터 처리를 위한 준비하기 수행 순서 수행 tip 수행 순서 단계 수행 항목 빅데이터 처리를 위한 환경을 파악한다. · 처리해야 할 데이터 크기, 생성속도, 빈도에 따른 빅데이터를 처리하기 위해서 어떻게 클러스터를 구축할 것인지를 파악하여 목적에 맞는 처리 시스템을 계획합니다. 빅데이터 처리 시스템 구축을 위한 세부 계획을 수립한다. · 빅데이터 처리 시스템 도입 및 설정에 필요한 계획을 수립하고, 클러스터 구축을 위한 하드웨어와 소프트웨어 등 제반 환경을 점검하고, 이에 대한 체크 리스트를 작성합니다. · 빅데이터 저장 시스템과 연계한 처리 방식과 수행 환경에 대한 운영 모드를 확인합니다. 운영모드는 의사분산 모드(pseudo-distributed mode) 또는 완전분산 모드(fully..
-
Error in file(file, "rt") : cannot open the connection. In file(file, "rt") : cannot open file 'xxxxx.csv': No such file or directory 해결방법
오류 메시지 Error in file(file, "rt") : cannot open the connection In file(file, "rt") : cannot open file 'xxxxx.csv': No such file or directory > x 해결방법 작업폴더를 현재 작업공간으로 설정하면 해결됩니다. # 작업폴더 지정 # 경로 설정시 /(슬래시)로 구분해야 합니다. getwd() setwd("C:/CodeLab/workspace_da") getwd() 파일이 정상적으로 오픈됩니다. > x x X1 codedragon X95 1 2 bufferfly 97 2 3 unicorn 92 >
-
벡터 생성, 자동 형변환 규칙, 벡터에서의 형변환, 벡터 안에 벡터 생성
벡터 생성 벡터는 c( )를 사용해 생성하고, names( )를 사용해 이름을 부여할 수 있습니다. 함수 설명 c(객체들) · 주어진 값들을 모아 벡터를 생성한 후 반환합니다. · 나열하는 인자들은 한 가지 유형의 스칼라 타입이어야 합니다. · 만일 서로 다른 타입의 데이터를 섞어서 벡터에 저장하면, 이들 데이터는 한 가지 타입으로 자동 형 변환된다. 이때 사용되는 형 변환 규칙은 좀 더 표현력이 높은 데이터 타입으로 변환됩니다. names(객체) · 객체의 이름을 반환합니다. 주어진 객체값와 같은 길이의 문자열 벡터 또는 NULL을 반환합니다. namess(벡터객체)
-
apply(), apply() 형식
apply() · R에서 가장 유명하고 가장 많이 사용되는 기능 중 하나는 apply(), tapply(), lapply() 같은 *apply()군 함수입니다. · R에서 사용자 정의 함수를 행렬의 각 행이나 각 열에 적용할 수 있게 apply() 사용법에 대해 알아봅시다. apply() 형식 · 배열 또는 행렬(m)에 함수(f)을 dimcode 방향으로 적용하여 결과를 벡터, 배열 또는 리스트로 반환합니다. · 반환 값은 f 가 길이 1인 벡터들을 반환한 경우 벡터, 1보다 큰 벡터들을 반환한 경우 행렬, 서로 다른 길이의 벡터를 반환한 경우 리스트가 됩니다. 행렬에서 apply를 사용하는 일반적인 형태입니다. apply(m, dimcode, f, fargs) 인수 설명 m 행렬 dimcode 차원수(..