bigdata(70)
-
주성분 분석(PCA; Principal Component Analysis)
주성분 분석(PCA; Principal Component Analysis) · 통계 데이터를 분석하는 하나의 기법 · 변수들의 상관관계를 이용해 기존 변수들을 분산이 큰 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 수 있습니다. · 해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공변수를 구하여 해석하는 분석방법입니다. · 주성분분석은 다변량 자료 분석 방법 중 하나입니다. · 서로 상관되어 있는 변수들간의 복잡한 구조를 차원 단순화 시켜서 간편하고 이해하기 쉽도록 분석하는 방법입니다. · · 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하는 기법으로 요인 분석의 한 종류입니다. · 변수들..
-
가용어, 불용어, 키워드 개념
가용어, 불용어, 키워드 개념 · 텍스트로 이루어진 문서(혹은 문장)들은 단어나 단어의 집합인 문자열로 표현됩니다. · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어, 즉 문서와 관련 성이 없는 것으로 간주하는 단어들을 "불용어"라 합니다. 반면에 문서를 구성하는 단어 중 에서 불용어가 아닌 단어들이 "가용어"입니다. 특히 가용어 중에서도 문서의 중심이 되는 주제어 등을 "키워드"라 부릅니다. 구분 설명 불용어 · ≒제외어 · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어 · 문서와 관련 성이 없는 것으로 간주하는 단어들 · 불용어들은 문서 내에서 발생 빈도가 높아서 "키워드"로 오해할 수 있으나, 해당 문서의 정보를 정확히 표현하지 못..
-
데이터 수집 불가 원인 및 대안
데이터 수집이 쉽지 않은 경우 수집 주기 및 방법에 대한 대안을 마련한다. · 데이터 수집이 항상 원활한 것은 아닙니다. · 시스템의 특수성으로 인해 발생 데이터가 외부 또는 내부와 네트워크로 연결되어 있지 않으면 분석에 필요한 데이터를 네트워크를 통해 수집하기 어렵게 됩니다. 데이터 수집 불가 원인 및 대안 · 데이터 수집이 쉽지 않은 원인을 파악해야 합니다. · 데이터 수집이 쉽지 않은 경우는 다양한 원인에 의해서 발생하지만 크게 아래와 같이 구분할 수 있다. 구분 원인 대안 시스템 수집 시스템 오류 수집 시스템의 구성 및 프로그램을 수정하여 해결 시스템 네트워크 오류 방화벽, 네트워크 라우팅 설정 문제를 파악하여 해결 보안 데이터의 암호화 원천 데이터가 암호화되어 있는 경우, 인증서를 설치 및 권한..
-
시그모이드 함수(Sigmoid function)
시그모이드 함수(Sigmoid function) · 신경망에서 뉴런의 활성 함수(activation function)로 단순하게 step function이나 linear function을 사용할 때보다 훨씬 많은 일을 할 수 있기 때문에 sigmoid 함수는 입력단이나 hidden layer에 주로 사용 되며, 출력단에서도 사용됩니다. · Sigmoid 함수는 S자와 유사한 완만한 시그모이드 커브 형태를 보이는 함수입니다. · Sigmoid는 대표적인 Logistic 함수입니다. · Sigmoid 함수는 모든 실수 입력 값을 0보다 크고 1보다 작은 미분 가능한 수로 변환하는 특징을 갖습니다. 가중치나 바이어스를 조금 변화시켰을 때 출력이 조금씩 변화하도록 만들 수 있습니다. · Sigmoid 함수는 X..
-
빅데이터에서의 데이터, 데이터 시각화(Data Visualization)
빅데이터에서의 데이터 · 디지털시대에 생성되는 규모가 방대하고 생성주기가 짧은 빅데이터는 결과를 이해할 수 있는 내용을 데이터 시각화하는 작업이 필요합니다. · 그러나 기존의 방법이나 도구로는 데이터를 수집하고 저장하고 가공하고 분석하기 어렵고 데이터를 프로그래밍하여 분석하기에는 너무 많은 시간과 비용이 들어갑니다. · 최근에는 이를 해결한 자바스크립트로 만든 오픈 소스형태의 라이브러리들이 많이 나오고 있습니다. 이를 통해 데이터를 쉽고 멋지게 시각화해 낼 수 있습니다. · 데이터의 집합은 방대하고 복잡한 데이터 집합을 정보 그래픽스, 과학적 시각화, 통계그래픽스와 연관지어 사용자가 상호작용하거나 직관적으로 이해할 수 있도록 해 줍니다. · 방대한 데이터를 분석하고 '시각화'하는 작업이 필요합니다. 데이..
-
Keras 패키지
Keras 패키지 · 케라스 · TensorFlow 패키지를 쉽게 사용할 수 있도록 도와주는 고수준 패키지이다. · TensorFlow나 Theano를 백엔드로 사용합니다. · 케라스는 텐서플로 기반으로 구동되므로 실습하는 컴퓨터에 텐서플로가 설치돼 있어야 합니다. · Keras를 사용하면 쉽게 신경망 모형을 구현할 수 있습니다. https://keras.io/