Development/AI(891)
-
주성분 분석(PCA; Principal Component Analysis)
주성분 분석(PCA; Principal Component Analysis) · 통계 데이터를 분석하는 하나의 기법 · 변수들의 상관관계를 이용해 기존 변수들을 분산이 큰 변수들로 변환시키면 유의성이 높은 변수들로 데이터를 표현할 수 있습니다. · 해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공변수를 구하여 해석하는 분석방법입니다. · 주성분분석은 다변량 자료 분석 방법 중 하나입니다. · 서로 상관되어 있는 변수들간의 복잡한 구조를 차원 단순화 시켜서 간편하고 이해하기 쉽도록 분석하는 방법입니다. · · 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소하는 기법으로 요인 분석의 한 종류입니다. · 변수들..
-
가용어, 불용어, 키워드 개념
가용어, 불용어, 키워드 개념 · 텍스트로 이루어진 문서(혹은 문장)들은 단어나 단어의 집합인 문자열로 표현됩니다. · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어, 즉 문서와 관련 성이 없는 것으로 간주하는 단어들을 "불용어"라 합니다. 반면에 문서를 구성하는 단어 중 에서 불용어가 아닌 단어들이 "가용어"입니다. 특히 가용어 중에서도 문서의 중심이 되는 주제어 등을 "키워드"라 부릅니다. 구분 설명 불용어 · ≒제외어 · 입력 문서를 이루는 단어 성분 중에는 문서의 정보(의미)를 표현하지 못하는 단어 · 문서와 관련 성이 없는 것으로 간주하는 단어들 · 불용어들은 문서 내에서 발생 빈도가 높아서 "키워드"로 오해할 수 있으나, 해당 문서의 정보를 정확히 표현하지 못..
-
데이터 수집 불가 원인 및 대안
데이터 수집이 쉽지 않은 경우 수집 주기 및 방법에 대한 대안을 마련한다. · 데이터 수집이 항상 원활한 것은 아닙니다. · 시스템의 특수성으로 인해 발생 데이터가 외부 또는 내부와 네트워크로 연결되어 있지 않으면 분석에 필요한 데이터를 네트워크를 통해 수집하기 어렵게 됩니다. 데이터 수집 불가 원인 및 대안 · 데이터 수집이 쉽지 않은 원인을 파악해야 합니다. · 데이터 수집이 쉽지 않은 경우는 다양한 원인에 의해서 발생하지만 크게 아래와 같이 구분할 수 있다. 구분 원인 대안 시스템 수집 시스템 오류 수집 시스템의 구성 및 프로그램을 수정하여 해결 시스템 네트워크 오류 방화벽, 네트워크 라우팅 설정 문제를 파악하여 해결 보안 데이터의 암호화 원천 데이터가 암호화되어 있는 경우, 인증서를 설치 및 권한..
-
시그모이드 함수(Sigmoid function)
시그모이드 함수(Sigmoid function) · 신경망에서 뉴런의 활성 함수(activation function)로 단순하게 step function이나 linear function을 사용할 때보다 훨씬 많은 일을 할 수 있기 때문에 sigmoid 함수는 입력단이나 hidden layer에 주로 사용 되며, 출력단에서도 사용됩니다. · Sigmoid 함수는 S자와 유사한 완만한 시그모이드 커브 형태를 보이는 함수입니다. · Sigmoid는 대표적인 Logistic 함수입니다. · Sigmoid 함수는 모든 실수 입력 값을 0보다 크고 1보다 작은 미분 가능한 수로 변환하는 특징을 갖습니다. 가중치나 바이어스를 조금 변화시켰을 때 출력이 조금씩 변화하도록 만들 수 있습니다. · Sigmoid 함수는 X..
-
빅데이터에서의 데이터, 데이터 시각화(Data Visualization)
빅데이터에서의 데이터 · 디지털시대에 생성되는 규모가 방대하고 생성주기가 짧은 빅데이터는 결과를 이해할 수 있는 내용을 데이터 시각화하는 작업이 필요합니다. · 그러나 기존의 방법이나 도구로는 데이터를 수집하고 저장하고 가공하고 분석하기 어렵고 데이터를 프로그래밍하여 분석하기에는 너무 많은 시간과 비용이 들어갑니다. · 최근에는 이를 해결한 자바스크립트로 만든 오픈 소스형태의 라이브러리들이 많이 나오고 있습니다. 이를 통해 데이터를 쉽고 멋지게 시각화해 낼 수 있습니다. · 데이터의 집합은 방대하고 복잡한 데이터 집합을 정보 그래픽스, 과학적 시각화, 통계그래픽스와 연관지어 사용자가 상호작용하거나 직관적으로 이해할 수 있도록 해 줍니다. · 방대한 데이터를 분석하고 '시각화'하는 작업이 필요합니다. 데이..
-
pima-indiansdiabetes
pima-indiansdiabetes.csv · 피마 인디언을 대상으로 당뇨병 여부를 측정한 데이터입니다. · 비만은 유전때문인지 아니면 식습관 조절에 실패한 자신의 잘못 인지를 확인할 수 있는 데이터입니다. · 비만이 유전 및 환경, 모두의 탓이라는 것을 증명하는 좋은 사례가 바로 미국 남서부에 살고 있는 피마 인디언의 사례입니다. · 피마 인디언은 1950년대까지만 해도 비만인 사람이 단 한 명도 없는 민족이었습니다. 그런데 지금은 전체 부족의 60%가 당뇨, 80%가 비만으로 고통받고 있습니다. · 생존하기 위해 영양분을 체내에 저장하는 뛰어난 능력을 물려받은 인디언들이 미국의 기름진 패스트푸드 문화를 만나면서 비만, 당뇨등의 문제가 발생했습니다. Attribute 1 Number of times ..