Development/Big Data, R, ...(885)
-
텍스트 마이닝의 문제점(한계)
텍스트 마이닝의 문제점(한계) 텍스트 마이닝의 문제점은 크게 두 가지가 있습니다.
-
확률론
확률론확률을 수학적으로 정의하기 위한 개념
-
스캐터 플롯(scatter plot)
스캐터 플롯(scatter plot)· ≒ 산점도 ≒ 산포도(散布度)· 점들이 여기저기 흩어진 모양의 그래프입니다.· x축과 y축에 해당하는 데이터의 상관관계를 표현할 때 사용하며 두 개의 축을 기준으로 데이터가 얼마나 퍼져있는지(분포) 알 수 있습니다. · 2차원 데이터의 상관관계를 살펴보고자 할 때 시각화합니다.· 스캐터 플롯의 점 하나의 위치는 데이터 하나의 x, y 값입니다. scatter()x축에 해당하는 데이터와 y축에 해당하는 데이터를 각각 넣으면 그에 해당하는 산점도가 그려집니다. 인자 설명 s 점 크기 c 점 색깔 https://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.scatter 격자 표시하기grid() 메소드는 각 인덱스마다 격자..
-
k-최근접 이웃 알고리즘 단계
k-최근접 이웃 알고리즘 단계
-
클러스터(cluster), 군집(Clustering), 군집 예
클러스터(cluster)비슷한 특성을 가진 데이터들의 집단 군집(Clustering)· ≒ 군집화 ≒ 클러스터링· 하나의 데이터를 여러 개의 부분집합(Clusters)으로 분할하는 것으로 데이터 분석을 위해 사용되는 방법입니다.· 이질적인 모집단을 동질성을 지닌 그룹별로 세분화하는 것을 말합니다.· 군집은 주로 데이터 마이닝이나 모델링의 준비단계로서 사용되어집니다. http://bit.ly/2RJH4bK
-
아프리오리(Apriori) 알고리즘
아프리오리(Apriori) 알고리즘 · ≒ Apriorid 알고리즘 · 최소지지도를 갖는 연관규칙을 찾는 대표적인 방법으로 Apriori알고리즘이 있습니다. · 거래 데이터가 방대할 경우 연관 규칙을 만들어 낼 때 관찰된 아이템 수가 매우 크기 때문에 이러한 집합 중에 지지도가 높은 아이템 집합을 찾는 것은 현실적으로 매우 어렵게 됩니다. 따라서 이를 좀 더 효율적으로 고려하기 위한 방법으로서, 최소 지지도 임계값을 정한 뒤 이 최소 지지도 임계값보다 높은 지지도를 갖는 아이템 집합만을 대상으로 아이템 집합들의 조합을 고려하게 되는 방법입니다. 즉, 최소 지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾습니다. · 기본적으로 아프리오리 알고리즘은 최소 기준선을 정하고 이 조건을 만족하는..