Development/Big Data, R, ...(885)
-
기계학습 방법(알고리즘 분류)
기계학습 방법(알고리즘 분류) 기계학습 방법에는 교사 학습, 비교사 학습, 강화 학습 세 가지가 있습니다.
-
랜덤포레스트(Random forest)
랜덤포레스트(Random forest) · 분산이 큰 의사결정나무의 단점을 통계적 기법으로 극복한 방법입니다. · 여러 개의 의사결정 나무를 만들고, 각각의 나무에, 부트스트랩을 이용해 생성한 데이터셋으로 모델을 구성합니다. 편향을 증가시킴으로써, 분산이 큰 의사결정나무의 단점을 완화시킵니다. · 배깅에 랜덤 과정을 추가한 방법입니다. (bagging + random) · 배깅(bagging)의 개념과 feature(또는 변수)의 임의 선택(Random selection)을 결합한 앙상블 기법(ensemble)입니다. · 원 자료로부터 부트스트랩 샘플을 추출하고, 각 부트스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모든 예측변수안에서 최적의 분할(split)을 선택하는 ..
-
선형 회귀(Linear Regression)
선형 회귀(Linear Regression) · ≒ 최소제곱법(OLS; ordinary least squares) · 종속 변수(또는 반응 변수)를 독립 변수(또는 설명 변수)에 의해 설명하는 모델을 다루는 회귀 분석(Regression Analysis)의 한 종류입니다. · 선형 회귀는 예측과 훈련 세트에 있는 타깃 변수 사이의 평균제곱오차(mean squared error)를 최소화하는 파라미터를 찾습니다. · 선형 회귀는 매개변수가 없는 것이 장점이지만, 모델의 복잡도를 제어할 수 없다는 단점이 있습니다. · 선형 회귀는 종속 변수 y를 하나 또는 그 이상의 설명 변수 X로 설명하는 모델을 만드는 방법입니다. 선형 회귀가 찾은 결과는 y = aX + ε과 같은 형태가 됩니다. · 회귀함수에서 소문자..
-
나이브베이즈 특징
나이브베이즈 특징 · 지도학습 환경에서 효율적으로 사용할 수 있습니다. · 분류를 위한 학습 데이터의 양이 매우 적어도 가능합니다. 그래서 머신러닝을 수행하기 위한 학습 데이터가 많지 않아도 됩니다. · 간단한 구조를 가집니다. · 가정이 단순합니다. · 복잡한 실제 상황에서도 잘 동작합니다.
-
원-핫 인코딩(one-hot encoding)
원-핫 인코딩(one-hot encoding)· 텍스트를 유의미한 숫자(벡터)로 바꾸는 방법입니다.· 해당되는 하나의 데이터만 1로 변경해 주고 나머지는 0으로 채워주기 때문에 원핫 인코딩이라고 합니다. · 단어 하나에 인덱스 정수를 할당한다는 점에서 '단어 주머니(bag of words, BoW)'라 부르기도 합니다.· 원핫인코딩은 파이썬코드로 직접 구현할 수도 있지만 판다스나 사이킷런 패키지를 사용해서 변환할 수도 있습니다. http://www.kakaobrain.com/blog/6https://en.wikipedia.org/wiki/One-hot '인간'을 표현하는 벡터 원-핫 인코딩 예
-
맛있는 수박/커피 고르기
맛있는 수박/커피 고르기 무게는? 색깔은? 크기는? 재배지는? 커피 맛(Taste)과 향기(Aroma)를 종합하여 ‘향미’(香味 또는 風味/Flavor)라고 하며 커피의 가장 중요한 품질 요소이다. 미국 스페셜티 커피협회(SCAA)는 커피 향미를 향기(Aroma), 상큼한 맛(Acidity), 중후한 감(Body), 향미(Flavor), 뒷맛(After Taste), 전체적 균형 감(Balance)의 여섯 가지 관능 요소로 평가한다. 생두 크기가 클수록 고급이며 가격이 비싼 편이나, 맛과 비례하지는 않으며, 커피 맛과 향을 좌우하는 밀도가 낮은 생두도 일부 포함되어 있으므로 잘 살펴보아야 한다. 보통 크기를 분류할 때는 스크리너(일정한 크기 구멍이 뚫린 체)로 쳐서 작은 생두를 밑으로 빠지게 하여 체 위..