Development/Big Data, R, ...(885)
-
이상치(anomaly) 처리
이상치(anomaly) 처리
-
맥주와 기저귀
맥주와 기저귀 대형 마트는 기저귀를 사러 왔다가 맥주까지 사가는 사내의 습성을 보고 (기저귀를 사는 고객은 맥주를 동시에 구매한다는 연관규칙을 알아낸 것을 통해) 기저귀와 맥주를 인접한 진열대에 위치해 놓으니 매출 증대를 꾀할 수 있었습니다. https://bit.ly/33Y7R6B 이 이야기는 전 세계 마케팅 부서를 통해 전파되고 있으며, 키노트부터 잡담, 해커톤에서 늦은 밤까지 이어진 코드 잼 등 모든 곳에서 회자되고 있습니다 토마스 블리촉(Thomas Blischok)은 마인드멜드(mindmeld)라는 회사의 CEO일 때 과거, 현재, 미래의 데이터 마이닝에 관한 웹 캐스트 패널이었으며, 맥주와 기저귀 스토리를 낳은 데이터 연구를 하고 있었습니다. 그 연구는 1990년대 초반에 실행되었는데, 그의 ..
-
정분류율 & 오분류율
오분류표를 활용하여 모형을 평가하는 지표1 · 정분류율(Accuracy, recognitionrate) · 오분류율(Error rate, misclassification rate) 정분류율(Accuracy, recognitionrate) · 탐지율(맞게 검출한 비율) · 전체 관측치중 실제값과 예측치가 일치한 정도를 나타냅니다. · 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표입니다. · ex) 실제 악성/정상인지 맞게 예측한 비율 · 전제 중에서 올바르게 예측한 정도를 의미합니다. · TP(True Positive)와 TN(True Negative)을 더하여 전부의 합계로 나눈 값입니다. 오분류율(Error rate, misclassification rate) · ≒ 오차비율 · 전체 값에..
-
일반 분류기 vs 컨볼루션 신경망
일반 분류기 vs 컨볼루션 신경망 컨볼루션 신경망(DL)이 일반분류기와 다른 점은 특징 추출과 분류가 하나의 프로세스로 이루어집니다. 1 0 1 0 0 1 1 0 0 0 1 1 0 0 1 0 여기에 2×2 마스크를 준비합니다. 각 칸에는 가중치가 들어있습니다. 샘플 가중치를 다음과 같이 ×1, ×0라고 하겠습니다. 1x1 0x0 1 0 0x0 1x1 1 0 0 0 1 1 0 0 1 0 적용된 부분은 원래 있던 값에 가중치의 값을 곱해 줍니다. 그 결과를 합하면 새로 추출된 값은 2가 됩니다. 1 0x1 1x0 0 0 1x0 1x1 0 0 0 1 1 0 0 1 0 1 0 1 0 0x1 1x0x0 1 0 0 0x1 1 1 0 0 1 0 1 0 1 0 0 1 1x1 0x0x0 0 0 1 1x1 0 0 1 0 ..
-
Jitter(지터)
Jitter(지터) · 데이터 값에 약간의 노이즈(noise)를 추가하는 방법을 말합니다. · 노이즈를 추가하면 데이터 값이 조금씩 움직여서 같은 값을 가지는 데이터가 그래프에 여러 번 겹쳐서 표시되는 현상을 막아줍니다.
-
Bayesian networks, 베이즈 네트워크
Bayesian networks · ≒ 베이즈 네트워크 · 주디아 펄(Judea Pearl)이 서로 직접적으로 연관된 네트워크에서 정보를 업데이트하기 위해 베이즈 이론에 의존하는 네트워크의 측면을 강조하고자 처음 만들었습니다. · Bayesian networks는 불확실성이 작용하는 곳이면 어디에서나 볼 수 있습니다. 불확실성은 많은 곳에 있으며, 불확실성이 있는 곳에는 확률도 같이 존재합니다. · 변수나 모수 집합을 바탕으로 확률에 근거하여 결과를 예측할 수 있습니다. 변수들은 어떤 변수의 결과값이 다른 변수의 결과 확률에 영향을 미치도록 연결되어 있습니다. · 베이지안 네트워크는 그래프 이론과 확률 이론을 결합한 것으로 복잡성과 불확실성을 편리하게 다룰 수 있습니다. · 확률적 방향성 비순환 그래픽 ..