머신러닝 기반 데이터 분석 계획 및 절차

CODEDRAGON Development/Big Data, R, ...

반응형



 

 

 

머신러닝 기반 데이터 분석 계획 절차

머신러닝 기반 데이터 분석 수행 일반적으로 다음의 절차를 따르게 된다.

 

·         비즈니스 이해 문제 정의

·         데이터 수집

·         데이터 전처리와 탐색

·         데이터에 대한 모델훈련

·         모델 성능 평가

·         모델 성능 향상 현업 적용

 

 

 

비즈니스 이해 문제 정의

·         모든 분석 주제가 그렇듯, 머신러닝 기반 데이터 분석에서도 마찬가지로 해결하려는 문제를 정의하는 것이 가장 우선입니다.

·         자신이 해결하려는 문제를 이해하고, 문제를 해결하기 위한 비즈니스 도메인 이해 문제를 파악해가는 과정을 반복해 가면서 문제를 재정의하고 해결책을 모색하는 단계를 반복적으로 거치면서 구체적인 목적과 필요한 데이터에 대한 이해가 명확해지게 된다. 또한, 문제정의 과정과 필요한 데이터 형태에 대해 구상을 하는 과정에서 자연스럽게 어떤 머신러닝 기법을 적용하게 될지 1차적인 잠정적 의사결정 과정을 거치게 됩니다.

 

 

 

 

데이터 수집

·         해결하고자 하는 분석 이슈가 명확해졌다면, 분석을 위해 필요한 데이터를 수집하게 됩니다.

·         물론 분석하려는 데이터가 이미 주어져 있는 상태에서 해당 데이터에 적합한 분석이슈를 고민하게 되는 경우도 있지만, 경우에도 분석을 위해 추가로 필요한 데이터가 발생할 있으므로 필요한 데이터 수집은 올바른 분석 위해 항상 고려해야 하는 요소입니다.

·         내부 데이터 저장소(데이터웨어하우스 혹은 데이터 마트 )에서 SQL 통하여 데이터를 추출하거나 하둡 기반의 빅데이터 플랫폼에서 데이터를 추출하는 경우가 일반적이라고 볼수 있으나, 어떤 경우에는 외부 데이터 필요할 수도 있으므로 사이트에서 필요한 데이터를 스크래핑 형태로 수집하거나 API 등을 통해 데이터를 수집해야 경우가 발생할 수도 있습니다.

 

 

 

데이터 전처리와 탐색

·         필요한 데이터를 수집되었다면, 머신러닝을 적용하기에 적당한 형태 데이터를 전처리하고 변환하게 됩니다.

·         머신러닝 기반 데이터 분석 결과의 질은 필요한 기법이나 알고리즘에도 좌우되지만, 데이터의 따라 크게 좌우되므로 데이터 전처리와 변환 탐색 단계가 매우 중요합니다.

·         실제로 대부분의 분석과 마찬가지로 머신러닝 기반 데이터 분석 프로세스 중에서도 전처리 단계가 가장 많은 시간과 노력을 들이게 되는 단계라고 있습니다.

 

 

 

 

데이터에 대한 모델훈련

·         데이터 전처리와 탐색을 거친 사용하고자 하는 머신러닝 기법을 적용하여 데이터를 학습하는 단계입니다.

·         지도학습의 경우는 모델 훈련을 위해 데이터를 학습용 데이터와 검증용 평가용 데이터로 분할하거나, 교차검증 등에 대한 설계를 거친 모델훈련을 하게 됩니다.

·         자율학습의 경우는 목적값을 가지지 않기 때문에 모델훈련을 한다기보다는 바로 분석을 통한 패턴도출의 과정을 수행을 합니다.

 

 

 

 

 

모델 성능 평가

·         일반적으로 머신러닝 기반 학습 모델은 모델 훈련에 사용한 훈련데이터에 편향된 결과값을 내는 경향이 많으므로, 머신러닝 알고리즘이 데이터로부터 얼마나 학습했는지를 평가하기 위해 평가 데이터 세트를 이용하여 모델의 정확도를 평가하게 된다.

·         자율학습(Unsupervised Learning) 경우에는 평가 데이터 세트를 두지 않는 경우가 일반적이므로, 교차검증보다는 분석과정에서 도출되는 통계치나 규칙들의 해석 가능성 등에 초점을 두고 성능을 평가하게 된다.

 

 

 

 

 

 

 

모델 성능 향상 현업 적용

·         일반적으로 단일 머신러닝 분석 프로세스로 해결하고자 하는 이슈가 단번에 해결되는 경우는 거의 없으며, 지속적으로 모델 파라미터나 추정방법 등을 변화시켜서 모델성능을 꾀하게 됩니다. 때로는 다른 알고리즘을 적용하여 원래 적용한 알고리즘과 성능을 비교하게 됩니다.

·         모델성능이 어느 정도여야 만족스러운 성능인가에 관한 판단은 분석하고자 하는 이슈 비즈니스 도메인 따라 달라질 있으며, 어떤 경우든 모델성능이 충분히 향상되었다는 판단에 대한 절대적인 기준이 존재하는 것은 아닙니다. 그렇지만, 분석가는 여러 가지 알고리즘을 비교 적용해보고, 동일 알고리즘 내에서도 파라미터나 추정방법 등을 바꿔가며 만족스러운 수준이라고 판단될 때까지 모델성능 향상을 모색해볼 필요가 있습니다.

·         이런과정이 끝난 모델이 만족할 만큼 결과값이 도출된다면, 당초 의도했던 비즈니스 이슈에 적용할 있습니다. 경우에 따라서는 자동화나 시스템 연계를 위한 추가적인 개발 작업이 필요하게 수도 있습니다.