텍스트 분석 절차

CODEDRAGON Development/Big Data, R, ...

반응형


 

 

텍스트 분석 절차

텍스트 분석을 위한 전체적인 절차는 일반적으로 6단계로 이루어지며, 업무 특성에 따라 세부 항목을 변경하여 텍스트 분석 절차를 기획합니다.

 

 

 

텍스트 분석을 위한 전체적인 절차


 

 

·         요구사항 분석

·         텍스트 수집

·         텍스트 저장 전처리

·         텍스트 저장 전처리

·         텍스트 분석

·         텍스트 분석 서비스 제공

·         산출물 관리 공유

 

 

 

 

 

요구사항 분석

·         요구사항 분석은 텍스트 분석의 단계로 분석 대상에 대한 사용자의 요구사항을 이해하고 문서화하는 과정입니다.

·         요구사항 분석에서는 사용자의 요구를 정확하게 분석하여 텍스트 분석 목적에 적합한 다양한 해결 방법을 검토합니다.

·         요구사항 분석을 통한 결과는 텍스트 수집 분석 과정에서 필요한 기본 자료가 되므로 사용자의 요구사항을 정확하고 일관성 있게 분석하여 문서화합니다.

 

 

 

텍스트 수집

·         텍스트 수집은 수집 대상 데이터를 선정하고 수집을 위한 세부 계획을 수립한 업무 특성및 목적에 적합한 데이터를 수집하는 과정입니다.

·         텍스트 수집 활동은 텍스트 분석 서비스 품질을 결정하는 중요한 업무로 수집 가능성, 이용 목적에 맞는 데이터 항목 포함 여부, 개인정보침해 여부, 수집 주기, 비용 관련 사항들을 사전에 검토한 , 세부 수집 계획서를 작성합니다. 작성된 수집 계획서에 따라 사전 테스트를 진행하여 수집 활동을 진행합니다.

·         데이터의 유형 특성에 따라 다양한 데이터 수집 기술들이 활용되고 있으며, 주요 기술은 다음과 같습니다.

 

 

텍스트 수집을 위한 주요 기술

구분

특징

비고

Crawling

·         SNS, 뉴스, 정보 인터넷상에서 제공되는 문서·정보 수집

·         URL 링크를 따라가며 반복적으로 수집

문서 수집

Scraping

·         크롤러와 달리, 하나의 웹사이트(혹은 문서) 대하여 정보 수집

문서 수집

FTP

·         TCP/IP 프로토콜을 활용하는 인터넷 서버로부터 각종 파일을 송수신

·         보안을 강화하기 위해 SFTP 사용 고려

·         서버 연동 시에는 전용 네트워크 구축 고려

 

FILE 수집

오픈 API

·         서비스, 정보, 데이터 등을 어디서나 쉽게 이용할 있도록 개방된 API 데이터 수집방식 제공

·         다양한 애플리케이션을 개발할 있도록 개발자와 사용자에게 공개

실시간 데이터 수집

RS

·         RSS 기반 최신의 정보를 공유하기 위한 XML 기반 콘텐츠 배급 프로토콜

콘텐츠 수집

 

출처: 양현철, 김진철, 신신애 (2014). 『데이터 수집, 빅데이터 활용 단계별 업무절차 기술 활용 매뉴얼(version 1.0). 미래창조과학부·한국정보화진흥원. p.14

http://codedragon.tistory.com/6788

 

 

 

 

텍스트 저장 전처리

·         텍스트 분석을 위한 데이터 처리 기술 데이터 저장 방식을 선정하고, 선정된 데이터 저장 방식에 따라 데이터 저장 계획서를 작성합니다.

·         데이터 처리 기술은 수집된 데이터로 부터 불필요한 항목(불용어 ) 제거하고 대상 텍스트의 품질을 향상하기 위한 과정으로 다양한 데이터 ·후처리 기법(데이터 필터링, 변환, 정제, 통합 ) 활용됩니다.

·         수집된 텍스트의 특성에 맞게 저장의 유연성, 확장성 등을 고려하여 가장 접합한 DB 선정하고 구축합니다.

·         데이터 저장 계획서는 데이터 수집 주기, 저장 방식, 관리 방식(백업 ), 테스트 계획을 포함하도록 합니다.

 

 

 

 

텍스트 분석

·         텍스트 분석은 텍스트 분석 소프트웨어 혹은 패키지 등을 활용하여 수집·저장된 데이터를 분석하여 서비스를 제공하는 과정입니다.

·         텍스트 분석은 해결하고자 하는 문제 정의, 분석을 위한 시스템 환경(소프트웨어 포함) 분석, 텍스트 분석 방법론 세부 분석 계획을 먼저 수립합니다. 수립된 세부 분석 계획에 따라 텍스트 분석을 수행합니다.

·         텍스트 분석은 입력 텍스트에 대한 형태소 분석, 불용어 처리를 통한 키워드 추출, 단어와 문서 관계 표현 일련의 전처리(pre-processing) 과정을 수행한 진행되며, 텍스트 분석을 위한 주요 방법은 텍스트 분류, 텍스트 군집, 텍스트 요약 등이 있으며, 해결하고자 하는 업무에 따라 적합한 분석 방법을 적용하여 의미 있는 정보를 추출합니다.

·         최근 검색 엔진 등에서 사용자의 입력 검색어에 대한 연관 검색어를 제공하여 검색의 재현율(recall) 향상하기 위해 연관 단어 분석 등의 다양한 텍스트 분석 기법에 관한 연구가 활발히 진행되고 있으나, 아직 텍스트 분류, 군집, 요약 등에 비해 적용될 있는 분야가 제한적입니다.

 

 

 

 

 

텍스트 분석 서비스 제공

·         텍스트 분석 서비스를 제공하는 방법으로 널리 이용되고 있는 방법은 텍스트 분석 결과 시각화입니다. , 다양한 텍스트 분석 기술을 활용해 추출된 정보를 사람들이 쉽게 활용할 있도록 시각화하여 제공합니다.

·         시각화 자료는 텍스트 분석 과정에서 오류 부분에 대한 파악 수정, 보완을 용이하게 한다. 시각화 기능은 텍스트 분석 서비스 목적에 따라 다르지만 일반적으로 태그 클라우드, 지도, 차트 등을 이용하여 제공되고 있으며, 사용자들이 분석 결과를 쉽게 검색할 있도록 지원합니다.

 

 

 

 

산출물 관리 공유

·         텍스트 분석에서 도출된 산출물은 업무 효율성 제고를 위해 현업 구성원에게 공유되어야 합니다.

·         산출물 공유를 위해서는 분석 단계 계획서 등을 문서화하고 버전 관리가 수행되

·         어야 합니다. 하지만 외부로의 수집 데이터 분석 결과 유출을 방지하고 안전한 활용을 위해서는 개인정보 처리(비식별화, 암호화 ) 보안 관리를 수행합니다.

 

 


반응형