2020/01(266)
-
tm_map()
tm_map() 문서에 함수를 적용하여 변환된 결과를 반환합니다. http://bit.ly/2RXSKb1 parameter description x 코퍼스(Corpus) 또는 단어-문서(term-document) 행렬 FUN 변환에 사용할 함수 FUN 함수 사용자가 직접 만든 함수를 지정할 수 있고, {tm}패키지에서 제공하는 함수를 지정할 수도 있습니다. {tm} 제공하는 변환 함수 목록 변환 함수 설명 removeNumbers · 숫자를 제거합니다. removePunctuation · 문장 부호를 제거합니다. removeWords · 단어를 제거합니다. stemDocument · Porter's stemming algorithm을 사용하여 문서안의 어간을 추출합니다. stripWhitespace · ..
-
불용어 처리(Stopword Removal)
불용어 처리(Stopword Removal)· 일반적으로 코퍼스(Corpus)에서 자주 나타나는 단어는 학습 모델에서 학습이나 예측 프로세스에 실제로 기여하지 않아 다른 텍스트와 구별하지 못합니다.· 예를 들어 조사, 접미사, i, me, my, it, this, that, is, are 등과 같은 단어는 빈번하게 등장하지만, 실제 의미를 파악하는 데 크게 기여하지 않습니다.· 불용어는 to또는 the와 같은 용어들을 포함하고 있으며 사전 처리 단계에서 제거하는 것이 좋습니다. · 형태소 분석 결과로 입력된 단어들에 대하여 불용어 사전(불용어가 저장된 데이터베이스)을 참조하여 불필요한 키워드를 제거합니다. 즉, 형태소 분석 결과를 불용어 사전에서 검색하여 일치하는 내용이 나타나면 그 내용을 삭제하여 최적..
-
3.Summary - 3.빅데이터 플랫폼 비기능 테스트하기
상태 전이 테스팅의 설계 절차
-
과적합(overfitting)
과적합(overfitting)· 과잉적합 ≒ 과최적화 ≒ 오버피팅 ≒ 과대 평가 ≒ 과학습· 과적합에는 과대적합과 과소적합이 있지만 구분하지 않을 경우 과대적합을 과적합이라고 하기도 합니다.· 비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태를 의미합니다.· 과적합은 제한된 샘플(혹은 훈련에 사용한 한정된 데이터)에 너무 특화가 되어, 새로운 샘플에 대한 예측의 결과가 오히려 나빠지거나 오차가 매우 커지거나 학습의 효과가 나타나지 않는 경우를 말합니다.· 과거 데이터로 모델링한 결과 모델를 현재와 미래 데이터에 동일 모델로 분석했을때 결과가 안좋게 나오는것을 말합니다. · 데이터를 분리하지 않고 전체 데이터를 모델링과 모델 평가에 사용하게 되면 데이터에 내재하는 ..
-
C# vs JAVA - 상속
C# vs JAVA - 상속
-
모델링 제작 과정
모델링 제작 과정