달력

1

« 2020/1 »


 

불용어 처리(Stopword Removal)

·       일반적으로 코퍼스(Corpus)에서 자주 나타나는 단어는 학습 모델에서 학습이나 예측 프로세스에 실제로 기여하지 않아 다른 텍스트와 구별하지 못합니다.

·       예를 들어 조사, 접미사, i, me, my, it, this, that, is, are 등과 같은 단어는 빈번하게 등장하지만, 실제 의미를 파악하는 크게 기여하지 않습니다.

·       불용어는 to또는 the와 같은 용어들을 포함하고 있으며 사전 처리 단계에서 제거하는 것이 좋습니다.

 

·       형태소 분석 결과로 입력된 단어들에 대하여 불용어 사전(불용어가 저장된 데이터베이스)을 참조하여 불필요한 키워드를 제거합니다. , 형태소 분석 결과를 불용어 사전에서 검색하여 일치하는 내용이 나타나면 그 내용을 삭제하여 최적의 가용어만 추출합니다.

·       일반적으로 불용어 처리를 위한  한국어 불용어 사전은 조사, 어미 등을 포함하고 있으며, 영어 불용어 사전은 관사, 전치사, be 동사 등을 포함하고 있습니다.

 

'Development > Big Data, R, ...' 카테고리의 다른 글

비즈니스 도메인과 원천데이터 정보  (0) 2020.01.02
tm_map()  (0) 2020.01.02
불용어 처리(Stopword Removal)  (0) 2020.01.01
과적합(overfitting)  (0) 2020.01.01
신경망 발전  (0) 2020.01.01
다중공선성 종류  (0) 2019.12.30
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

상태 전이 테스팅의 설계 절차

단계

절차

1

상태-이벤트 테이블 구성

2

전이 트리 구성

3

반응(Legal or Valid)테스트 케이스 구성

4

무반응(Illegal or Invalid)테스트 케이스 구성

5

가드 또는 조건 테스트 케이스 구성

6

테스트 프로시저 구성

 

https://codedragon.tistory.com/9738

https://codedragon.tistory.com/9838

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

과적합(overfitting)

·         과잉적합 과최적화 오버피팅 과대 평가 과학습

·         과적합에는 과대적합과 과소적합이 있지만 구분하지 않을 경우 과대적합을 과적합이라고 하기도 합니다.

·         비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태를 의미합니다.

·         과적합은 제한된 샘플(혹은 훈련에 사용한 한정된 데이터) 너무 특화 되어, 새로운 샘플에 대한 예측 결과가 오히려 나빠지거나 오차가 매우 커지거나 학습의 효과가 나타나지 않는 경우 말합니다.

·         과거 데이터로 모델링한 결과 모델를 현재와 미래 데이터에 동일 모델로 분석했을때 결과가 안좋게 나오는것을 말합니다.

 

 

·         데이터를 분리하지 않고 전체 데이터를 모델링과 모델 평가에 사용하게 되면 데이터에 내재하는 실제적 특징(Signal) 외에 데이터에 우연히 포함된 노이즈(Noise)까지 반영한 모델을 만들게 위험이 있으며  이를 과적합이라고 합니다.

·         가진 정보를 모두 사용해서 만들어진 모델이 지나치게 복잡하여 학습 데이터에 대해서는 올바른 결과를 출력하지만 실제 데이터가 입력되었을 올바른 결과를 출력하지 못하는 것을 말합니다. (학습 데이터셋 안에서는 일정 수준 이상의 예측 정확도를 보이지만, 새로운 데이터에 적용하면 맞지 않게 됩니다.)

·         모델이 training set 너무 정확하게 학습되어져 test set 대해서는 오차가 크게 발생하는 것을 말합니다.

·         when test error is much higher than trainning error.

 


 

https://en.wikipedia.org/wiki/Overfitting

https://zetawiki.com/wiki/%EA%B3%BC%EC%A0%81%ED%95%A9

 

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요


 

C# vs JAVA - 상속

구분

C#

JAVA

클래스 구성요소

필드,

메소드,

프로퍼티

필드

메소드

상속

콜론(:)

extends 키워드

접근 제한자

public,

protected,

internal,

private

public,

protected,

default,

private

this,

this()

지원

지원

특이사항

base 키워드

 

 

sealed 한정자

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요

 

 

모델링 제작 과정

구분

단계

1

제품 기획

2

개념 설계 (컨셉 디자인)

3

상세 설계

4

제조 준비 제조

5

홍보 판매

6

보수 수리

 

 


Posted by codedragon codedragon

댓글을 달아 주세요

   

랜덤 접근 함수 fseek()함수

   

함수원형

함수 원형

설명

헤더파일

int fseek(FILE* stream, long offset, int start);

  • start부터 offset까지 스트림을 이동시킵니다.
  • 성공 : 0 반환
  • 실패 : 0이 아닌 값 반환

stdio.h

   

세 번째 인자 start

기호 상수

설명

SEEK_SET

0

파일의 시작 위치

SEEK_CUR

1

파일의 현재 위치

SEEK_END

2

파일의 위치

   

   

파일 이동 도식도

fseek(stream, 0, SEEK_SET);

   

   

   

fseek(stream, 2, SEEK_SET);

   

   

fseek(stream, -1, SEEK_END);

   

   

   

SEEK_CUR의 위치

   

   

fseek(stream, -2, SEEK_CUR);

   

   

랜덤 접근 함수 ftell()함수

현재의 파일 위치가 파일의 시작부터 얼마나 떨어져 있는지를 확인

   

   

함수원형

함수 원형

설명

헤더파일

long ftell(FILE* stream);

  • 파일 포인터 stream의 위치를 확인
  • 성공 : 파일 포인터의 위치 반환
  • 실패 : EOF 반환

stdio.h

   

   

   

Posted by codedragon codedragon

댓글을 달아 주세요



 

 

신경망 발전

 


http://bit.ly/2QesLu5

 


Posted by codedragon codedragon

댓글을 달아 주세요