달력

1

« 2020/1 »


 

 

정규 표현식에서 사용하는 특수문자

다음에 나오는 특수 문자를 문자열로 인식합니다.

특수문자

설명

^

·       문자열이나 행의 처음

·       입력 문자열의 시작 위치를 찾습니다.(라인의 처음과 패턴과 찾습니다.)

·       가령, ^A 라고 써주면 검색하고자 하는 문장의 시작문자가 A인지를 검사하는 것입니다.

$

·       문자열이나 행의

·       입력 문자열의 위치를 찾습니다.(라인의 끝과 패턴과 찾습니다.)

·       가령, $A 라고 써주면 검색하고자 하는 문장의 마지막문자가 A인지를 검사하는 것입니다.

*

·       0 이상의 문자를 찾습니다.

·       : "cg*" "cg", "cginjs" 등입니다.

+

·       1 이상의 문자를 찾습니다.

·       : "cg+" "cg", "cginjs" 등이지만 "c" 아닙니다.

?

·       0 또는 1개의 문자 의미.

·       : " C?j" 라면 C라는 문자와 j라는 문자사이에 문자가 0 또는 1 들어갈 있다는 말입니다.

·             Cj, Cnj, Cgj등과 같은..

.

·       "\n"(개행문자) 제외한 모든 단일 문자를 찾습니다.

·       "n" 포함한 모든 문자를 찾으려면 '[.n]' 패턴을 사용합니다.

()

·       한번 match 수행해서 나온 결과를 기억함.

·       : /(cnj)/ cnj라는 단어를 검색한 , 단어를 배열등과 같은 저장장소에 남겨두어 나중에 다시 호출할 있도록 합니다.

|

·       OR

{n}

·       정확히 n개의 문자(n 음이 아닌 정수)

·       : a{2} a 문자 , , aa 의미합니다.

{n,}

·       n정확히 n 찾습니다.(n,음이 아닌 정수)

·       : "c{2}" "cnj" "c" 찾지 않지만 "bcccccccccf" 모든 c 찾습니다.

{n,m}

·       최소 n, 최대 m 찾습니다.(n 음이 아닌 정수)

·       : "b{1,4}" "bcccccccccf" 처음 개의 c 찾습니다.

·       쉼표와 숫자 사이에는 공백을 넣을 없습니다.

[xyz]

·       괄호 안의 문자 하나를 찾습니다.(문자들의 set 의미)

·       가령, [a-z]라면 a부터 z까지의 모든 문자와 찾습니다.하는 것으로 []안의 - 범위를 나타냅니다.

·       괄호 안의 문자 하나를 찾습니다.

·       :, "[abc]" "cnj" "c" 찾습니다.

[^xyz]

·       제외 문자 집합입니다.(네가티브(-) 캐릭터 )

·       괄호 밖의 문자 하나를 찾습니다.

·       : "[^abc]" "acn" "n" 찾습니다.

x|y

·       x 또는 y 찾습니다.

·       : "c|cginjs" "c" 또는 "cginjs" 찾습니다.

[a-z]

·       문자 범위입니다.(지정한 범위 안의 문자를 찾습니다)

·       : "[a-z]" "a"부터 "z" 사이의 모든 소문자를 찾습니다.

[^a-z]

·       제외 문자 범위입니다(지정된 범위 밖의 문자를 찾습니다)

·       : "[^a-z]" "a"부터 "z" 사이에 없는 모든 문자를 찾습니다.

[b]

·       백스페이스와 찾습니다.

b

·       단어와 공백 사이의 위치를 찾습니다.(단어의 경계)

·       단어의 앞이나 뒤가 패턴과 일치하는지를 검색합니다.

·       : "erb" "never" "er" 찾지만 "verb" "er" 찾지 않습니다.

B

·       단어의 비경계를 찾습니다.

·        : "erB" "verb" "er" 찾지만 "never" "er" 찾지 않습니다.

cX

·       X 나타내는 제어 문자를 찾습니다.(control 문자와 찾습니다)

·       : cM Control-M , 캐리지 리턴 문자를 찾습니다.

·             x 값은 A-Z 또는 a-z 범위 안에 있어야 합니다.

·             그렇지 않으면 c 리터럴 "c" 문자로 간주됩니다.

d

·       0부터 9까지의 아라비아 숫자와 찾습니다.

·       [0-9] 같은 의미

D

·       숫자가 아닌 문자를 찾습니다.

·       [^0-9] 같습니다.

f

·       폼피드 문자(form-feed) 찾습니다.

·       x0c cL 같은 의미

n

·       linefeed( 바꿈 문자) 찾습니다.

·       x0a cJ 같은 의미

r

·       캐리지 리턴 문자를 찾습니다(x0d cM 같은 의미)

s

·       공백, , 폼피드( 바꿈 문자) 등의 공백을 찾습니다.

·       [ tnrfv] 같은 의미

S

·       s 아닌 문자(공백이 아닌 문자) 찾습니다.

·       [^ tnrfv] 같은 의미

t

·       문자를 찾습니다. (x09 cI 같은 의미)

v

·       수직 문자를 찾습니다.(x0b cK 같은 의미)

w

·       밑줄을 포함한 영문자 숫자를 찾습니다.

·       "[A-Za-z0-9_]" 같은 의미

W

·       영문자, 숫자가 아닌 문자, 문자가 아닌 요소를 찾습니다.

·       % 등과 같은 특수 문자를 의미

·       "[^A-Za-z0-9_]" 같은 의미

n

·       n 마지막 일치하는 문장

xn

·       n 찾습니다. 여기서 n 16진수 이스케이프 값입니다.

·       16진수 이스케이프 값은 정확히 자리여야 합니다.

·       : 'x41' "A" 찾고 'x041' 'x04' "1" 같습니다.

·              정규식에서 ASCII 코드를 사용할 있습니다.

num

·       num 찾습니다.(num 양의 정수)

·       캡처한 문자열에 대한 역참조입니다.

·       : '(.)1' 연속적으로 나오는 동일한 문자 개를 찾습니다.

nm

·       8진수 이스케이프 값이나 역참조를 나타냅니다.

·       nm 앞에 최소한 nm개의 캡처된 부분식이 나왔다면 nm 역참조입니다.

·       nm 앞에 최소한 n개의 캡처가 나왔다면 n 역참조이고 뒤에는 리터럴 m 옵니다.

·       경우가 아닐 n m 0에서 7 사이의 8진수이면 nm 8진수 이스케이프 nm 찾습니다.

nml

·       n 0에서 3 사이의 8진수이고 m l 0에서 7 사이의 8진수면 8진수 이스케이프 nml 찾습니다.

un

·       n 4 자리의 16진수로 표현된 유니코드 문자입니다.

·       : u00A9 저작권 기호() 찾습니다.

ooctal

xhex

·       8(octal)진수, 10(hex)진수

xhh

·       16진수 hh 해당하는 유니코드 문자를 검색합니다.

uhhhh

·       16진수 hhhh 해당하는 유니코드 문자를 검색합니다.

 

 

Posted by codedragon codedragon

댓글을 달아 주세요


 

 

텍스트 데이터 전처리

 

구분

설명

정규화

(normalization)

입니닼ㅋㅋ -> 입니다 ㅋㅋ

샤릉해, 따랑해, 싸랑해 -> 사랑해

 

토큰화

(tokenization)

https://codedragon.tistory.com/7709

어근화

(stemming)

입니다 -> 이다

 

https://codedragon.tistory.com/7781

어구 추출

(phrase extraction)

한국어를 처리하는 예시입니다 -> 한국어, 처리, 예시, 처리하는 예시

 

 

불용어 처리

(Stopword Removal)

https://codedragon.tistory.com/7619

음소표기법

(Lemmatization)

https://codedragon.tistory.com/7787

 

 




'Development > Big Data, R, ...' 카테고리의 다른 글

선형 회귀분석로 분류시 문제점  (0) 2020.01.27
6.Summary - 6. 학습결과 적용하기  (0) 2020.01.27
텍스트 데이터 전처리  (0) 2020.01.26
말뭉치(Corpus)  (0) 2020.01.25
신뢰도(conviction)  (0) 2020.01.24
Moravec's Paradox (모라벡의 역설)  (0) 2020.01.23
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

numpy 배열의 속성

·       numpy에서 배열은 동일한 타입의 값들을 가집니다.

·       numpy 배열의 차원을 ndim 라 하고, 각 차원의 크기를 튜플로 표시하는 것을 shape 라고 합니다.

 

구분

설명

np.array([[0, 1, 2], [3, 4, 5]])

2차원 배열

 

# 행이 2이고 열이 3 2차원 배열

ndim

배열의 차원

 

# 2

shape

배열의 크기, 모양

배열의 구조를 파이썬 튜플 자료형

 

(, )

# (2, 3)

dtype

데이터 타입

 

# int

 

 


Posted by codedragon codedragon

댓글을 달아 주세요