달력

1

« 2020/1 »


 

 

검증곡선(Validation Curve)

·         하이퍼 파라미터에 따른 정확도 변화을 나타냅니다.

·         10-fold CV 이용합니다.

 

 

 


image.google.com

 


'Development > Big Data, R, ...' 카테고리의 다른 글

1.Summary - 1.텍스트 데이터 변환하기  (0) 2020.01.17
CyberChef - 웹 기반 데이터 분석 도구  (0) 2020.01.17
검증곡선(Validation Curve)  (0) 2020.01.16
귀무가설 vs 대립가설  (0) 2020.01.16
IQ.csv  (0) 2020.01.16
testDB.csv  (0) 2020.01.16
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

Maven 프로젝트 설정시 필수항목

Maven 프로젝트 설정시 필수적으로 지정해야 하는 항목입니다.

 

항목

설명

Group ID

·         Top-level package명으로 사용됩니다.

·         패키지 명명 규칙을 따릅니다.

 

https://codedragon.tistory.com/228

Artifact ID

·         프로젝트명 동일하게 설정합니다.

Version

·         버전을 명시합니다.

 

 

 


 

 



Posted by codedragon codedragon

댓글을 달아 주세요



 

문자열 포멧팅 - 정렬

 

"{0:<10}".format("문자열")

왼쪽 정렬

"{0:>10}".format("문자열")

오른쪽 정렬

"{0:^10}".format("문자열")

가운데 정렬

 

 



Posted by codedragon codedragon

댓글을 달아 주세요



 

 

유니코드(Unicode)

·       다국어 문자를 제대로 표현하기 위해 유니코드 타입을 지원합니다.

·       모든 문자열(String) 기본적으로 유니코드입니다.

·       유니코드 이외의 인코딩이 있는 문자열은 bytes 표현됩니다.

 

 

>>> type('파이션')

<class 'str'>

>>> '파이션'.encode('UTF-8') #인코딩이 있는 문자열로 인코딩함수를 통해 가공하면 bytes 결과가 나옴

b'\xed\x8c\x8c\xec\x9d\xb4\xec\x85\x98'

>>> type(''.encode('UTF-8'))

<class 'bytes'>

 

 

 

 

 

 

명시적 유니코드 지정

·       문자앞에 u문자를 붙여서 명시적으로 유니코드로 지정할 있습니다.

·       2.x에서는 type()확인시 <type 'unicode'>라고 표시되었지만 3.x에서는 <class 'str'> 표시됩니다.

·       3.x부터 모든 문자를 유니코드로 처리하므로 명시적으로 유니코드로 지정할 필요가 없습니다.

 

print(u"안녕하세요")

print(u'Hello')

 

print(type(u"안녕하세요"))

print(type(u'Hello'))

<class 'str'>

<class 'str'>

 

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

문자열 내장함수

·       문자열 자료형이 자체적으로 가지고 있는 함수입니다.

·       문자열 내장함수를 사용하기 위해서는 문자열 변수 이름 뒤에 점(.)를 붙인 다음에 사용하고자 하는 함수이름을 적어주면 됩니다.

 

문자열.함수명()

 

 

 

 

 

 

문자열 내장함수들

문자열 처리에서 주로 사용되는 내장 함수 목록입니다.

내장함수

설명

count()

·       문자() 개수 세기

find()

·       문자 위치 알려주기

·       문자열 안에 존재하지 않는 문자를 찾으면 -1 반환

index()

·       문자 위치 알려주기

·       문자열 안에 존재하지 않는 문자를 찾으려고할 경우 에러 발생

join()

·       문자열 결합

'separator'.join()

·       문자열을 결합하는데 사용되는 separator join 메서드 앞에 사용할 있습니다

upper()

·       소문자를 대문자로 바꾸기

isupper()

·       해당 문자열이 대문자 유무인지 True/False 반환합니다.

lower()

·       대문자를 소문자로 바꾸기

islower()

·       해당 문자열이 소문자 유무인지 True/False 반환합니다.

capitalize()

·       첫 문자를 대문자로 변환

isalpha()

·       문자로만 경우 True 반환합니다.

isalnum()

·       문자와 숫자로 구성된 경우 True 반환합니다.

isdecimal()

·       숫자로만 구성된 경우 True 반환합니다.

isspace()

·       공백인 경우 True 반환합니다.

swapcase()

·       대문자는 소문자로, 소문자는 대문자로 변환

title()

·       각 단어의 첫 문자를 대문자로 변환

istitle()

·       각 단어의 첫 문자가 대문자로 구성된 경우 True 반환합니다.

lstrip()

·       왼쪽 공백 지우기

rstrip()

·       오른쪽 공백 지우기

strip()

·       양쪽 공백 지우기

replace('바뀌게 될 문자열', '바꿀 문자열')

 

·       문자열 바꾸기

split('separator')

split()

·       문자열 나누기

·       특정 separator를 기준으로 문자열을 분리한 리스트를 반환합니다.

·       사용자가 설정한 특정 문자(separator)가 없다면 기본적으로 공백 문자를 기준으로 문자열을 분리합니다.

partition()

·       문자열을 partition() 메서드의 첫번째 파라미터로 분리하여 그 앞부분(prefix), partition 분리자(separator), 뒷부분 (suffix) 3개의 값을 Tuple로 반환합니다.

startwith('문자열')

·       특정 문자열로 시작하면 True 반환합니다.

endwith('문자열')

·       특정 문자열로 끝나면 True 반환합니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

고급 문자열 포매팅

·       {} format()함수를 사용한 문자열 포매팅 방법입니다.

·       {}안에 인덱스번호를 지정하여 문자열중 해당 부분에 데이터 값을 포함시켜 문자열을 출력시켜줍니다.

 

 

 

 

 

고급 문자열 포매팅 방법

·       인덱스 기준으로 포맷팅

·       필드명 기준으로 포맷팅

·       Object 기준으로 포맷팅

 

 

 

 

 

인덱스을 기준으로 포맷팅

인덱스인 위치를 기준으로한 포맷팅은 {0}, {1}, ... 등의 필드들을 format()함수의 파라미터 순서대로 매칭되어 집니다.

'문자열{인덱스}문자열'.format()

 

'문자열{0}문자열'.format()

'문자열{0}문자열{1}문자열'.format(1, 2)

 

 

 

 

 

필드명을 기준으로 포맷팅

필드명 사용방식으로 {name}, {age}와 같이 임의의 필드명을 지정하고 format() 파라미터에 이들 필드명을 사용하여 값을 지정합니다.

'문자열{key}문자열'.format(key=value)

'문자열{key1}문자열{key2}문자열'.format(key1=value1, key2=value2)

 

 

 

 

 

Object 기준으로 포맷팅

인덱스 및 키 사용 방식은 Python 오브젝트가 format()의 파라미터로 지정되고, 포맷에서 이 오브젝트의 인덱스(컬렉션의 경우) 혹은 속성, 키 등을 이용하는 것이다.

'문자열{key}문자열'.format(key=value)

values=(value1, value2)

'문자열{key[0]}문자열{key[1]}문자열'.format(key=values)

 

 

 

Posted by codedragon codedragon

댓글을 달아 주세요


 

 

변환 지시어(Conversion Specifier)

·       다른 언어에서는 "문자열 포맷 문자", "서식문자"라고도 합니다.

·       % Conversion 문자(: s, d, f) 사이에 전체 자릿수와 소숫점 뒤 자리수를 지정할 수 있습니다.

 

포멧문자

설명

%s

·       문자열 (String)

·       str() 내장 함수 사용

%r

·       repr() 내장 함수 사용

%c

·       문자 1(character)

·       '%c' % 'k

%d

·       10 정수 (Integer)

·       %5d: 5자리를 확보한 후 정수 포맷팅

%i

·       %d와 동일

%f

%F

·       부동소수점 (floating-point) 실수

·       %5.2f: 소수점 포함 총 5자리 확보한 후 2자리는 소수점 이하 자리수

%o

%O

·       8진수

·       '%o' % 13 --> 15

%x

%X

·       16진수

·       '%x' % 13 --> 'd'

·       '%X' % 13 --> 'D'

%u

·       부호 없는 정수. 음수는 양수처럼 해석함

·       '%u' % -12 --> '4294967284'

%e

%E

·       부동 소수점 실수를 지수 형태로 표현

·       %.2e: 2자리는 소수점 이하 자리수

%g

%G

·       부동 소수점을 편의에 따라 일반 실수 형식이나 지수 형식으로 변환합니다.

·       , 값에 따라 %e 혹은 %f 으로 변환됩니다.

%%

·       Literal % (문자 % 자체)

 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

문자열 슬라이싱(Slicing)

·       슬라이싱(Slicing) "잘라내다", "나누다" 의미를 가지고 있습니다.

·       꺽쇠괄호(대괄호; []) 안에 인덱스 번호와 콜론(:)으로 지정합니다.

·       기본적인 인덱스의 차이(스텝) 1 입니다.

·       시작 인덱스의 문자는 포함되지만 끝낼 인덱스의 문자를 포함되지 않습니다.(주의)

 

 

[ 시작할 인덱스(포함) : 끝낼 인덱스(제외) : 스텝 ]

[ start(included) : end(excluded) : step ]

 

구분

기본값

시작할 인덱스(포함; included)

0

끝낼 인덱스(제외; excluded)

자료형 크기

스텝 (step)

1

 

 

 


'Development > Python' 카테고리의 다른 글

고급 문자열 포매팅, 고급 문자열 포매팅 방법  (0) 2020.01.16
변환 지시어(Conversion Specifier)  (0) 2020.01.16
문자열 슬라이싱(Slicing)  (0) 2020.01.16
make 계열 메소드  (0) 2020.01.16
버블 차트(bubble chart)  (0) 2020.01.16
문자열 인덱싱(Indexing)  (0) 2020.01.15
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

귀무가설 vs 대립가설

·       통계에서의 가설 검정은 측정된 두 현상 간의 관련에 따라 귀무가설과 대립가설을 사용합니다.

·       귀무가설과 대립가설은 서로 모순 관계에 있습니다. 따라서 귀무가설이 참이면 대립가설이 거짓이고, 귀무가설이 거짓이면 대립가설이 참이 됩니다.

·       주어진 개의 가설 중에서 어떠한 가설을 귀무가설과 대립가설로 정하는 데는 일정한 규칙이 있습니다.

 

구분

귀무가설

대립가설

표시

·       H0

·       H1

용어

·       Null Hypothesis

·       Alternative Hypothesis

·       연구 가설(research hypothesis)

개념

·       데이터가 따르는 분포가 어떤 특정한 모수 값으로 고정되어 있다고 가정합니다.

·        확률 분포를 특정한 상태로 고정시켜야 하므로 반드시 등식(equality)으로 표현되어야 합니다.

·       새 제품이 기존의 제품 성능보다 더 큰 성능을 보여주거나 불량률 등이 너 낮아진 것을 보이는 것이 목표인 경우가 많기 때문에 대립 가설을 연구 가설이라고도 합니다.

·       대립 가설은 모수의 값이 특정한 값보다 크거나 작은 것을 나타냅니다.

·       대립 가설이 사실일 가능성이 높아지면 귀무 가설은 기각하게 됩니다.

·       

가설

·       보편적으로 옳다고 믿어지는 가설

·       사실과 같다

·       두 현상 간에 '관련이 없다'

·       두 현상 간에 '차이가 없다'

·       기존 주장에 문제점을 제기하는 새로운 가설

·       사실과 다르다(같지 않다).

·       두 현상 간에 '관련이 있다'

·       두 현상 간에 '차이가 있다'

규칙

·       대립가설과 반대의 증거를 찾기 위해 정한 가설

·       확실하게 증명하고 싶은 가설

·       뚜렷한 증거가 있어야 채택할 있는 가설

·       결과가 값비싼 가설

p-value

·       p-value가 크다

·       5%보다 크다

·       p-value > 0.05

·       p-value가 작다

·       5%보다 작다

·       p-value < 0.05

통계의미

·       귀무가설을 기각할 수 없으므로 대립가설을 기각(reject)한다.

·       , 귀무가설을 채택(accept)한다. 귀무가설에 95%의 신뢰를 준다.

·       귀무가설을 기각(reject)하고 대립가설을 채택(accept)한다.

·       두 변수가 독립이다

·       두 변수의 평균에 차이가 없다

·       동전을 던졌을 때 앞면이 나올 확률과 뒷면이 나올 확률에 차이가 없다

·       특정 약이 질병 치료에 효과가 없다

·       올해 제품의 생산량과 작년의 생산량이 같다.

·       한국성인 1명당 1 독서량은 3권이다.

·       바나나 한송이는 100g 맞다.

·       20xx 한국성인남자의 평균키는 175cm이다.

·       5 아동의 평균 몸무게는 30kg이다.

·      

·       두 변수가 독립이 아니다

·       두 변수의 평균에 차이가 있다

·       동전의 앞면이 나올 확률이 동전의 뒷면이 나올 확률과 다르다

·       특정 약이 질병 치료에 효과가 있다

·       올해 제품의 생산량과 작년의 생산량이 다르다.

·       한국성인 1명당 1 독서량은 3권미만이다.

·       바나나 한송이는 100g 맞다고 없다.

·       20xx 한국성인남자의 평균키는 175cm 아니다.

·       5 아동의 평균 몸무게는 30kg이상이다.

·      

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

CyberChef - 웹 기반 데이터 분석 도구  (0) 2020.01.17
검증곡선(Validation Curve)  (0) 2020.01.16
귀무가설 vs 대립가설  (0) 2020.01.16
IQ.csv  (0) 2020.01.16
testDB.csv  (0) 2020.01.16
가설검정 방향에 따른 변화  (0) 2020.01.16
Posted by codedragon codedragon

댓글을 달아 주세요



 

make 계열 메소드

확률분포를 사용하여 모형 시험을 위해 필요한 특성을 가진 가상의 데이터를 생성해 줍니다.

 

메소드

설명

make_regression()

회귀 분석용 가상 데이터 생성

make_classification()

분류용 가상 데이터 생성

make_blobs()

클러스터링용 가상 데이터 생성

make_circles

동심원 모양 데이터 생성

make_moons

초승달 모양 데이터 생성

 

 

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html

 


'Development > Python' 카테고리의 다른 글

변환 지시어(Conversion Specifier)  (0) 2020.01.16
문자열 슬라이싱(Slicing)  (0) 2020.01.16
make 계열 메소드  (0) 2020.01.16
버블 차트(bubble chart)  (0) 2020.01.16
문자열 인덱싱(Indexing)  (0) 2020.01.15
문자열안에 ' 또는 " 표시하기  (0) 2020.01.15
Posted by codedragon codedragon

댓글을 달아 주세요