달력

11

« 2019/11 »

  •  
  •  
  •  
  •  
  •  
  • 1
  • 2
2019. 11. 15. 05:06

dtype Development/Python



 

 

dtype

·       NumPy 배열의 자료형을 지정하거나 만들어진 배열의 자료형을 알고자 사용하는 인자입니다.

·       NumPy 배열은 배열(Array)이므로 ndarray클래스의 데이터는 같은 자료형이어야 합니다.

·       array()함수로 새로운 배열을 만들 때 dtype 인자를 생략하면 주어진 데이터를 저장할 수 있는 자료형을 추론하여 자동 지정됩니다.

·       array()함수로 새로운 배열을 만들 때 자료형을 명시적으로 지정하려면 dtype 인자로 자료형에 해당하는 접두사와  접두사뒤에 바이트 수 혹은 글자 수를 의미하는 숫자로 자료형타입을 지정하면 됩니다.

 

 

x = np.array(data, dtype='자료형접두사숫자')

x.dtype

 

 

인자

설명

data

저장할 데이터 배열 소스

dtype

데이터 타입을 지정합니다.

바이트수나 문자에 해당하는 숫자를 생략하면 운영체제에 따라 적절한 크기로 할당되어집니다.

 

dtype 접두사

설명

b

불리언(Boolean)

 

b #참 혹은 거짓

i

정수(Integer)

 

i8 # 8바이트(64비트) 정수

u

부호 없는 정수 (Unsigned Integer)

 

u8 # 8바이트(64비트) 정수

f

부동소수점(Float)

 

f8 # 8바이트(64비트) 부동소수점 실수

c

복소부동소수점

 

c16 # 16바이트(128비트)

O

객체(Object)

 

0 #객체에 대한 포인터

S

바이트 문자열(String)

 

S24 # 24 문자열

U

유니코드 문자열(Unicode)

 

U24 # 24 유니코드 글자

 

 


'Development > Python' 카테고리의 다른 글

nltk 데이터 다운하기  (0) 2019.11.18
클래스 정의  (0) 2019.11.17
dtype  (0) 2019.11.15
AttributeError: module 'xxx' has no attribute 'xxx'  (0) 2019.11.14
4.Summary - 4.데이터베이스 활용  (0) 2019.11.14
2002년 한일월드컵 기간의 기온 공공데이터 가져오기  (0) 2019.11.14
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

- 인코딩(one-hot encoding)

·         텍스트를 유의미한 숫자(벡터) 바꾸는 가장 손쉬운 방법입니다.

·         해당되는 하나의 데이터만 1 변경해 주고 나머지는 0으로 채워주기 때문에 원핫 인코딩이라고 합니다.

·         N개의 단어를 각각 N차원의 벡터로 표현하는 방식이다.

·         단어 하나에 인덱스 정수를 할당한다는 점에서 '단어 주머니(bag of words, BoW)' 부르기도 합니다.

·         원핫인코딩은 파이썬코드로 직접 구현할 수도 있지만 판다스나 사이킷런 패키지를 사용해서 변환할 수도 있습니다.

 

 

 

 

http://www.kakaobrain.com/blog/6

https://en.wikipedia.org/wiki/One-hot

 

 

 

 

 

'인간'을 표현하는 벡터 원-핫 인코딩 예

·         데이터에 포함된 단어로 사전을 만들고, 이를 기반으로 one-hot encoding 하여 단어를 표현합니다.

·         '인간'이라는 단어가 포함되는 자리엔 1 넣고 나머지에는 0 넣습니다.

 

구분

데이터

인코딩

[인간, 펭귄, 문어, 사람]

인코딩

인간을 표현하는 벡터

[1, 0, 0, 0]

 

 


'Development > Big Data, R, ...' 카테고리의 다른 글

선형 회귀(Linear Regression)  (0) 2019.11.16
나이브베이즈 특징  (0) 2019.11.16
원-핫 인코딩(one-hot encoding)  (0) 2019.11.15
맛있는 수박/커피 고르기  (0) 2019.11.15
분류 분석 모형  (0) 2019.11.14
베이지안 네트워크가 활용된 사례  (0) 2019.11.14
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

맛있는 수박/커피 고르기


 


 

 

무게는?

색깔은?

크기는?

재배지는?

 

 

수박의 꼭지 부분 마른 것이 맛있습니다.

동그란 배꼽부분 작을수록 익은 수박입니다.

수박의 무늬 선명한 것이 익은 수박입니다. 배꼽으로 향한 무늬가 가늘고 수가 많아야 맛있는 수박입니다.

같은 크기라도 무거운 것이 맛있습니다. 원형 보다는 타원형의 수박이 맛있습니다.

 

커피 (Taste) 향기(Aroma) 종합하여 향미(香味 또는 風味/Flavor)라고 하며 커피의 가장 중요한 품질 요소이다. 미국 스페셜티 커피협회(SCAA) 커피 향미를 향기(Aroma), 상큼한 (Acidity), 중후한 (Body), 향미(Flavor), 뒷맛(After Taste), 전체적 균형 (Balance) 여섯 가지 관능 요소로 평가한다.

 

생두 크기 클수록 고급이며 가격이 비싼 편이나, 맛과 비례하지는 않으며, 커피 맛과 향을 좌우하는 밀도가 낮은 생두도 일부 포함되어 있으므로 살펴보아야 한다. 보통 크기를 분류할 때는 스크리너(일정한 크기 구멍이 뚫린 ) 쳐서 작은 생두를 밑으로 빠지게 하여 위에 생두가 남도록 하여 분류한다. 생두 크기는 '길이' 아니라 '' 기준으로 하며, 스크린(#20), 스크린(#19) 등으로 표시한다. 폭으로 18÷64inch=7.62mm 이상인 경우 스크린(#18), 콜롬비아 수프리모(supremo, #17이상), 엑셀소(excelso, #15이상), 케냐 AA(#18), A(#17)

 

조직이 치밀하여 밀도 높을수록 고급이며, 커피 맛과 향이 풍부하다. 커피 밀도는 재배지 고도와 밀접한 관계가 있으며, 해발고도 1,000-1,800mm 높고 서늘한 고지대 커피 조직은 단단하고 치밀하여 밀도가 높고, 온난한 기후에서 자란 저지대 커피 조직은 단단하고 밀도가 낮으며, 밀도가 높을 수록 향미가 풍부하다. 대부분의 커피콩 밀도는 1.101.30g/ml이다.

 

아라비카종은 청록색을 띨수록 고급이고, 맑고 투명한 느낌이 나며, 반면 색깔 탁하고 황색에 가까울수록 낮은 등급의 로부스타 종이다. 커피열매를 수확하여 가공한 오래 둘수록 청록색에서 황갈색으로 변하고, 온도와 습도에 많은 영향을 받는다. 여름철 온도와 습도가 높은 곳에서 저장하면 백화현상이 일어나며, 생두 색깔 분류는 사람이 직접 하기 때문에 세밀히 구분하는 것은 쉽지 않다.

 

 

미국 스페셜티 커피협회(Specialty coffee Association of America : SCAA) 기준에 의하면 생두 표준 수분 함량 13% 미만이며, 이상이면 곰팡이가 번식하기 쉽고 나쁜 냄새가 스며들 있으며, 수분함량 10% 미만인 생두는 오래되어 수분이 증발한 것일 가능성이 높다. 수분함량은 커피 볶기와 저장 품질에 직접적인 영향을 미치므로, 국제적으로 거래 규격에 명시하도록 되어 있고, 수분 함량은 생두 크기나 밀도 분류에 앞서 샘플을 가지고 측정하는 것이 일반적이며, 보관 상태에 따라 수시로 변하기 때문에 각별히 주의를 요한다. 수분 함량이 너무 적거나 많게 되면 커피 로스팅 과정 영향을 미치게 되며 불쾌한 향미를 발생한다.

 

 

결점두 커피 재배과정이나 가공 과정 중에서 생긴 비정상적인 생두로, 전체적인 커피 품질을 떨어트린다. 색이 변한 , 곰팡이 , 마른 , 벌레 먹은 , 깨진 , 미숙한 , 껍질, 나뭇가지, 등과 같은 결점들이 있다.

 

http://bit.ly/36LKAa5

 

 

이런 기준을 제시해줘서 좋은 수박/커피을 고를 있게 해주는 것이 의사결정나무 모형입니다.

 

어떤 속성이 필요하고 어떤 속성을 먼저 판단해야 까요.

이것으로 트리(tree)형태로 만들게 됩니다.

 

 

 

images.google.com

 


'Development > Big Data, R, ...' 카테고리의 다른 글

나이브베이즈 특징  (0) 2019.11.16
원-핫 인코딩(one-hot encoding)  (0) 2019.11.15
맛있는 수박/커피 고르기  (0) 2019.11.15
분류 분석 모형  (0) 2019.11.14
베이지안 네트워크가 활용된 사례  (0) 2019.11.14
데이터 전처리(Data preprocessing)  (0) 2019.11.13
Posted by codedragon codedragon

댓글을 달아 주세요