달력

1

« 2020/1 »

  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  


 

불린 인덱스를 통한 데이터 정제 - 해설

 

 

import numpy as np

 

# numpy 배열 생성

dirty = np.array([9, 4, 1, -0.01, -0.02, -0.001])

 

 

# 더러운 데이터(음수)

# 불린 배열을 생성합니다.

whos_dirty = dirty < 0

 

print(whos_dirty)

# [False False False  True  True  True]

 

 

# 불 배열을 불 인덱스로 사용합니다.

# 모든 음수 값을 0으로 바꾼다.

dirty[whos_dirty] = 0

print(dirty)

# [9. 4. 1. 0. 0. 0.]

 

 

 

[False False False  True  True  True]

[9. 4. 1. 0. 0. 0.]

 


'Development > Python' 카테고리의 다른 글

MySQL DB Module  (0) 2020.01.10
ImportError: cannot import name 'imread' 에러 해결방법  (0) 2020.01.10
불린 인덱스를 통한 데이터 정제 - 해설  (0) 2020.01.09
퍼셉트론 학습 절차  (0) 2020.01.09
pandas.read_csv()  (0) 2020.01.09
:  (0) 2020.01.09
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

퍼셉트론 학습 절차

 




'Development > Python' 카테고리의 다른 글

ImportError: cannot import name 'imread' 에러 해결방법  (0) 2020.01.10
불린 인덱스를 통한 데이터 정제 - 해설  (0) 2020.01.09
퍼셉트론 학습 절차  (0) 2020.01.09
pandas.read_csv()  (0) 2020.01.09
:  (0) 2020.01.09
numpy 연산  (0) 2020.01.08
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

pandas.read_csv()

·         CSV 파일로부터 데이터를 읽어 데이터프레임으로 만들어줍니다.

·         파일 패스 대신 웹상 URL 지정하면 Pandas 직접 해당 파일을 다운로드하여 읽어들인다.

 

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)[source]

 

옵션

설명

filepath

cvs 파일 경로

names

인덱스 정보를 지정합니다.

index_col

테이블 내의 특정한 열을 인덱스로 지정합니다.

skiprows

읽어들인 파일내용 중에 건너 뛰어야 행을 지정합니다.

na_values

특정한 값을 NaN 값으로 취급합니다.

한글은 NaN값으로 변경해 주지 않습니다. UniCode 됩니다.

delimiter

구분자 지정

 

구분자

설명

\t

필드가 탭으로 구분되는 것을 의미

 

quoting

따옵표에 대한 옵션

 

설명

0

QUOTE_MINIMAL

1

QUOTE_ALL

2

QUOTE_NONNUMERIC

3

QUOTE_NONE

큰따옴표를 무시

 

encoding

인코딩 방식 지정

encoding='cp949'

thousands

thousands = ','  하면 단위 자리 구분 기호가 없어집니다.

 

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

 

 

 

 

 

 

 

 

pandas.from_csv() - deprecated

·         CSV 파일로부터 데이터를 읽어 데이터프레임으로 만들어줍니다.

·         pandas.read_csv() 대체 되었습니다.

 

pandas.from_csv(path, header=0, sep=', ', index_col=0, parse_dates=True, encoding=None, tupleize_cols=None, infer_datetime_format=False)[source]

 

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html

 


'Development > Python' 카테고리의 다른 글

불린 인덱스를 통한 데이터 정제 - 해설  (0) 2020.01.09
퍼셉트론 학습 절차  (0) 2020.01.09
pandas.read_csv()  (0) 2020.01.09
:  (0) 2020.01.09
numpy 연산  (0) 2020.01.08
Anaconda User Guide  (0) 2020.01.08
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

Norm

·         선형대수(Linear Algebra)에서 벡터스페이스상에서 벡터의 크기, 벡터의 길이를 측정할때 사용하는 개념입니다.

·         In linear algebra, functional analysis, and related areas of mathematics,  a norm is a function that assigns a strictly positive length or size to each vector in a vector space (by wikipedia)

·         Norm에는 L1 Norm L2 Norm 있습니다.

 

 

https://en.wikipedia.org/wiki/Norm_(mathematics)

 

 

 

 

Norm 계산식

 


 


 

 

 

 

 

 

L1 Norm

·         Sum of Absolute values.

·         L1 Regularization, Computer Vision 등에 사용됩니다.

 

 

 

L1 Norm Norm 계산식에서 p 1값을 가지게 되며 계산식은 아래와 같습니다.

 



 

 

 

 

 

 

 

 

L2 Norm

L2 Norm kNN algorithm, k-mean algorithm 등에 사용됩니다.

 

 

L1 Norm Norm 계산식에서 p 1값을 가지게 되며

L2 Norm Norm 계산식에서 p 2값을 가집니다. 계산식은 아래와 같습니다.


 

 


Posted by codedragon codedragon

댓글을 달아 주세요

2020. 1. 9. 10:58

: Development/Python


 

 

 

:

·       이번에는 ":" 기호를 사용합니다.

·       데이터의 정렬, , 부호, 공백처리, 소수점, 타입 등을 정교하게 지정할 수 있습니다.

 

 

{index:공백대체문자 정렬기호 전체자릿수}.format(데이터)

 

print("{0:*>5}".format(10))

 

 

인자

설명

0

0 index로 데이터가 10 하나밖에 없으로 10 값을 의미

*

공백을 채우는 문자를 "*" 문자로 채우라는 의미

오른쪽 정렬을 의미

5

전체 자리수가 5자리라는 것을 의미

 

 


'Development > Python' 카테고리의 다른 글

퍼셉트론 학습 절차  (0) 2020.01.09
pandas.read_csv()  (0) 2020.01.09
:  (0) 2020.01.09
numpy 연산  (0) 2020.01.08
Anaconda User Guide  (0) 2020.01.08
LAB-불린 인덱스를 통한 데이터 정제  (0) 2020.01.07
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

머신러닝 기반 데이터 분석 계획 절차

구분

단계

1

비즈니스 이해 문제 정의

2

데이터 수집

3

데이터 전처리와 탐색

4

데이터에 대한 모델훈련

5

모델 성능 평가

6

모델 성능 향상 현업 적용

 

https://codedragon.tistory.com/9866

 


Posted by codedragon codedragon

댓글을 달아 주세요