달력

2

« 2020/2 »

  •  
  •  
  •  
  •  
  •  
  •  
  • 1


 

 

 

데이터프레임 데이터 조작

pandas NumPy 2차원 배열에서 가능한 대부분의 데이터 처리가 가능합니다.

추가로 데이터 처리 및 변환을 위한 다양한 메서드를 제공합니다.

 

 

·       데이터 갯수 세기

·       정렬

·       /열 합계

·       apply 변환

·       실수 값을 카테고리 값으로 변환

 


'Development > Python' 카테고리의 다른 글

pandas 메소드  (0) 2020.02.08
배열 연결 함수  (0) 2020.02.08
데이터프레임 데이터 조작  (0) 2020.02.07
iat indexer  (0) 2020.02.07
at indexer  (0) 2020.02.07
행 단위 인덱싱  (0) 2020.02.07
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 7. 16:49

iat indexer Development/Python


 

 

 

iat indexer

·       순서를 나타내는 정수 기반의 2차원 인덱싱

·       하나의 스칼라 값을 찾을 사용합니다.

 


'Development > Python' 카테고리의 다른 글

배열 연결 함수  (0) 2020.02.08
데이터프레임 데이터 조작  (0) 2020.02.07
iat indexer  (0) 2020.02.07
at indexer  (0) 2020.02.07
행 단위 인덱싱  (0) 2020.02.07
개별 데이터 인덱싱  (0) 2020.02.07
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 7. 16:48

at indexer Development/Python


 

 

 

at indexer

·       라벨값 기반의 2차원 인덱싱

·       하나의 스칼라 값을 뽑을 때만 사용합니다.

·       빠른 인덱싱 속도가 요구되는 경우에 사용합니다. (한개의 스칼라 값만 찾는다)

 


'Development > Python' 카테고리의 다른 글

데이터프레임 데이터 조작  (0) 2020.02.07
iat indexer  (0) 2020.02.07
at indexer  (0) 2020.02.07
행 단위 인덱싱  (0) 2020.02.07
개별 데이터 인덱싱  (0) 2020.02.07
정수 인덱스 사용  (0) 2020.02.07
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

단위 인덱싱

행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing)을 해야 합니다.


'Development > Python' 카테고리의 다른 글

iat indexer  (0) 2020.02.07
at indexer  (0) 2020.02.07
행 단위 인덱싱  (0) 2020.02.07
개별 데이터 인덱싱  (0) 2020.02.07
정수 인덱스 사용  (0) 2020.02.07
데이터프레임 열 인덱싱  (0) 2020.02.07
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

개별 데이터 인덱싱

데이터프레임에서 열 라벨(column label)로 시리즈(Series)를 인덱싱하고 다시 행 라벨(row label)개별 데이터를 인덱싱할 수 있습니다.

 

 

df["열 라벨 인덱싱"]["행 라벨 인덱싱"]

 

'Development > Python' 카테고리의 다른 글

at indexer  (0) 2020.02.07
행 단위 인덱싱  (0) 2020.02.07
개별 데이터 인덱싱  (0) 2020.02.07
정수 인덱스 사용  (0) 2020.02.07
데이터프레임 열 인덱싱  (0) 2020.02.07
iloc indexer  (0) 2020.02.07
Posted by codedragon codedragon

댓글을 달아 주세요

 

 

정수 인덱스 사용

·       정수 인덱스 사용 가능

·       정수 인덱스 사용시 ERROR

 

 

정수 인덱스 사용 가능

생성시 문자열로 라벨이 주어지지 않아서 정수형 인덱스가 만들어진 경우에는 인덱스 정수 사용할 있습니다.

 

 

 

정수 인덱스 사용시 ERROR - 문자열 라벨을 지정한 경우

데이터프레임의 열 인덱스(column index)문자열 라벨을 가지고 있는 경우에는 순서를 나타내는 정수 인덱스를 열 인덱싱에 사용할 수 없습니다. 정수 인덱스를 넣으면 오류가 발생합니다.

 


 

 

 

'Development > Python' 카테고리의 다른 글

행 단위 인덱싱  (0) 2020.02.07
개별 데이터 인덱싱  (0) 2020.02.07
정수 인덱스 사용  (0) 2020.02.07
데이터프레임 열 인덱싱  (0) 2020.02.07
iloc indexer  (0) 2020.02.07
확률분포 메서드  (0) 2020.02.07
Posted by codedragon codedragon

댓글을 달아 주세요


데이터프레임 열 인덱싱

·       데이터프레임을 인덱싱을 할 때 열 라벨(column label)을 키값으로 생각하고 인덱싱을 하면 됩니다.

·       인덱스로 라벨 값을 하나만 넣으면 시리즈(Series) 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임(DataFrame)이 반환됩니다.

·       하나의 열만 가져오면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱하면 됩니다.

 

'Development > Python' 카테고리의 다른 글

개별 데이터 인덱싱  (0) 2020.02.07
정수 인덱스 사용  (0) 2020.02.07
데이터프레임 열 인덱싱  (0) 2020.02.07
iloc indexer  (0) 2020.02.07
확률분포 메서드  (0) 2020.02.07
sort_values()  (0) 2020.02.06
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 2. 7. 15:32

iloc indexer Development/Python


 

 

 

iloc indexer

·       loc 인덱서와 반대

·       라벨이 아니라 순서를 나타내는 인덱스 정수(integer) 기반의 2차원 인덱싱을 합니다.

 

 

 

 

구분

설명

df.iloc[" 인덱스"]

인덱스정수번째 행을 가져옵니다.

df.iloc[" 인덱스", "열 인덱스"]

데이터프레임(df) 인덱스, 열 인덱스의 위치값

df.iloc[3]

4번째

df.iloc[ 3:5, 0:2 ]

4번째 행부터 5번째 행까지,  1번째열 부터 2번째 열까지

df.iloc[ [0, 1, 3] , [1, 2] ]

1번째 2번째 4번째 행 / 2번째, 3번째 열

df.iloc[1, 2]

2 3

 

 


'Development > Python' 카테고리의 다른 글

정수 인덱스 사용  (0) 2020.02.07
데이터프레임 열 인덱싱  (0) 2020.02.07
iloc indexer  (0) 2020.02.07
확률분포 메서드  (0) 2020.02.07
sort_values()  (0) 2020.02.06
DataFrame 객체 생성  (0) 2020.02.06
Posted by codedragon codedragon

댓글을 달아 주세요




 

 

lm()

·         lm(linear mode)

·         회귀분석분석 수행 함수

·         상관분석을 실시한 결과를 이용해 가장 높은 유의성을 갖는 변수가 데이터 사용량에 미치는 영향을 추정하기 위해 단순회귀분석을 수행합니다.

·         회귀직선(선형회귀) 그리는 함수로 반환값은 lm 객체입니다.

·         단순 선형회귀를 기준으로 y=a + bx라는 회귀함수(회귀곡선) 구하여 독립변수(x) 따른 종속변수(y)값을 예측하는 모델링입니다.

 

 

 

lm(종속변수~설명변수, 데이터세트)

lm(formula, data, subset, weights, na.action,

   method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,

   singular.ok = TRUE, contrasts = NULL, offset, …)

 

인자

설명

formula

·         포뮬러

·         종속변수~독립변수

data

·         포뮬러를 적용할 데이터

·         보통 데이터 프레임

subset

 

weights

 

na.action

·         NA 포함된 행을 다루는 방법을 설정합니다.

·         na.fail

·         na.omit

·         na.exclude

method = "qr"

 

model = TRUE

 

x = FALSE

 

y = FALSE

 

qr = TRUE

 

singular.ok = TRUE

 

contrasts = NULL

 

offset

 

 

 

formula 설정

구분

수식

회귀함수

y=a + bx

모델

dist = a + b × speed + ε

포뮬러

dist ~ speed

 

인자

설명

a

절편

b

기울기

ε

dist a + b × speed 사이의 , 오차

dist ~ speed

종속변수~독립변수

 

 

 

 

 

 

선형회귀

(x1, x2, x3, , xn) n차원의 확률 변수로 하여 조건부 기대값을 가집니다.

 

 

 

 

선형회귀 종류

단순선형회귀

하나의 설명 변수에 기반한 경우

다중선형회귀

이상 복수의 설명 변수에 기반한 경우

여러 독립 변수가 주어지면 이들을 + 연결해 나열하여 중선형 회귀 모델을 만들 있습니다.

 

 

 

 

 

회귀분석 요약 결과

> summary(f)

Call:
lm(formula = do$
몸무게.킬로그램 ~ do$신장.센티미터)

Residuals:
    Min      1Q  Median      3Q     Max
-80.080  -9.208  -1.828   7.375  61.520

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)   
(Intercept)      -1.051e+02  9.846e-01  -106.7   <2e-16 ***
do$
신장.센티미터  1.015e+00  5.633e-03   180.1   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 12.58 on 167981 degrees of freedom
Multiple R-squared:  0.1619,        Adjusted R-squared:  0.1619
F-statistic: 3.244e+04 on 1 and 167981 DF,  p-value: < 2.2e-16

 

항목

설명

Call

·         입력한 모형식

Residuals

·         회귀식에 의해 추정된 값과 실제값(입력값) 차이를 나타냅니다.

·         최소값, 1사분위수, 중앙값, 3사분위수, 최대값을 의미합니다.

·         1사분위수는 크기 순으로 자료(데이터) 나열 했을 25% 해당하는 , 3사분위수는 75% 해당하는 입니다.

Coefficients

·         추정된 회귀 계수

Intercept

·         y절편

 

 

do$신장.센티미터

·         (독립변수(do$신장.센티미터) 기울기)

Residual standard error

·         표준오차.

·         표준오차 값이 작아야만 회귀계수가 의미가 있습니다.

·         자유도는 16, 관측값에서 -1 값이 자유도가 됩니다.

Multiple R-squared

·         R-squared 결정계수

·         1 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다.

Adjusted R-squared

·         수정된 결정계수를 의미 합니다.

·         1 가까울 수록 회귀계수의 설명력이 높음을 의미 합니다.

·         결정계수는 독립변수가 많아질 수록 증가하는 특징을 가지고 있습니다.

·         이에 수정된 결정계수를 중심으로 회귀모형의 설명력을 측정 합니다.

 

F-statistic

·         F통계량

·         F통계량은 모형 전체의 유의성을 판단하기 위한 통계량 입니다.

p-value

·         p-value

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

가설 검정의 오류

통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 다음과 같은 통계적인 오류가 발생할 가능성이 항상 존재합니다.

 

 

·       1종 오류

·       2종 오류

 

 

 

1종 오류

귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류를 제1종 오류라고 합니다.

 

 

 

2종 오류

귀무가설이 참이 아닌데 잘못하여 이를 채택하게 되는 오류를 제2종 오류라고 합니다.

 


Posted by codedragon codedragon

댓글을 달아 주세요