달력

12

« 2019/12 »

  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  •  
  •  
  •  
  •  


 

 

 

supermarket.arff 데이터

·       고객이 백화점의 여러 매장에서 구매한 제품을 기록한 데이터입니다.

·       고객이 여러 매장에서 구매한 제품을 기록한 것으로 매장을 나타내는 변수들과 고객이 구매한 제품을 나타내는 변수, 그리고 총구매액의 크기를 나타내는 변수로 구성되어 있습니다.

·       매장에서 특정제품을 구매했을 경우, 't' 값을 가지고, 구매하지 않았을 경우 빈 값으로 표현되어 있습니다.

·       데이터는 4627건이 존재합니다.

 

 


 

 

C:\Program Files\Weka-3-8\data\supermarket.arff


 


 

 




'Development > Java' 카테고리의 다른 글

WEKA IBk  (0) 2019.12.09
분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

 

데이터 저장을 위한 ERD 통한 최적화된 Table 도식화

 

 

CASE 1 - 1NF

반복 집합이 있는 비정규 테이블 - Before 정규화

학번

과목명

성적

이름

100

{전자계산기 구조, 운영체제}

{92, 90}

김사랑

101

{데이터베이스, 데이터 통신}

{82, 76}

오지호

102

운영체제

82

이선균

 

 

 

After 정규화

학번

과목명

성적

이름

100

전자계산기 구조

92

김사랑

100

운영체제

90

김사랑

101

데이터베이스

82

오지호

101

데이터 통신

76

오지호

102

운영체제

82

이선균

 

 

 

 

 

CASE 2 - 2NF

1NF 정규 테이블 - Before 정규화

학번

과목명

성적

이름

100

전자계산기 구조

92

김사랑

100

운영체제

90

김사랑

101

데이터베이스

82

오지호

101

데이터 통신

76

오지호

102

운영체제

82

이선균

 

 

 

 

After 정규화

수강, 학생 테이블로 분리합니다.

 

수강 테이블

학번

과목명

성적

100

전자계산기 구조

92

100

운영체제

90

101

데이터베이스

82

101

데이터 통신

76

102

운영체제

82

 

 

학생 테이블

학번

이름

100

김사랑

101

오지호

102

이선균

 

 

 

 

CASE 3 - 3NF

 

Before 정규화

학생별 학과 지도교수 데이터입니다.

학번

지도교수

학과

100

이순재

컴퓨터 공학과

101

김연아

멀티미디어학과

102

이순재

컴퓨터 공학과

103

강부자

경영 정보학과

104

이순재

컴퓨터 공학과

105

김연아

멀티미디어학과

 

 

 

After 정규화

지도 테이블

학번

지도교수

100

이순재

101

김연아

102

이순재

103

강부자

104

이순재

105

김연아

 

 

교수 테이블

지도교수

학과

김연아

멀티미디어학과

강부자

경영 정보학과

이순재

컴퓨터 공학과

 

 

 

 

https://codedragon.tistory.com/4196

https://codedragon.tistory.com/8538

https://codedragon.tistory.com/9035

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

VisualSVNSERVER - download(다운로드)

 

홈페이지에 접속한 >>

페이지 오른쪽 VISUALSVNSERVER [download] 버튼을 클릭합니다.

https://www.visualsvn.com/


 

 

 

자신의 운영체제에 맞는 버전을 다운로드 합니다.

https://www.visualsvn.com/server/download/


 

 


 

 

 

 

직접 다운로드 

VisualSVN-Server-3.9.3-x64.msi



Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 8. 00:30

Webflow Development/UI&UX


 

 

Webflow

·         웹디자인을 기본으로 하는 프로토타이핑 사이트입니다.

·         프로그램 설치 없이 상에서 프로토타이핑을 있습니다.

·         미리 만들어진 여러가지 템플릿(무료/유료) 활용해서 제작할 있습니다.

 

https://webflow.com/

 


 



Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

Hadoop - download for windows

홈페이지에 접속 >> [Download]

http://hadoop.apache.org/


 

 

"Binary download" binary 링크 클릭


 

 

 

링크 클릭하여 파일 다운로드

https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz


 

 


 

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

과적합 발생 원인

·       학습 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있습니다.

·       학습 데이터는 실제 데이터에서 편향된 부분만을 가지고 있을 수 있습니다. (데이터 편향)

·       학습 데이터에는 오류가 포함된 값이 있을 수 있습니다. (데이터 오류)

·       과거 학습한 데이터가 대표성을 가지지 못하는 경우 발생할 있습니다.

·       고려하는 변수가 지나치게 많을 발생할 있습니다.(차원의 저주 현상, 데이터가 표현하는 공간이 넓어지면서 얕게 분포, 점들이 서로 멀어지면서 값들이 모델에 미치는 영향이 커짐, 극단적인 값이 평균에 영향을 주게 됩니다.)

·       모델이 너무 복잡 경우 발생할 있습니다.

·       오류가 거의 0 가까운 모델이라 할지라도 실제 눈으로 예측하는 관계와는 차이가 발생 있기 때문에 교차 타당성 검증을 수행해야 합니다.

·       보통 훈련 집합을 이용하여 적합(fitting) 하게 되는데 이때, 예측 모델이 훈련이 아주 되었다고 하더라도 과적합(Overffing) 문제가 발생됩니다.

 

 

 

모델이 복잡한 경우

https://codedragon.tistory.com/8423

 

 

 

 

 

과적합을 해결하기 어려운 이유

·       학습 데이터는 실제 데이터의 부분 집합이고, 실제 데이터를 모두 수집하는 것은 불가능한 경우가 많습니다.

·       실제 데이터를 모두 수집하더라도 모든 데이터를 학습시키는 것이 불가능한 경우가 많습니다.

·       학습 데이터만으로는 실제 데이터와의 오차가 커지는 지점을 정확하게 알기 어렵습니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요

2019. 12. 7. 04:06

M5P Development/Java


 

 

M5P

·         M5 pruned model tree

·         선형 모델 트리를 만드는 비선형 방법

·         회귀분석 의사결정나무분석 동시에 수행할 있는 분류 알고리즘입니다.

·         분류규칙은 노드간 분기조건으로 회귀식은 말단노드 조건으로 사용됩니다.

·         MP5 분류된 가장 하위의 leap 노드를  LM (Linear Model) 으로 표시해 줍니다.

 


'Development > Java' 카테고리의 다른 글

분석방법 로드맵  (0) 2019.12.09
supermarket.arff 데이터 셋  (0) 2019.12.08
M5P  (0) 2019.12.07
breast-cancer.arff  (0) 2019.12.06
OneR 수행단계  (0) 2019.12.05
베이지안 네트워크 w/ Java  (0) 2019.12.05
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

R Code 예시 1

testDB.csv(헤더없음) 파일을 읽어서 헤더(id,name,score) 생성하여 데이터 기본통계함수와 데이터 구조를 확인하는 R 코드 예시입니다.

 

 

 

#header=FALSE 지정하여 헤더 없이 파일의 모든 데이터를 읽어옵니다.

#x <- read.csv("testDB.csv", header=F)

> x <- read.csv("testDB.csv", header=FALSE)

>

 

 

# 라인이 헤더로 처리됩니다.

> x
  V1         V2 V3
1  1 codedragon 95
2  2  bufferfly 97
3  3    unicorn 92

>

 

# --------------------------------------------------------

 

#names()함수를 사용해 별도로 컬럼 이름을 지정해 줍니다.

> names(x) <- c("id", "name", "score")
> x
  id       name score
1  1 codedragon    95
2  2  bufferfly    97
3  3    unicorn    92

>

 

 

 

# --------------------------------------------------------

 

 

 

# 데이터 기본통계함수
>
summary(x)
       id              name       score     
 Min.   :2.00   bufferfly:1   Min.   :92.00 
 1st Qu.:2.25   unicorn  :1   1st Qu.:93.25 
 Median :2.50                 Median :94.50 
 Mean   :2.50                 Mean   :94.50 
 3rd Qu.:2.75                 3rd Qu.:95.75 
 Max.   :3.00                 Max.   :97.00 

>

 

# --------------------------------------------------------

 

 

#str(x) : 데이터의 열을 구성하는 자료형타입(자료의 mode) 확인합니다.

 

> str(x)
'data.frame':        3 obs. of  3 variables:
 $ id   : int  1 2 3
 $ name : Factor w/ 3 levels "bufferfly","codedragon",..: 2 1 3
 $ score: int  95 97 92

>

# 읽어들인 파일은 데이터 프레임(data.frame)으로 반환됩니다.

#데이터를 읽어들인 결과를 보면 name 컬럼이 모두 팩터(Factor ) 형태로 변환되어져 있습니다.

# 이름(name) 범주형 변수가 아니므로 문자열형태로 변환해주어야 합니다.

# --------------------------------------------------------

 

https://codedragon.tistory.com/9649

https://codedragon.tistory.com/9718

https://codedragon.tistory.com/666

https://codedragon.tistory.com/8746

 

 

 

 

 

 

 

R Code 예시 2

카이제곱 검정을 통하여 장난감 보유 현황과 만족도에 대해

귀무가설과 대립가설을 세우고 분석 예시

 

 

child 장난감 보유 현황 (car, truck, doll)

No

car

truck

doll

child1

5

11

1

child2

4

7

3

 

 

 

 

검정방법

> child1 <- c(5, 11, 1)
> child2 <- c(4, 7, 3)
> Toy <- cbind(child1, child2)
> rownames(Toy) <- c("car", "truck", "doll")
> chisq.test(Toy)

Pearson's Chi-squared test

data:  Toy
X-squared = 1.7258, df = 2,
p-value = 0.4219

 

>

 

 

결론

p-value 0.05(95% 신뢰수준)보다 크므로 "H0: child 징난감 보유양은 독립이다."라는 귀무가설을 기각할 없습니다.

통계량 χ2(X-squared) 1.7258였으며

자유도(df; Degree of Freedom) child 2 레벨, 장난감 보유 현황이 3 레벨이므로 (2-1)(3-1) = 2 됩니다

 

child 장난감 보유양의 데이터에 대한 독립성 검정에서 p-value 0.4219 입니다. 값은 0.05보다 커서 주어진 분할표는 'child 장난감 보유양이 상관관계가 없다' 귀무가설을 기각할 충분한 증거가 되지 않습니다. 따라서 '성별과 운동은 상관관계가 없다' 결론을 내리게 됩니다.

 

 

https://codedragon.tistory.com/9423

https://codedragon.tistory.com/9493

https://codedragon.tistory.com/6598

 

 

 

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

단계별 정규형과 제약 조건

·         단계별로 정규형이 만족해야 하는 제약조건과 정규화 방법에 차이가 있습니다.

·         4, 5정규형은 너무 복잡한 종속성을 고려해야 하고 릴레이션 수도 과도하게 많아질 있습니다. 일반적으로 보이스/코드 정규형까지만 고려하므로, 4, 5 정규형을 제외한 나머지 정규형에 대해 자세히 알아보겠습니다.

 

정규형 단계

제약 조건

정규화 방법

1 정규형(1NF)

모든 속성의 도메인이 원자 이어야 합니다.

·         다중치 속성 중복 속성을 분리 (다중치와 반복 그룹 제거)

·         나눌 있는 만큼 쪼갭니다.

2 정규형

(2NF)

모든 속성이 기본 키에 완전 함수적 종속이어야 합니다.

·         기본 키에 부분 함수적 종속인 속성을 분리 (부분 함수적 종속 제거)

·         테이블의 컬럼들이 기본키와 직접 연관되는 컬럼만으로 구성합니다.

3 정규형

(3NF)

속성들 간에 이행적 함수적 종속이 없어야 합니다.

·         이행적 함수적 종속인 속성을 분리 (이행적 함수적 종속 제거)

·         컬럼들 간의 종속관계가 있으면 안됩니다.

보이스/코드 정규형 (BCNF)

후보 키가 아닌 결정자가 없어야 합니다.

·         후보 키가 아니면서 결정자 역할을 하는 속성과 종속자를 분리

·         (모든 결정자가 후보 )

4 정규형 (4NF)

다치 종속(Multi-valued Dependency) 속성이 없어야 합니다.

·         다치 종속인 속성을 분리

5 정규형 (5NF)

조인 종속(Join Dependency) 속성이 없어야 합니다.

·         조인 종속인 속성을 분리

 

 


'Development > Database' 카테고리의 다른 글

단계별 정규형과 제약 조건  (0) 2019.12.07
NoSQL 분류  (0) 2019.12.03
Summary - 무결성 제약 조건의 특성, QUERY 연습  (0) 2019.11.28
DB & DBMS  (0) 2019.11.28
트랜잭션(Transcation)  (0) 2019.11.19
Sample database with test suite  (0) 2019.11.16
Posted by codedragon codedragon

댓글을 달아 주세요


 

 

하이브리드 도식도

·         표준 기술을 그대로 사용하여 앱을 개발한 후에 오픈 소스 크로스 프레임워크를 이용하여 네이티브 앱으로 변환시켜 배포되는 형식입니다.

·         콘텐츠 영역은 HTML 기반의 앱으로 제작하였지만 모바일기기의 고유정보와 장치를 사용할 있습니다.

·         외부는 네이티브 앱이지만 내부는 모바일 앱으로 실행되어지고 이를 위해서는 별도의 하이브리드 프레임워크가 필요합니다.

 

 


 


'Development > Android' 카테고리의 다른 글

하이브리드 앱 도식도  (0) 2019.12.07
Navigation Drawer Activity  (0) 2019.11.29
MediaPlayer 사용 단계  (0) 2019.11.26
한글 키보드 프로그램(apk) 설치후 설정하기  (0) 2019.11.19
LogCat  (0) 2019.11.12
Testing apps in Foldables (폴더블 테스트)  (0) 2019.10.31
Posted by codedragon codedragon

댓글을 달아 주세요