달력

1

« 2020/1 »




 

MSSQL 이중화 종류

·         미러링 (Mirroring)

·         복제 (Replication)

·         로그 전달 (Log Shipping)

·         MSCS (MS Cluster Service)

 


'Development > Database' 카테고리의 다른 글

함수적 종속(Functional Dependency) 관계  (0) 2020.01.14
MongoDB Manual  (0) 2020.01.08
MSSQL 이중화 종류  (0) 2020.01.02
데이터 연동 기술의 발전  (0) 2019.12.26
Deaver 관련 내용 확인  (0) 2019.12.20
IT&기계학습 - 인스턴스의 ID 속성  (0) 2019.12.19
Posted by codedragon codedragon

댓글을 달아 주세요


  

 

수의 이름(숫자 자릿수에 따른 한글 표기법)

숫자를 표기할 자릿수에 따라  다양한 수사가 사용됩니다.

 

한국어

100

101

102

103

104

108

1012

1016

1020

1024

1028

1032

1036

1040

1044

1048

항하사

1052

아승기

1056

나유타

1060

불가사의

1064

무량수/무량대수

1068

구골: 

10100

아산키야: 

10140

센틸리온(short scale): 

10303

센틸리온(long scale): 

10600

구골플렉스: 

구골플렉시안: 

그레이엄 : 

108

 

http://bit.ly/2OQJCn4

http://bit.ly/2PpQyEG

https://en.wikipedia.org/wiki/Names_of_large_numbers

 

Posted by codedragon codedragon

댓글을 달아 주세요


 

 

포트폴리오 필수 포함 항목

·       1page 포트폴리오 (Optional)

·       목적 (기획의도)

·       목표

·       구성인원

·       총기간

·       개발환경

·       SWOT (강점, 약점)

·       Demo 동영상 제작 (optional)

·       문제 해결 방법 (Technical Search)

·       분석 단계별 화면 설명

·       https://codedragon.tistory.com/9792

·       프로젝트 산출물 (optional)

·       https://codedragon.tistory.com/6698

·       gitID

·       느낀 (고찰)

·       향후 계획

·      

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

빅데이터 품질 요소

빅데이터의 특징인 volume, variety, velocity, complexity 고려하여 다양한 접근 방법의 품질 관리가 필요하다.

 

데이터 품질 요소

설명

정확성(accuracy)

데이터 사용 목적에 따른 정확한 데이터 제공

완전성(completeness)

필요한 데이터를 식별하여 완전성 향상

적시성(timeliness)

데이터 활용 시점의 활용도 향상

일관성(consistency)

사용목적에 따른 일관된 데이터 활용 기준 제시

 

 

 

 

 

 

빅데이터 품질 요소 품질 전략

데이터 품질 요소

데이터 품질 전략

정확성(accuracy)

데이터 사용 목적에 따라 데이터 정확성의 기준을 다르게 적용합니다.

 

ex) 사용자가 접속한 사이트와 이동 지점을 분석하는 클릭스트링 분석과 부정이나 사기를 탐지하는 경우 데이터의 품질 수준은 다릅니다.

완전성(completeness)

필요한 데이터의 완전한 확보보다는 필요한 데이터를 식별하는 수준으로 적용 가능합니다.

적시성(timeliness)

소멸성이 강한 데이터에 대해 어느 정도의 품질 기준을 적용할 것인지 결정합니다.

 

ex) 로그 데이터, 트윗 데이터, 위치 데이터 등은 하루, 시간, 동안만 타당성을 가집니다.

일관성(consistency)

같은 데이터라 할지라도 사용 목적에 따라 달라지는 데이터 수집 기준 때문에 데이터 의미가 달라질 있습니다.

 

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

빅데이터 품질 요소 품질 전략

데이터 품질 요소

데이터 품질 전략

정확성(accuracy)

데이터 사용 목적에 따라 데이터 정확성의 기준을 다르게 적용합니다.

 

ex) 사용자가 접속한 사이트와 이동 지점을 분석하는 클릭스트링 분석과 부정이나 사기를 탐지하는 경우 데이터의 품질 수준은 다릅니다.

완전성(completeness)

필요한 데이터의 완전한 확보보다는 필요한 데이터를 식별하는 수준으로 적용 가능합니다.

적시성(timeliness)

소멸성이 강한 데이터에 대해 어느 정도의 품질 기준을 적용할 것인지 결정합니다.

 

ex) 로그 데이터, 트윗 데이터, 위치 데이터 등은 하루, 시간, 동안만 타당성을 가집니다.

일관성(consistency)

같은 데이터라 할지라도 사용 목적에 따라 달라지는 데이터 수집 기준 때문에 데이터 의미가 달라질 있습니다.

https://codedragon.tistory.com/3958

 


Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

데이터 수집 세부 계획서 목차


https://codedragon.tistory.com/9661

 

 

 

 

 

,외부 데이터 수집시 데이터 수집의 불가 원인 대안

구분

원인

대안

시스템

수집 시스템 오류

수집 시스템의 구성 프로그램을 수정하여 해결

시스템

네트워크 오류

방화벽, 네트워크 라우팅 설정 문제를 파악하여 해결

보안

데이터의 암호화

원천 데이터가 암호화되어 있는 경우, 인증서를 설치 권한 습득을 통해 해결

보안

폐쇄망 데이터

외부와 단절된 폐쇄망 데이터의 경우에는 직접 데이터를 로컬에서 추출하여 물리적으로 이동. 이때, 보안관리자의 승인을 득하여 반출한다.

저장 용량

데이터의 방대함

수집 데이터의 용량이 직접 수집이 불가한 경우 수집 주기를 조절하거나, 특정 조건의 구간 데이터만을 추출하여 저장

저장 용량

저장 공간의 부족

내부 시스템의 용량산정을 다시 하여 저장 공간의 확보

https://codedragon.tistory.com/9475

 

 



 

 

 

비즈니스 도메인 정보 이해

비즈니스 도메인 정보를 습득하기 위해서는 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보를 습득하고, 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보를 습득합니다.

구분

설명

비즈니스 모델

·       비즈니스 모델은 비즈니스 전개를 위해 필요한 구성요소 간의 상호 관계를 모델화시켜놓은 것입니다.

비즈니스 용어집

·       특정 비즈니스 영역에서 사용되는 신뢰할 수 있는 용어 및 관계 사전입니다.

비즈니스 프로세스

·       다양한 시스템과 비즈니스 unit들에 넓게 분산되어 있고 커스터마이즈되어 있는 복잡하고, 역동적인 실체로서 고객에게 가치를 전달하는 데 필요한 모든 순차적이거나 병렬적인 활동들의 집합입니다.

도메인 전문가 인터뷰

·       도메인 전문가는 도메인 분야에 경험과 깊이 있는 지식을 가진 사람입니다.

·       인터뷰를 통해 도메인에 사용되는 전문용어 및 다른 의미로 통용되는 일상용어를 익히고, 해당 분야에서 다루어지는 데이터의 종류, 유형, 특징 정보를 습득합니다.

https://codedragon.tistory.com/10037

  

 


Posted by codedragon codedragon

댓글을 달아 주세요


 

 

 

비즈니스 도메인과 원천데이터 정보

데이터 수집을 위해서 데이터 수집자는 데이터 분석 목표를 이해하고, 비즈니스 도메인에 대한 이해를 바탕으로 원천 데이터를 탐색해야 합니다.

 

·       비즈니스 도메인 정보 이해

·       원천 데이터 정보

 

 

 

비즈니스 도메인의 이해를 통한 원천데이터 탐색  도식도


 

 

 

 

 

 

비즈니스 도메인 정보 이해

비즈니스 도메인 정보를 습득하기 위해서는 비즈니스 모델, 비즈니스 용어집, 비즈니스 프로세스로부터 관련 정보를 습득하고, 도메인 전문가 인터뷰를 통해 데이터의 종류, 유형, 특징 정보를 습득합니다.

구분

설명

비즈니스 모델

·       비즈니스 모델은 비즈니스 전개를 위해 필요한 구성요소 간의 상호 관계를 모델화시켜놓은 것입니다.

비즈니스 용어집

·       특정 비즈니스 영역에서 사용되는 신뢰할 수 있는 용어 및 관계 사전입니다.

비즈니스 프로세스

·       다양한 시스템과 비즈니스 unit들에 넓게 분산되어 있고 커스터마이즈되어 있는 복잡하고, 역동적인 실체로서 고객에게 가치를 전달하는 데 필요한 모든 순차적이거나 병렬적인 활동들의 집합입니다.

도메인 전문가 인터뷰

·       도메인 전문가는 도메인 분야에 경험과 깊이 있는 지식을 가진 사람입니다.

·       인터뷰를 통해 도메인에 사용되는 전문용어 및 다른 의미로 통용되는 일상용어를 익히고, 해당 분야에서 다루어지는 데이터의 종류, 유형, 특징 정보를 습득합니다.

 

 

 

 

 

 

원천 데이터 정보

데이터 분석에 필요한 대상 원천 데이터의 수집 가능성, 데이터의 보안, 정확성을 탐색하고, 데이터 수집의 난이도, 수집 비용 등의 기초 자료를 수집할 수 있습니다.

 

구분

설명

데이터의 수집 가능성

원천 데이터 수집의 용이성과 데이터 발생 빈도를 탐색하고, 데이터 활용에 있어서 전처리 및 후처리 비용을 대략 산정할 수 있습니다.

데이터의 보안

수집 대상 데이터의 개인정보 포함 여부, 지적 재산권 존재 여부를 판단하여 데이터분석 시 발생할 수 있는 문제를 예방합니다.

데이터 정확성

데이터 분석 목적에 맞는 적절한 데이터 항목이 존재하고, 적절한 데이터 품질이 확보될 수 있는지 탐색해야 합니다.

수집 난이도

원천 데이터의 존재 위치, 데이터의 유형, 데이터 수집 용량, 구축비용, 정제 과정의 복잡성을 고려하여 데이터를 탐색합니다.

수집 비용

데이터를 수집하기 위해 발생할 수 있는 데이터 획득 비용을 산정할 수 있습니다.

 

 

 



Posted by codedragon codedragon

댓글을 달아 주세요


 

 

imageio 패키지 - install

 

pip install imageio

 

C:\CodeLab>pip install imageio

Collecting imageio

  Downloading https://files.pythonhosted.org/packages/1a/de/f7f985018f462ceeffada7f6e609919fbcc934acd

9301929cba14bc2c24a/imageio-2.6.1-py3-none-any.whl (3.3MB)

     |████████████████████████████████| 3.3MB 469kB/s

Requirement already satisfied: numpy in c:\python\python36\lib\site-packages (from imageio) (1.14.4)

Requirement already satisfied: pillow in c:\python\python36\lib\site-packages (from imageio) (5.1.0)

Installing collected packages: imageio

Successfully installed imageio-2.6.1

 

C:\CodeLab>

 

 


'Development > Python' 카테고리의 다른 글

reshape(), -1  (0) 2020.01.03
벡터 연산(Vectorized Computation)  (0) 2020.01.03
imageio 패키지 - install  (0) 2020.01.02
Infinity  (0) 2020.01.02
shutil 모듈 (Shell Utils)  (0) 2019.12.30
zip()  (0) 2019.12.29
Posted by codedragon codedragon

댓글을 달아 주세요

2020. 1. 2. 08:31

Infinity Development/Python


 

 

Infinity

·       NumPy에서는 무한대를 표현하기 위한 np.inf(infinity)함수를 제공합니다.

·       1 0으로 나누려고 하거나 0에 대한 로그 값을 계산하는 경우 무한대인 np.inf이 됩니다.

 

 

 

 

'Development > Python' 카테고리의 다른 글

벡터 연산(Vectorized Computation)  (0) 2020.01.03
imageio 패키지 - install  (0) 2020.01.02
Infinity  (0) 2020.01.02
shutil 모듈 (Shell Utils)  (0) 2019.12.30
zip()  (0) 2019.12.29
with ~ as 구문  (0) 2019.12.28
Posted by codedragon codedragon

댓글을 달아 주세요



 

 

 

tm_map()

문서에 함수를 적용하여 변환된 결과를 반환합니다.

 

http://bit.ly/2RXSKb1

 

 

tm_map(x, FUN)

 

 

parameter

description

x

코퍼스(Corpus) 또는 단어-문서(term-document) 행렬

FUN

변환에 사용할 함수

 

 

 

 

 

FUN 함수

사용자가 직접 만든 함수를 지정할 있고, {tm}패키지에서 제공하는 함수를 지정할 수도 있습니다.

 

 

{tm} 제공하는 변환 함수 목록

> getTransformations( )
[1] "removeNumbers"     "removePunctuation" "removeWords"       "stemDocument"    
[5] "stripWhitespace" 

>

 



 

 

변환 함수

설명

removeNumbers

·       숫자를 제거합니다.

removePunctuation

·       문장 부호를 제거합니다.

removeWords

·       단어를 제거합니다.

stemDocument

·       Porter's stemming algorithm 사용하여 문서안의 어간을  추출합니다.

stripWhitespace

·       불필요한 공백 지우기

·       연속된 공백 여러 개는 공백 하나로 치환됩니다.

content_transformer(tolower)

·       소문자로 변환하는 {tm}패키지의 함수

tolower

·       입력 텍스트가 영문인 경우, 대문자를 소문자로 변환하는 함수

 

 

'Development > Big Data, R, ...' 카테고리의 다른 글

1.Summary - 1.빅데이터 수집시스템 설계하기  (0) 2020.01.02
비즈니스 도메인과 원천데이터 정보  (0) 2020.01.02
tm_map()  (0) 2020.01.02
불용어 처리(Stopword Removal)  (0) 2020.01.01
과적합(overfitting)  (0) 2020.01.01
신경망 발전  (0) 2020.01.01
Posted by codedragon codedragon

댓글을 달아 주세요