AI(122)
-
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사
Penn Treebank Tagset(펜 트리뱅크 태그세트)의 사용 품사 Alphabetical list of part-of-speech tags used in the Penn Treebank Project Number Tag Description 1. CC Coordinating conjunction 2. CD Cardinal number 서수 3. DT Determiner 관형사 4. EX Existential there 5. FW Foreign word 6. IN Preposition or subordinating conjunction 7. JJ Adjective 8. JJR Adjective, comparative 9. JJS Adjective, superlative 10. LS List item..
-
FileNotFoundError: [Errno 2] No such file or directory: 오류 해결방법
오류 메시지 FileNotFoundError: [Errno 2] No such file or directory: 오류 원인 설정되어진 작업경로를 기준으로 파일 찾기 때문에 오류가 나옵니다. 해결방법 VS Code "EXPLORER"에서 작업 경로 지정한 경우 해당 작업 경로를 기준으로 해당 코드가 있는 경로 까지 다시 지정해야 합니다. 즉, os.getcwd() 메소드를 실행하면 VS Code의 "EXPLORER"에서 작업 경로 지정까지만 나옵니다. 파일을 정확하게 오픈하기 위해서는 절대경로를 지정해 주거나 작업경로를 현재 사용하는 경로로 지정해 주어야 합니다. # VSCode에서 - 작업 디렉토리 변경하기 import os # Get the current working directory (cwd) cu..
-
파이썬 출력결과 파일로 저장 하기
파이썬 출력결과 파일로 저장 하기 파이썬을 통해 분석한 결과를 출력할때 내용이 많아 콘솔상에서 확인이 되지 않는 경우 파일로 저장한 후 확인할 수 있습니다. 파일 오픈하기 output.txt 파일을 w(쓰기)모드로 오픈합니다. out = open('output.txt','w') 파일로 출력하기 print()로 출력할 때 file옵션을 통해 해당 파일로 출력해 줍니다. print(row, file=out)
-
데이터 비식별화 기법 - 가명처리(pseudonymisation), 총계처리(aggregation), 데이터 값 제거(data reduction), 범주화(data suppression), 데이터 마스킹(data masking)
데이터 비식별화 기법 대표적인 비식별화 기법으로는 다음과 같은 것들이 있습니다. · 가명처리(pseudonymisation) · 총계처리(aggregation) · 데이터 값 제거(data reduction) · 범주화(data suppression) · 데이터 마스킹(data masking) 가명처리(pseudonymisation) · 식별 가능한 변수값을 다른 값으로 대체합니다. · 세부기법으로 휴리스틱 가명화, 암호화, 교환방법등을 사용합니다. 비식별화 전 데이터 비식별화 나실명, 38세, 수원 거주 홍길동, 38세, 수원 거주 홍길동, 27세, 서울 거주, 한국대 재학 홍길동, 27세, 서울 거주, A대 재학 총계처리(aggregation) · 개인정보 보호를 위해 데이터를 총합하거나 평균을 사용..
-
홀드아웃 (Holdout) 방법 ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법
홀드아웃 (Holdout) 방법 · ≒ Holdout Cross Validation; 홀드아웃 교차 검증 ≒ 홀드아웃 교차 방법 · 주어진 원천 데이터를 랜덤(random)하게 두 분류로 분리하여 교차 검정을 실시하는 방법입니다. 하나는 모형의 학습 및 구축을 위한 훈련용 데이터로 하나는 성과 평가를 위한 검증용 데이터로 사용합니다. · 데이터 집합을 서로 겹치지 않는 훈련 집합(training set)과 시험 집합(test set)으로 무작위 로 구분한 후, 훈련 집합을 이용하여 분석 모형을 구축하고 시험 집합을 이용하여 분석 모형의 성능을 평가하는 기법입니다. (P. Tan, M. Steinbach, and V. Kumar, 2007) · 훈련 집합과 시험 집합의 비율은 50:50, 70:30 등으로..
-
load_boston() - scikit-learn 패키지, 보스턴 주택가격(Boston Housing) 데이터셋
load_boston() · scikit-learn 패키지에 포함된 테이터 셋 · 보스턴 주택가격(Boston Housing) 데이터셋 · 1978 보스턴 주택 가격, 506개 타운의 주택 가격 중앙값 (단위 1,000 달러) · 범죄율, 찰스강 인접도, 고속도로 접근성 등의 정보가 저장되어 있습니다. 속성 설명 CRIM 범죄율 INDUS 비소매상업지역 면적 비율 NOX 일산화질소 농도 RM 주택당 방 수 LSTAT 인구 중 하위 계층 비율 B 인구 중 흑인 비율 PTRATIO 학생/교사 비율 ZN 25,000 평방피트를 초과 거주지역 비율 CHAS 찰스강의 경계에 위치 유무 1 찰스강의 경계에 위치한 경우 0 찰스강의 경계에 위치하지 않은 경우 AGE 1940년 이전에 건축된 주택의 비율 RAD 방사형..