bigdata(70)
-
HA (High Availability), HA 단점, DG(Data Guard)
HA (High Availability) · 복제품을 하나더 만들어 놓고 Storage를 동기화합니다. · HA는 하나는 Active, 나머지 하나는 Standby 상태를 유지합니다. · 똑같은 장비를 두개를 구축해서, 하나는 실제 서비스(active)를 하고, 나머지 한대는 대기상태(standby)로 두는 서버구성방식입니다. · active상태였던 서버가 고장나면, standby상태의 서버가 즉시 active 상태로 바뀌게 되어 서비스 중단없이 서버를 유지할 수 있습니다. HA 단점 구분 설명 고비용 · 추가적인 서버 비용이 발생합니다. 데이터 동기화 문제 · active상태의 node에서 작업을 하다가 장애로 갑자기 DB가 죽으면, standby상태의 node로 작업이 전환되어 작업을 계속 할 수는 ..
-
종속변수 vs 독립변수
종속변수 vs 독립변수 입력 데이터와 출력 데이터는 분석기법에서 독립변수와 종속변수으로 불리워집니다. 구분 입력 데이터 출력 데이터 개념 · 분석의 기반이 되는 데이터 · 추정하거나 예측하고자 하는 목적 데이터 표기 · 보통 알파벳 X 로 표기합니다. · 보통 x, x1, x2, xn등으로 표시합니다. · y의 변화를 회귀방정식으로 표현하고 설명하기 위해 필요한 변수 · 보통 알파벳 Y 로 표기합니다. 유사용어 · 독립변수(independent variable) · 특징(feature) · 설명변수(explanatory variable) · 예측변수 · 종속변수(dependent variable) · 반응변수 · 목표변수 · 목적 값(Target Value) · 종속변수가 카테고리값이면 라벨(label)..
-
정규화(Normalization)-정의, 목적, 특징, 유형, 정규화 수준에 따른 장단점
정규화(Normalization) · 정의 · 목적 · 특징 · 유형 · 정규화 수준에 따른 장단점 정규화 정의 중복성을 최소화하고 정보의 일관성을 보장하기 위한 개념 정규화 목적 · 데이터 중복 배제로 데이터 관리 편의성 제고 및 자료 저장 공간의 최소화 · 데이터 모형 단순화 · 데이터 구조의 안정성 및 무결성 유지 · 속성의 배열상태 검증 · 엔터티와 속성의 누락 여부 검증 수단 · 자료검색과 추출의 효율성을 추구 정규화 특징 · 어떠한 관계구조가 바람직한 것인지, 바람직하지 못한 관계를 어떻게 분해하여야 하는지에 관한 구체적인 판단기준을 제공 · 정규화된 데이터 모델은 정확성, 일치성, 단순성, 비중복성, 안정성 보장 정규화 유형 유형 설명 제1정규화 · 반복되는 속성이나 Group 속성 제거 ·..
-
ZARA(자라)의 빅데이터 분석 활용
ZARA(자라)의 빅데이터 분석 활용 · 스페인의 패션 의류 유통업체인 ZARA는 실시간으로 수집한 매장 판매 데이터를 통해 최대 매출이 가능한 재고 최적 분배 시스템 활용하여 불필요한 재고를 감소시키고 실시간으로 전달된 고객 니즈가 반영된 제품 생산하여 판매량을 증대하고 있습니다. · 수요와 관련한 빅데이터 기반의 재고 및 생산의 최적화를 달성하고 있습니다. 과잉생산 및 할인을 지양하고 분석적으로 재고를 관리하는 무재고 운영 정책을 원칙으로 하여 전 세계 매장의 판매 및 재고 데이터를 분석하여 최대 매출을 창출할 수 있는 재고 최적 분배 시스템을 개발했습니다. · 최적의 분배시스템을 이용하여 제품별 수요예측, 매장별 판매추이분석, 진열된 상품수가 판매량에 미치는 영향을 분석하여 데이터 기반으로 의사결정..
-
빅데이터 플랫폼의 구조 - 소프트웨어 계층, 플랫폼 계층, 인프라 스트럭처 계층
빅데이터 플랫폼의 구조 구조는 소프트웨어 계층, 플랫폼 계층, 인프라 스트럭처 계층으로 구성되어 있습니다.
-
하둡(Hadoop) 배포판의 기본 구성 요소
오픈소스 하둡 배포판의 기본 구성 요소 표준 오픈소스 하둡 배포판(아파치 하둡)에는 다음이 포함되어 있는데요. HDFS (Hadoop Distributed File System) 하둡 분산파일시스템 빅데이터 파일을 여러 대의 서버에 분산 저장하기 위한 파일시스템 맵리듀스 (MapReduce) 각 서버에서 데이터를 분산 처리하는 분산병렬처리를 위한 프레임워크입니다. 하둡 커먼 다른 하둡 모듈이 사용 다른 솔루션 하둡의 기본 구성 요소외에 다른 솔루션들도 있습니다. 벤더들은 하둡 표준 배포판을 개선하는데 공헌하고 있습니다. 오픈소스 저장소에 업데이트한 코드를 제공하면서 하둡 공동체의 성장을 촉진하고 있습니다. 하둡 배포판 3종 가장 많이 쓰이는 하둡 배포판 3종은 클라우데라(Cloudera), 맵알(MapR..