확률적 표본 추출 방법
CODEDRAGON ㆍDevelopment/AI
반응형
확률적 표본 추출 방법
- 표본 추출 방법에는 여러가지 방법이 있습니다.
- 전체 데이터로부터 표본을 추출하는 방법으로 단순 임의 추출, 층화 임의 추출, 계통 추출같은 방법이 주로 사용되며 실무에서는 이 방법들을 혼합해서 사용합니다.
구분 | 설명 |
단순랜덤추출법 | · simple random sampling · ≒ 단순 임의 추출 ≒ 단순무작위 추출 · 전체 데이터에서 무작위로 샘플을 추출하는 방법 · 모집단에서 정해진 규칙 없이 표본을 추출하는 방식 · 모집단 전원에게 1번부터 N번까지 일련번호를 부여한 후에 이들 중에서 필요한 표본의 크기만큼 임의대로 조사대상을 추출하는 방법입니다. · N개의 원소로 구성된 모집단에서 n개(n≤N)의 표본을 추출할 때 각 원소에 1, 2, 3, … N까지의 번호를 부여합니다. 여기에 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출합니다. · 단순랜덤 추출법에서 난수표를 사용합니다. ex) 100개의 구슬중에서 무작위로 10개의 구슬을 선택하는 경우 |
다단계 추출법 | · Multi-state Sampling · 여러 단계로 나누어서 표본을 추출하는 방식입니다. · 2단계 샘플링 · 전체 n개의 데이터를 m개의 하위 모집단으로 분리한 후 이 중, m개의 하위 모집단을 선택합니다. · m개의 하위 모집단 중에서 n개의 데이터를 랜덤으로 추출합니다. ex) 1단계에서 고객등급별 군집 추출 후 2단게에서 성별, 연령대별 층화 임의 추출하는 경우 |
계통추출법 | · systematic sampling · ≒ 체계적 추출 ≒ 계통(적) 추출 · 모집단을 일정한 간격으로 추출하는 방식 · 1에서 n까지 모든 데이터에 번호가 매겨서 일정 간격마다 하나씩 데이터 추출합니다. · 추출단위에 일변번호를 부여하고 이를 등간격으로 나눈 후 첫 구간에서 하나의 번호를 랜덤 선정한 다음 등간격으로 떨어져 있는 번호들을 각 구간에서 추출하는 방법입니다. · 모집단의 모든 원소들에게 1, 2, 3, … N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(K=N/n)씩 n개의 구간으로 나눕니다. · 첫 구간(1, 2, 3, … K)에서 하나를 임의로 선택한 후 K개씩 띄어서 표본을 추출합니다. · 단순추출보다 대표성이 있습니다. ex) 100명의 대기자에레 번호표를 나눠주고 끝자리가 3으로 끝나는 번호표를 가진 사람을 선정하는 경우 |
집락추출법 | · cluster sampling · ≒ 집락표본 추출법 ≒ 군집 샘플링 ≒ 집락 샘플링 ≒ 군집 추출 · 모집단이 여러 개의 군집으로 구성되어 있는 경우 군집 중, 하나 또는 여러 개의 군집을 선정합니다. 선정된 모든 샘플링 단위를 전수 조사합니다. · 모집단을 소집단으로 나누고 일정수의 소집단을 무작위로 표본추출한 후 추출된 소집단 내의 구성원들을 모두 조사하는 방식입니다. · 층화 추출법과 다르게 군집의 성질을 따로 고려하지 않습니다. · 모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성되어 있습니다. · 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용됩니다. · 분류분석(Classification Analysis) , 군집분석(Cluster analysis)에 사용됩니다. ex) 100개의 전구를 색깔 별로 나눈 다음 노란색 전구를 모두 추출하여 조사하는 경우 |
층화추출법 | · stratified sampling ≒ Stratified Random Sampling · ≒ 층화표본 추출 ≒ 층별 샘플링 ≒ 층화 임의 추출 · 모집단을 여러 개의 층으로 구분한 후 각 층에서 랜덤하게 데이터 추출하는 방법입니다. · 각 계층은 내부적으로 동질적이고, 외부적으로는 이질적이야 합니다. · 모집단을 특정 기준에 따라 상이한 소집단으로 나누고, 이들 각각 소집단들로부터 표본을 무작위로 추출하는 방식입니다. · 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법입니다. · 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출합니다. · 다른 기법과 함께 사용할 수 있는 장점이 있습니다. ex) 지역별 여론 조사를 위해 조사 지역을 행정구역상 도로 나누고 각 도에서 무작위로 100명씩 선정하는 경우 |
'Development > AI' 카테고리의 다른 글
벡터의 내적 vs 외적 (0) | 2024.11.22 |
---|---|
대한민국 기초구역도 데이터 (1) | 2024.10.19 |
midjourney parameter list 미드저니 파라미터 (0) | 2024.05.07 |
imagga 인공지능 이미지 분석 플랫폼 (ft. 사진 태그 키워드 추출) (0) | 2024.04.30 |
구글 스프레드시트에 OpenAI API키 설정하기 ft. GPT for Sheets and Docs - Google Sheets (0) | 2024.04.23 |