Kaggle ML and Data Science Survey, 2017 - Detail

CODEDRAGON Development/Python

반응형



 

 

Kaggle ML and Data Science Survey, 2017

http://codedragon.tistory.com/7712

 

  

 

Overview

·         현재 DataSet 대한 정보를 얻을 있습니다.

·         데이터를 이해하는데 기본이 되므로 꼼꼼히 읽어보는 것이 좋습니다.

 

https://www.kaggle.com/kaggle/kaggle-survey-2017/home


 

Description

Context

For the first time, Kaggle conducted an industry-wide survey to establish a comprehensive view of the state of data science and machine learning. The survey received over 16,000 responses and we learned a ton about who is working with data, whats happening at the cutting edge of machine learning across industries, and how new data scientists can best break into the field.

To share some of the initial insights from the survey, weve worked with the folks from The Pudding to put together this interactive report. They’ve shared all of the kernels used in the report here.

Content

The data includes 5 files:

·         schema.csv: a CSV file with survey schema. This schema includes the questions that correspond to each column name in both the multipleChoiceResponses.csv and freeformResponses.csv.

·         multipleChoiceResponses.csv: Respondents' answers to multiple choice and ranking questions. These are non-randomized and thus a single row does correspond to all of a single user's answers. -freeformResponses.csv: Respondents' freeform answers to Kaggle's survey questions. These responses are randomized within a column, so that reading across a single row does not give a single user's answers.

·         conversionRates.csv: Currency conversion rates (to USD) as accessed from the R package "quantmod" on September 14, 2017

·         RespondentTypeREADME.txt: This is a schema for decoding the responses in the "Asked" column of the schema.csv file.

Kernel Awards in November

In the month of November, were awarding $1000 a week for code and analyses shared on this dataset via Kaggle Kernels. Read more about this monthKaggle Kernels Awards and help us advance the state of machine learning and data science by exploring this one of a kind dataset.

Methodology

·         This survey received 16,716 usable respondents from 171 countries and territories. If a country or territory received less than 50 respondents, we grouped them into a group named Other for anonymity.

·         We excluded respondents who were flagged by our survey system as Spam or who did not answer the question regarding their employment status (this question was the first required question, so not answering it indicates that the respondent did not proceed past the 5th question in our survey).

·         Most of our respondents were found primarily through Kaggle channels, like our email list, discussion forums and social media channels.

·         The survey was live from August 7th to August 25th. The median response time for those who participated in the survey was 16.4 minutes. We allowed respondents to complete the survey at any time during that window.

·         We received salary data by first asking respondents for their day-to-day currency, and then asking them to write in either their total compensation.

·         Weve provided a csv with an exchange rate to USD for you to calculate the salary in US dollars on your own.

·         The question was optional

·         Not every question was shown to every respondent. In an attempt to ask relevant questions to each respondent, we generally asked work related questions to employed data scientists and learning related questions to students. There is a column in the schema.csvfile called "Asked" that describes who saw each question. You can learn more about the different segments we used in the schema.csv file and RespondentTypeREADME.txt in the data tab.

·         To protect the respondents identity, the answers to multiple choice questions have been separated into a separate data file from the open-ended responses. We do not provide a key to match up the multiple choice and free form responses. Further, the free form responses have been randomized column-wise such that the responses that appear on the same row did not necessarily come from the same survey-taker.

 

 

 

Context

처음으로, Kaggle 데이터 과학 기계 학습의 상태에 대한 종합적인 관점을 확립하기 위해 업계 전반의 조사를 수행했습니다. 설문 조사는 16,000 이상의 응답자를 대상으로 실시되었으며, 우리는 누가 데이터를 사용하고 있는지, 업계 전반의 기계 학습에서 어떤 일이 일어나고 있는지, 그리고 어떻게 새로운 데이터 과학자들이 분야에 가장 적합한지 알아냈습니다.

설문조사의 초기 통찰력들을 공유하기 위해, 우리는 푸딩의 사람들과 인터랙티브 보고서를 작성하기 위해 노력했습니다. 그들은 여기 보고서에 사용된 모든 커널을 공유했다.

 

 

 

Content

개별 데이터파일에 대한 설명입니다.

파일

설명

schema.csv

·         설문 스키마가 있는 CSV 파일입니다.

·         스키마에는 multipleChoiceResponses.csv freeformResponses.csv 이름에 해당하는 질문이 포함되어 있습니다.

multipleChoiceResponses.csv

·         객관식 순위 질문에 대한 응답자의 답변, 행이 응답자의 응답

freeformResponses.csv

·         Kaggle 설문 조사 질문에 대한 응답자의 주관식 답변입니다.

·         임의로 지정되어 행이 같은 응답자를 나타내지 않음

conversionRates.csv

·         R 패키지 quantmod에서 2017 9 14일에 액세스 통화 변환율 (USD) 가지고 있습니다.

RespondentTypeREADME.txt

·         schema.csv 파일의 Asked 열의 응답을 디코딩하는 스키마입니다.

 

 

 

Kernel Awards in November

11 달에는 Kaggle Kernels 통해 데이터셋에서 공유한 코드와 분석에 주당 1,000달러( 111만원) 지급한다고 되어 있습니다.

 

 

 

 

 

Methodology

·         171 국가 지역에서 16,716명으로 부터 음답을 받았으며 특정 국가 또는 지역에서 응답자가 50 미만인 경우 익명을 위해 그룹을 '기타' 그룹으로 그룹화하였습니다.

·         설문 조사 시스템에 신고 응답자를 스팸으로 분류하거나 취업 상태에 관한 질문에 답변하지 않은 응답자는 제외( 질문은 번째 필수 질문이기에 응답하지 않으면 응답자가 다섯 번째 질문 이후 진행되지 않았습니다.)

·         대부분 응답자는 이메일 목록, 토론 포럼 소셜 미디어 Kaggle 채널을 통해 설문을 알게 되었습니다.

·         조사는 8 7일부터 8 25일까지 진행되었습니다. 조사에 참여한 사람들의 평균 응답 시간은 16.4분이었습니다. 우리는 응답자들이 언제든지 설문조사를 완료하도록 허용했다.

·         응답자에게 일상적인 통화를 요청한 다음 전체 보상 하나를 작성하도록 요청함으로써 급여 데이터를 받았습니다

o    미국 달러로 급여를 계산할 있도록 USD 환산 csv 제공

o    급여 질문은 선택적

·         모든 질문이 모든 응답자에게 제시되지는 않았다. 응답자에게 관련 질문을 하기 위해, 우리는 일반적으로 고용된 데이터 과학자에게 업무 관련 질문을 하고 학생들에게 학습 관련 질문을 했다. schema.csv 파일에는 질문을 사람을 설명하는 "Asked"라는 열이 있습니다. 데이터 탭의 schema.csv 파일과 RespendTypeREADME.txt에서 사용된 여러 세그먼트에 대해 자세히 알아볼 있습니다.

·         응답자의 신원을 보호하기 위해 여러 선택 질문에 대한 답변이 개방형 응답과 별도의 데이터 파일로 구분되었습니다. 저희는 다중 선택과 무료 응답을 일치시키기 위한 키를 제공하지 않습니다. 또한, 자유 양식 응답은 동일한 열에 나타나는 응답이 반드시 동일한 조사자로부터 오는 것이 아니도록 컬럼으로 랜덤화되었습니다.

 

 

 

 

Data

·         competition Data 확인할 잇습니다.

·         "Data Sources"에서 파일 항목을 선택하면 해당 파일의 개략적인 내용을 "About this file"에서 보여줍니다.

·         "Columns"에는 가지고 있는 컬럼 리스트를 보여줍니다.

·         하단에는 파일명과 파일 용량 데이터를 테이블형태로 확인할 있습니다.

 


 

 

 

 

직접 다운로드 

kaggle-survey-2017.zip




반응형

'Development > Python' 카테고리의 다른 글

Charting in Colaboratory  (0) 2018.10.25
파일 vs 모듈 vs 함수  (0) 2018.10.20
Django ORM Cookbook - 영문판, 한국어판  (0) 2018.10.09
ERROR - Project interpreter not specified  (0) 2018.10.04
403 - Forbidden  (0) 2018.09.28