- 데이터 정제
-
데이터 출처
-
원본
-
변환
- PID: 설문조사에 참여한 사람의 익명화된 ID (개인식별번호)
- var_id: 질문지 변수 (key)값
- 1,2,3,4차 필드에 맞쳐서 보면 된다.
- episode: 몇회차 질문인지 표기
- description: 질문(변수)에 대한 설명
- main
- sub
- question: 질문
- main
- sub
- type: 객관식 혹은 주관식인지
- objective, subjective
- objective_statemet: 객관식 항목
<수정사항> 1월 16일
건설 중단/재개에 대한 공감도(3,4차)
변수명 C_Q7_1 건설재개->건설중단
변수명 C_Q7_2 건설중단->건설재개
변수명 D_Q6_1 건설재개->건설중단
변수명 D_Q6_2 건설중단->건설재개
- 위 참고사항은 데이터 변환에 반영되어 있음
- pdf -> txt :
notebook\exctract_from_pdf.cmd
- txt -> xls : Powered by
Human Intelligence
andDrink
- xls -> json, csv :
jupyter notebook
\variable_xls_to_json.ipynb
- 설문지 다시 읽어볼 겸 xls 검수해보기
- xls를 json 형식으로 변경
- csv도 만들어둠
- 기존 1,2,3,4차 데이터를 json 형식으로 변경