think deeply
[DAY 12-14] 1차 미니프로젝트 회고 (feat. 서울 열린데이터광장, 캐글) 본문
에이블스쿨에서 처음으로 미니 프로젝트를 진행했습니다.
3일간 진행되었으며, 8명의 팀원이 하나가 되어 주어진 task를 풀어나가는 형태였습니다.
강사님은 KT실무팀 이호준 강사님이셨다.
미니 프로젝트의 취지는 다음과 같습니다.
배운 이론과 실습 내용을 바탕으로 실제 사례에 적용해보며
문제 해결 역량을 상향시키기 위함입니다.
하여 앞서 배운 내용이 데이터 전처리였기에
1차 미니 프로젝트는 데이터 전처리 실습이었습니다.
목차
1. 강의구성
2. 정리할 내용
3. 해당 기간 이슈
4. 개인적 회고
1. 강의구성
매일 다루었던 데이터들은 다음과 같다.
< DAY 1 >
서울시 모기예보제 정보
https://data.seoul.go.kr/dataList/OA-13285/S/1/datasetView.do
< DAY 2 >
서울시 버스정류소 위치정보
https://data.seoul.go.kr/dataList/OA-15067/S/1/datasetView.do
서울시 지하철호선별 역별 승하차 인원 정보
https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do
< DAY 3 >
서울 생활 이동 데이터 : 2022.12.01 ~ 2022.12.31
https://data.seoul.go.kr/dataVisual/seoul/seoulLivingMigration.do
Fifa World Cup 2022: Complete Dataset
https://www.kaggle.com/datasets/die9origephit/fifa-world-cup-2022-complete-dataset
2. 정리할 내용
전처리 프로세스
- 도메인 이해 : 기사 검색, 구글링, 논문 검색 등을 통해 도메인 이해가 선제되어야 함
- 데이터 분석 : 가벼운 수준의 분석을 의미하고, 데이터 형태, 행, 열 등 기본 정보를 파악하는 과정이 필요함
- 데이터 전처리 : 앞서 배운 전처리 방법들로 데이터 정제
공공데이터활용
공공 데이터를 제공하는 사이트들은 다수 존재하는 것으로 알고 있었는데,직접 다뤄보며 전처리해본 적은 처음인 것 같다.
너무 재밌었다.
한 가지 팁이 정말 유용했는데, 제공되는 해당 데이터에 대한 정보를 살펴보라는 것이다.
전처리 시간을 현저히 줄여준다.
내가 주로 다루었던 크롤링해서 다루었던 데이터들은
내가 분석하고자 하는 것에 대한 적절한 데이터를 긁어야했기에 도메인 지식이 전제로 하고 있었다.
반면, 공공데이터에 대해서는 이해도가 떨어질 가능성이 높다.
그렇기에 따로 검색하며 찾아보기 전, 제공되는 데이터 메뉴얼을 먼저 살펴본다면
최소 row, column에 대한 정보를 가지고 들어갈 수 있다.
3. 해당 기간 이슈
이슈라기보다 미니 프로젝트 진행 방식을 간략히 설명해보자면,
오전 타임에는 강사님께서 금일 다룰 데이터에 대한 설명과 전처리를 몇 가지 보여주신다.
그리고 개인실습시간을 조금 제공해주신다.
오후 타임에는 팀원들끼리 줌으로 모여 주어진 task 10가지 정도의 질문지에 답을 추출해야한다.
팀 프로젝트 자료를 제출해야하는 줄 알고 시작 전에는 팀원 모두가 어느정도 긴장을 하였는데,
팀 자료 제출을 1차 미니 프로젝트에서는 없었다.
각 반의 에이블러들과 친해지라는 취지도 내포된 듯하다.
4. 개인적 회고
공공데이터를 다루며 전처리 과정을 A-Z 직접 해본 것이 유의미했다.
학부과정에서는 주로 어느정도 제공되는 가이드에 따라 하면 됐는데,
좀 더 자율성이 주어지니 더욱 다양하게 분석해볼 수 있었다.
머신러닝, 딥러닝에 들어가기 전
전처리 부분을 제대로 다시 익히기 위해 집중해 들었다.
대부분의 코드를 보면, 머신러닝과 딥러닝 코드는 비슷한 것을 가져와 쓴다.
반면, 전처리를 어떻게 잘하느냐에 따라 완전히 다른 결과가 나온다.
이제야 지도교수님이 말씀하신 급할 필요없다는 조언이 와닿는다.
이론이 완벽하지 않으면 배움의 속도가 붙기 어려운 것 같다.
특히나 텍스트 분석에서는 더욱 그렇다.
텍스트의 비정형성이 높기에 그만큼 전처리 과정이 더욱 중요해진다.
전처리 이론을 탄탄히 가져가고 이를 활용할 수 있을 정도로 익혀야한다.
'KT AIVLE' 카테고리의 다른 글
데이터 탐색 (EDA vs CDA) (0) | 2023.02.22 |
---|---|
[DAY 15] CRISP-DM (feat. 데이터분석 PART 1일) (0) | 2023.02.20 |
[KT AIVLE] DAY 8-11 : 파이썬 데이터 다듬기 회고 (feat. 반장, 기자단, 미니프로젝트 팀원, 코딩 마스터스) (0) | 2023.02.18 |
[KT AIVLE] DAY 2-7 : 파이썬 데이터 다루기 회고(feat. 반영vs 반환, f-String, *args, 리스트 메소드, 워드클라우드) (1) | 2023.02.17 |
[Daily Check] DAY 9 : pandas 데이터 프레임 탐색, 조회, 집계 함수 정리( feat.허회경_그렇게 살아가는 것) (0) | 2023.02.17 |