think deeply
[KT AIVLE] DAY 8-11 : 파이썬 데이터 다듬기 회고 (feat. 반장, 기자단, 미니프로젝트 팀원, 코딩 마스터스) 본문
[KT AIVLE] DAY 8-11 : 파이썬 데이터 다듬기 회고 (feat. 반장, 기자단, 미니프로젝트 팀원, 코딩 마스터스)
윌_ 2023. 2. 18. 09:00
4일동안 파이썬을 활용해 데이터를 다듬는 법을 배웠습니다.
그리고 이번에도 이장래 강사님께서 가르쳐주셨습니다.
목차
1. 강의구성
2. 정리할 내용
3. 해당 기간 이슈
4. 개인적 회고
1. 강의구성
< DAY 1 >
01 넘파이 기초
02 pandas 데이터 프레임 생성
https://blog.naver.com/kgh5654/223010958134
< DAY 2 >
03 pandas 데이터 프레임 탐색
04 pandas 데이터 프레임 조회
05 pandas 데이터 프레임 집계
https://blog.naver.com/kgh5654/223012078782
< DAY 3 >
06 pandas 데이터 프레임 변경 (1)
(열 변환)
< DAY 4 >
07 pandas 데이터 프레임 변경 (2)
(결측치, one-hot encoding)
08 pandas데이터 프레임 변경 (3)
(concat, merge)
2. 정리할 내용
강의 내용은 ipynb파일로 따로 정리하였다.
글로 된 설명과 함께 코드를 보아야하는데,
이를 포스팅하기에는 무리가 있어 체크해야할 사항만 적고 넘어가고자 한다.
데이터 프레임 만들기
데이터 프레임을 만들기 위해 있어야할 3가지
행(index) 이름
열(columns) 이름
데이터로 들어갈 리스트
데이터 프레임 생성 과정은 익혀두면 좋을 듯해서 더욱 열심히 들었다.
더불어, csv파일 읽어오는 것은
데이터분석에서 가장 많이 활용되기에 다시 상기할 수 있어 좋았다.
read_csv(), to_csv()
집계 groupby
형태 : df.groupby(범주값, as_index = False)[연속값].집계메소드()
예시: worldcup.groupby('team', as_index=False)['goal'].sum()
groupby를 정말 제대로 익힌 것 같다.
실습에서도 정말 많이 활용한 듯하다.
열 이름 변경, 추가 / 범주값 변경
열 이름 변경 rename(), 변경해야할 열 많다면 columns 속성 활용
기존 데이터를 가지고 계산한 값을 새로운 열로 추가
map(), replace() 활용해 특정값을 변경
데이터 합치기
concat(), merge() 활용도 제대로 익혔다.
concat(): 인덱스값을 기준으로 두 데이터프레임을 가로, 세로로 합칠 수 있음
axis=0 : 가로, axis=1 : 세로
merge(): 지정한 키값을 가지고 두 데이터 프레임을 합칠 수 있움
merge()를 더 유용하게 활용했다.
특정 키값을 가지고 두 raw data 합쳐서 원하는 값 추출 가능한데,
이 점이 활용도가 높다.
3. 해당 기간 이슈
반장과 기자단을 선발했습니다.
그리고 자기소개를 하루에 두명씩 해나가고 있는데,
저는 DAY 5쯔음에 일찍 해버렸습니다.
제가 속한 DX track에는 굉장히 다양한 전공자분들이 계시더라구요.
그분들의 소개를 들으며 느낀 것은 취향이 확고해보인다는 것입니다.
확고한 취향은 그 분야에 문외한인 타인으로 하여금 궁금증을 자아내는데요.
그분들이 바라보고 있는 시각이 궁금해졌습니다.
그래서 6개월 간 함께할 반사람들과의 교류가 더욱 기대되는 것 같아요.
다양성은 그 조직을 더욱 다채롭게 만드니까요.
미니 프로젝트 팀원 발표
미니 프로젝트 시작 이틀 전, 팀원 발표가 되었습니다.
각 팀은 8명의 팀원을 배정되었고,
빅프로젝트 전까지 미니 프로젝트마다 팀원은 바뀌는 것 같아요.
그리고 팀원 배정된 것을 보니,
되도록 가까운 곳에 거주하는 사람들끼지 묶어주신 것 같더라구요.
대면 시설 예약
미니 프로젝트 기간에는 각 지역 KT 교육장을 이용할 수 있는데요.
하루 전까지 교육장 예약을 해야한다고 해요.
코딩 마스터스
코딩 마스터스 공지가 올라왔는데요.
코딩 마스터스는 에이블러들의 코딩 역량 향상과 코딩테스트 경쟁력 향상를 위해
알고리즘 문제를 주고 푸는 프로그램입니다.
기간: 2월 13일 - 3월 10일 (약 4주)
동일한 100문제가 주어지고,
코딩테스트 형식으로 이루어지며 자율적으로 푸는 식이에요.
실시간 랭킹을 볼 수 있으며
그 랭킹은 AI/DX가 따로 책정됩니다.
4. 개인적 회고
데이터 프레임 다루는 법을 배우고 익혔습니다.
EDA 과정을 제대로 다시 공부할 수 있는 기회가 되었습니다.
머릿속에 정립되지 않았던 개념들도 다시 한 번 잡을 수 있어서 너무 좋았습니다.
새로운 데이터를 강의와 실습시간에도 다루지만,
개인적으로 관심있는 데이터들을 모아서 더 다루어보고 싶어졌습니다.