목록공부 (17)
think deeply
melt 함수 기본틀: pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None) - frame: 변환할 데이터프레임 - id_vars: 유지할 열의 이름, 즉 변환하지 않을 열들의 이름을 나타내는 리스트 - value_vars: 변환할 열들의 이름을 나타내는 리스트. 만약 value_vars가 None으로 설정되면, id_vars를 제외한 모든 열이 변환 대상 - var_name: value_vars로 지정한 열의 이름을 설정. 기본값은 'variable'. - value_name: 변환된 데이터프레임에서 value(내용)이 되는 열의 이름을 설정. 기본값은 'value'. - co..
개념 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용 하는 기법. 쉽게, 한 분야의 문제를 해결하기 위해서 얻은 지식과 정보를 다른 문제를 푸는데 사용하는 방식을 의미한다. 아무 지식없이 처음부터 학습하는 것보다 익힌 것을 활용한다면 학습 속도가 더 빠른 것과 같다. 예시 자연어에서 예로 들기엔 설명이 복잡하여 하나의 포스팅으로 빼고 링크를 걸어두겠다. https://brunch.co.kr/@geumjaelee/4 자연어의 피처와 전처리 Feature and Preprocessing for NLP | 1. 오늘의 주제 * 왜 한국어의 자연어처리가 어려운가? * 왜 자연어처리의 개념을 잡기가 어려운가? * Feature와 Label, Data는 무슨 관계인가? * Feature란 무엇인가? * 자 ..
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
EDA (Exploratory Data Analysis : 탐색적 데이터 분석) - 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법 - 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형으로 만드는 단계 예시) 쌓여있는 데이터를 하나의 목적을 가지고 보지 않고 이리 저리 추출해보고 뜯어보면서, 여러 형태로 통계를 시각화해서 다양한 관점으로 데이터를 바라본다. CDA (Confirmatory Data Analysis : 확증적 데이터 분석) - 목적을 가지고 데이터를 확보하여 분석하는 방법 - 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 - 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 예시) 기존에 논..
2023년 02월 20일 월요일 오늘부터 4일간 데이터분석 과정을 한기영 강사님께서 강의해주십니다. 오늘은 지난 3주간의 내용을 복습하고 CRISP-DM 분석 방법론에 대해 설명해주시고 matplotlib과 seaborn을 활용한 시각화를 조금 다루었다. 기록할 내용 CRISP-DM : 가장 많이 활용되는 데이터 마이닝 표준 방법론이며, 순차적이라기보다, 필요에 따라서 단계 간의 반복 수행을 통해 분석의 품질을 향상시키는 방법론 ADsP 준비해본 사람들에게는 익숙한 방법론일테지만, 머릿속에 프로세스를 각인시켜야할 만큼 데이터분석의 본질이다. 프로세스 6단계 1. Business Understanding(비즈니스 이해) -무엇이 문제인가, 비즈니스 문제정의 - 이를 해결하기 위한 가설 수립 → 문제정의와 ..
에이블스쿨에서 처음으로 미니 프로젝트를 진행했습니다. 3일간 진행되었으며, 8명의 팀원이 하나가 되어 주어진 task를 풀어나가는 형태였습니다. 강사님은 KT실무팀 이호준 강사님이셨다. 미니 프로젝트의 취지는 다음과 같습니다. 배운 이론과 실습 내용을 바탕으로 실제 사례에 적용해보며 문제 해결 역량을 상향시키기 위함입니다. 하여 앞서 배운 내용이 데이터 전처리였기에 1차 미니 프로젝트는 데이터 전처리 실습이었습니다. 목차 1. 강의구성 2. 정리할 내용 3. 해당 기간 이슈 4. 개인적 회고 1. 강의구성 매일 다루었던 데이터들은 다음과 같다. 서울시 모기예보제 정보 https://data.seoul.go.kr/dataList/OA-13285/S/1/datasetView.do 열린데이터..
4일동안 파이썬을 활용해 데이터를 다듬는 법을 배웠습니다. 그리고 이번에도 이장래 강사님께서 가르쳐주셨습니다. 목차 1. 강의구성 2. 정리할 내용 3. 해당 기간 이슈 4. 개인적 회고 1. 강의구성 01 넘파이 기초 02 pandas 데이터 프레임 생성 https://blog.naver.com/kgh5654/223010958134 [Daily Check] DAY 8 : Jupyter Lab 주피터랩 설치방법, 배열, 데이터프레임(feat. 사카모토 류이치, 사사키 Part별로 정리하자니 너무 아쉬워. Daily로 정리도 하고자 한다. 아마도 매일 기록하는데는 무리가 있을 ... blog.naver.com 03 pandas 데이터 프레임 탐색 04 pandas 데이터..
오프닝데이 다음, 6일동안은 파이썬의 기초 데이터 다루는 법을 배웠다. 그리고 이 모든 것은 이장래 강사님께서 가르쳐주신다. 1. 강의 구성 2. 정리할 내용 3. 개인적 회고 1. 강의 구성 기본연산자 기본자료형 문자열 자료형 리스트, 튜플, 집합 딕셔너리 자료형 제어문 함수 정규표현식 텍스트 파일 다루는 법 엑셀 파일 다루는 법 이메일 보내기 2. 정리할 내용 문자열 포맷팅 방법 1) .format : 문자열 포맷팅이라고 하며, 해당 위치 { }에 변수를 넣어서 출력하고 싶을 때 자주 사용한다. 아래 간단한 예시같이 print문에 주로 쓴다. name = '김규한' age = '26' num = '010-..