목록KTAIVLE (11)
think deeply
앙상블 학습(ensemble leaning) 앙상블 알고리즘은 학습 방식에 따라 보팅, 배깅, 부스팅, 스태킹으로 나뉜다. 보팅 voting 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방법 보팅은 크게 하드 보팅과 소프트 보팅으로 나뉨 하드 보팅 : 다수결 투표라고 볼 수 있음 최종 예측을 각 개별 모델이 예측한 것 중 가장 많은 모델에서 예측되는 클래스 레이블로 함 소프트 보팅: 앙상블의 각 개별 모델이 주어진 입력에 대해 클래스에 대한 확률 분포를 에측하는 투표 유형 최종 예측은 모든 모델에서 평균 확률이 가장 높은 클래스 레이블로 함 배깅 bagging 주어진 데이터셋을 랜덤 샘플링하여 새로운 데이터셋을 만들어내는 것을 의미. 샘플을 여러 번 봅아 각 모델을 학습 시켜 결과물을 집계..
오픈API : 누구나 사용할 수 있도록 공개된 API API : Application Programming Interface(응용 프로그래밍 인터페이스)의 줄임말 프로그램 간의 소통을 위해 사전에 정의된 약속 * API의 맥락에서 Application란 : 고유한 기능을 가진 모든 소프트웨어를 나타냄, 내가 만들었거나 남이 만들어둔 구글이나 네이버같은 서비스 * API의 맥락에서 Programming란 : 파이썬이나 자바 같은 언어로 프로그램을 만드는 것을 의미 * API의 맥락에서 Interface란 : 두 애플리케이션 간의 서비스 계약이라고 할 수 있음, 서로 간에 원활히 소통을 할 수 있도록 돕는 표준화된 약속 ui는 유저가 사용하라는 인터페이스 api는 개발자가 시스템 사용하라는 인터페이스 주요 ..
데이터 탐색에 어느 정도 정해진 방법이 존재한다. 우리는 탐색하고자 하는 변수의 특성과 개수에 따라 통계량, 시각화 방법을 정해서 탐색해주면 더욱 효율적인 EDA 과정이 되겠다. 데이터 탐색 두 가지 방법 1. 통계량 (MIN, MAX, SUM, MEAN, 사분위수: .describe()함수로 출력가능, 검정 통계량, P-value ) 2. 시각화 (histogram, density plot, box plot, bar plot, scatter plot 등: matplotlib, seaborn 라이브러리 활용) ※ 주의: 많은 데이터를 한 눈에 보기 위한 방식으로, 정보 요약하기 때문에 정보 손실이 있기에 이 단계의 분석은 향후 검증이 필요하다 ! (단지, 비즈니스 인사이트 파악을 위한 것!) 단변량 분석..
EDA (Exploratory Data Analysis : 탐색적 데이터 분석) - 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법 - 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형으로 만드는 단계 예시) 쌓여있는 데이터를 하나의 목적을 가지고 보지 않고 이리 저리 추출해보고 뜯어보면서, 여러 형태로 통계를 시각화해서 다양한 관점으로 데이터를 바라본다. CDA (Confirmatory Data Analysis : 확증적 데이터 분석) - 목적을 가지고 데이터를 확보하여 분석하는 방법 - 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 - 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 예시) 기존에 논..
2023년 02월 20일 월요일 오늘부터 4일간 데이터분석 과정을 한기영 강사님께서 강의해주십니다. 오늘은 지난 3주간의 내용을 복습하고 CRISP-DM 분석 방법론에 대해 설명해주시고 matplotlib과 seaborn을 활용한 시각화를 조금 다루었다. 기록할 내용 CRISP-DM : 가장 많이 활용되는 데이터 마이닝 표준 방법론이며, 순차적이라기보다, 필요에 따라서 단계 간의 반복 수행을 통해 분석의 품질을 향상시키는 방법론 ADsP 준비해본 사람들에게는 익숙한 방법론일테지만, 머릿속에 프로세스를 각인시켜야할 만큼 데이터분석의 본질이다. 프로세스 6단계 1. Business Understanding(비즈니스 이해) -무엇이 문제인가, 비즈니스 문제정의 - 이를 해결하기 위한 가설 수립 → 문제정의와 ..
에이블스쿨에서 처음으로 미니 프로젝트를 진행했습니다. 3일간 진행되었으며, 8명의 팀원이 하나가 되어 주어진 task를 풀어나가는 형태였습니다. 강사님은 KT실무팀 이호준 강사님이셨다. 미니 프로젝트의 취지는 다음과 같습니다. 배운 이론과 실습 내용을 바탕으로 실제 사례에 적용해보며 문제 해결 역량을 상향시키기 위함입니다. 하여 앞서 배운 내용이 데이터 전처리였기에 1차 미니 프로젝트는 데이터 전처리 실습이었습니다. 목차 1. 강의구성 2. 정리할 내용 3. 해당 기간 이슈 4. 개인적 회고 1. 강의구성 매일 다루었던 데이터들은 다음과 같다. 서울시 모기예보제 정보 https://data.seoul.go.kr/dataList/OA-13285/S/1/datasetView.do 열린데이터..
4일동안 파이썬을 활용해 데이터를 다듬는 법을 배웠습니다. 그리고 이번에도 이장래 강사님께서 가르쳐주셨습니다. 목차 1. 강의구성 2. 정리할 내용 3. 해당 기간 이슈 4. 개인적 회고 1. 강의구성 01 넘파이 기초 02 pandas 데이터 프레임 생성 https://blog.naver.com/kgh5654/223010958134 [Daily Check] DAY 8 : Jupyter Lab 주피터랩 설치방법, 배열, 데이터프레임(feat. 사카모토 류이치, 사사키 Part별로 정리하자니 너무 아쉬워. Daily로 정리도 하고자 한다. 아마도 매일 기록하는데는 무리가 있을 ... blog.naver.com 03 pandas 데이터 프레임 탐색 04 pandas 데이터..
오프닝데이 다음, 6일동안은 파이썬의 기초 데이터 다루는 법을 배웠다. 그리고 이 모든 것은 이장래 강사님께서 가르쳐주신다. 1. 강의 구성 2. 정리할 내용 3. 개인적 회고 1. 강의 구성 기본연산자 기본자료형 문자열 자료형 리스트, 튜플, 집합 딕셔너리 자료형 제어문 함수 정규표현식 텍스트 파일 다루는 법 엑셀 파일 다루는 법 이메일 보내기 2. 정리할 내용 문자열 포맷팅 방법 1) .format : 문자열 포맷팅이라고 하며, 해당 위치 { }에 변수를 넣어서 출력하고 싶을 때 자주 사용한다. 아래 간단한 예시같이 print문에 주로 쓴다. name = '김규한' age = '26' num = '010-..