목록파이썬 (17)
think deeply
오류 발생 코드 # 데이터프레임 생성 lyrics_df = pd.DataFrame(columns=['Song', 'Singer', 'Lyrics']) song = [] singer = [] lyrics = [] #-------------------------------------------------------------------------------------------------- # 플레이리스트 내 수록곡 Length song_list = driver.find_elements(By.XPATH,'//*[@id="frm"]/div/table/tbody') song_list_li = [] for element in song_list: tr_elements = element.find_elements(By..
melt 함수 기본틀: pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None) - frame: 변환할 데이터프레임 - id_vars: 유지할 열의 이름, 즉 변환하지 않을 열들의 이름을 나타내는 리스트 - value_vars: 변환할 열들의 이름을 나타내는 리스트. 만약 value_vars가 None으로 설정되면, id_vars를 제외한 모든 열이 변환 대상 - var_name: value_vars로 지정한 열의 이름을 설정. 기본값은 'variable'. - value_name: 변환된 데이터프레임에서 value(내용)이 되는 열의 이름을 설정. 기본값은 'value'. - co..
앙상블 학습(ensemble leaning) 앙상블 알고리즘은 학습 방식에 따라 보팅, 배깅, 부스팅, 스태킹으로 나뉜다. 보팅 voting 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방법 보팅은 크게 하드 보팅과 소프트 보팅으로 나뉨 하드 보팅 : 다수결 투표라고 볼 수 있음 최종 예측을 각 개별 모델이 예측한 것 중 가장 많은 모델에서 예측되는 클래스 레이블로 함 소프트 보팅: 앙상블의 각 개별 모델이 주어진 입력에 대해 클래스에 대한 확률 분포를 에측하는 투표 유형 최종 예측은 모든 모델에서 평균 확률이 가장 높은 클래스 레이블로 함 배깅 bagging 주어진 데이터셋을 랜덤 샘플링하여 새로운 데이터셋을 만들어내는 것을 의미. 샘플을 여러 번 봅아 각 모델을 학습 시켜 결과물을 집계..
개념 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용 하는 기법. 쉽게, 한 분야의 문제를 해결하기 위해서 얻은 지식과 정보를 다른 문제를 푸는데 사용하는 방식을 의미한다. 아무 지식없이 처음부터 학습하는 것보다 익힌 것을 활용한다면 학습 속도가 더 빠른 것과 같다. 예시 자연어에서 예로 들기엔 설명이 복잡하여 하나의 포스팅으로 빼고 링크를 걸어두겠다. https://brunch.co.kr/@geumjaelee/4 자연어의 피처와 전처리 Feature and Preprocessing for NLP | 1. 오늘의 주제 * 왜 한국어의 자연어처리가 어려운가? * 왜 자연어처리의 개념을 잡기가 어려운가? * Feature와 Label, Data는 무슨 관계인가? * Feature란 무엇인가? * 자 ..
웹크롤링을 위해서 url을 이해하는 것은 기본적이다. 이번 포스팅은 url의 의미를 분석한 내용이다. Client와 Server의 관계 Client : 브라우저를 통해 url을 입력해 서버에 데이터 요청 Server : client가 데이터를 요청하면 요청 url에 따라 데이터를 전송 URL 뜯어보기 https://finance.naver.com/news/news_read.naver?mode=mainnews&office_id=018&article_id=0005433334 (네이버 증권 페이지 주요뉴스 기사) 위 url을 예시로 구성요소들을 분석해보자. Protocol ( https:// ) : 컴퓨터 내부에서 또는 컴퓨터 사이에서 데이터의 교환 방식을 정의하는 규칙 체계 ( 규칙!! ) HTTPS(htt..
오픈API : 누구나 사용할 수 있도록 공개된 API API : Application Programming Interface(응용 프로그래밍 인터페이스)의 줄임말 프로그램 간의 소통을 위해 사전에 정의된 약속 * API의 맥락에서 Application란 : 고유한 기능을 가진 모든 소프트웨어를 나타냄, 내가 만들었거나 남이 만들어둔 구글이나 네이버같은 서비스 * API의 맥락에서 Programming란 : 파이썬이나 자바 같은 언어로 프로그램을 만드는 것을 의미 * API의 맥락에서 Interface란 : 두 애플리케이션 간의 서비스 계약이라고 할 수 있음, 서로 간에 원활히 소통을 할 수 있도록 돕는 표준화된 약속 ui는 유저가 사용하라는 인터페이스 api는 개발자가 시스템 사용하라는 인터페이스 주요 ..
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
데이터 탐색에 어느 정도 정해진 방법이 존재한다. 우리는 탐색하고자 하는 변수의 특성과 개수에 따라 통계량, 시각화 방법을 정해서 탐색해주면 더욱 효율적인 EDA 과정이 되겠다. 데이터 탐색 두 가지 방법 1. 통계량 (MIN, MAX, SUM, MEAN, 사분위수: .describe()함수로 출력가능, 검정 통계량, P-value ) 2. 시각화 (histogram, density plot, box plot, bar plot, scatter plot 등: matplotlib, seaborn 라이브러리 활용) ※ 주의: 많은 데이터를 한 눈에 보기 위한 방식으로, 정보 요약하기 때문에 정보 손실이 있기에 이 단계의 분석은 향후 검증이 필요하다 ! (단지, 비즈니스 인사이트 파악을 위한 것!) 단변량 분석..