목록전체 글 (48)
think deeply
웹크롤링을 위해서 url을 이해하는 것은 기본적이다. 이번 포스팅은 url의 의미를 분석한 내용이다. Client와 Server의 관계 Client : 브라우저를 통해 url을 입력해 서버에 데이터 요청 Server : client가 데이터를 요청하면 요청 url에 따라 데이터를 전송 URL 뜯어보기 https://finance.naver.com/news/news_read.naver?mode=mainnews&office_id=018&article_id=0005433334 (네이버 증권 페이지 주요뉴스 기사) 위 url을 예시로 구성요소들을 분석해보자. Protocol ( https:// ) : 컴퓨터 내부에서 또는 컴퓨터 사이에서 데이터의 교환 방식을 정의하는 규칙 체계 ( 규칙!! ) HTTPS(htt..
오픈API : 누구나 사용할 수 있도록 공개된 API API : Application Programming Interface(응용 프로그래밍 인터페이스)의 줄임말 프로그램 간의 소통을 위해 사전에 정의된 약속 * API의 맥락에서 Application란 : 고유한 기능을 가진 모든 소프트웨어를 나타냄, 내가 만들었거나 남이 만들어둔 구글이나 네이버같은 서비스 * API의 맥락에서 Programming란 : 파이썬이나 자바 같은 언어로 프로그램을 만드는 것을 의미 * API의 맥락에서 Interface란 : 두 애플리케이션 간의 서비스 계약이라고 할 수 있음, 서로 간에 원활히 소통을 할 수 있도록 돕는 표준화된 약속 ui는 유저가 사용하라는 인터페이스 api는 개발자가 시스템 사용하라는 인터페이스 주요 ..
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
데이터 탐색에 어느 정도 정해진 방법이 존재한다. 우리는 탐색하고자 하는 변수의 특성과 개수에 따라 통계량, 시각화 방법을 정해서 탐색해주면 더욱 효율적인 EDA 과정이 되겠다. 데이터 탐색 두 가지 방법 1. 통계량 (MIN, MAX, SUM, MEAN, 사분위수: .describe()함수로 출력가능, 검정 통계량, P-value ) 2. 시각화 (histogram, density plot, box plot, bar plot, scatter plot 등: matplotlib, seaborn 라이브러리 활용) ※ 주의: 많은 데이터를 한 눈에 보기 위한 방식으로, 정보 요약하기 때문에 정보 손실이 있기에 이 단계의 분석은 향후 검증이 필요하다 ! (단지, 비즈니스 인사이트 파악을 위한 것!) 단변량 분석..
EDA (Exploratory Data Analysis : 탐색적 데이터 분석) - 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법 - 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형으로 만드는 단계 예시) 쌓여있는 데이터를 하나의 목적을 가지고 보지 않고 이리 저리 추출해보고 뜯어보면서, 여러 형태로 통계를 시각화해서 다양한 관점으로 데이터를 바라본다. CDA (Confirmatory Data Analysis : 확증적 데이터 분석) - 목적을 가지고 데이터를 확보하여 분석하는 방법 - 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 - 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 예시) 기존에 논..
import numpy as np 조건에 맞는 값 위치 형태: np.where( 조건 ) 예시: np.where( titanic [ 'Sex' ] == ' female ' ) 조건에 맞는 값 변경 형태 : np.where( 조건 , 참일 때 변경값 , 거짓일 때 변경값 ) 예시 : titanic [ 'Sex' ] = np.where ( titanic [ 'Sex' ] == ' female ' , ' Woman ' , ' Man ' ) * 두, 세번째 파라미터에 문자형이 아닌, 수치형이 와도 상관없음 * 조건에는 ==, >, True, False로 변경되는 값이 정해짐
2023년 02월 20일 월요일 오늘부터 4일간 데이터분석 과정을 한기영 강사님께서 강의해주십니다. 오늘은 지난 3주간의 내용을 복습하고 CRISP-DM 분석 방법론에 대해 설명해주시고 matplotlib과 seaborn을 활용한 시각화를 조금 다루었다. 기록할 내용 CRISP-DM : 가장 많이 활용되는 데이터 마이닝 표준 방법론이며, 순차적이라기보다, 필요에 따라서 단계 간의 반복 수행을 통해 분석의 품질을 향상시키는 방법론 ADsP 준비해본 사람들에게는 익숙한 방법론일테지만, 머릿속에 프로세스를 각인시켜야할 만큼 데이터분석의 본질이다. 프로세스 6단계 1. Business Understanding(비즈니스 이해) -무엇이 문제인가, 비즈니스 문제정의 - 이를 해결하기 위한 가설 수립 → 문제정의와 ..
에이블스쿨에서 처음으로 미니 프로젝트를 진행했습니다. 3일간 진행되었으며, 8명의 팀원이 하나가 되어 주어진 task를 풀어나가는 형태였습니다. 강사님은 KT실무팀 이호준 강사님이셨다. 미니 프로젝트의 취지는 다음과 같습니다. 배운 이론과 실습 내용을 바탕으로 실제 사례에 적용해보며 문제 해결 역량을 상향시키기 위함입니다. 하여 앞서 배운 내용이 데이터 전처리였기에 1차 미니 프로젝트는 데이터 전처리 실습이었습니다. 목차 1. 강의구성 2. 정리할 내용 3. 해당 기간 이슈 4. 개인적 회고 1. 강의구성 매일 다루었던 데이터들은 다음과 같다. 서울시 모기예보제 정보 https://data.seoul.go.kr/dataList/OA-13285/S/1/datasetView.do 열린데이터..