목록기록 (17)
think deeply
웹크롤링을 위해서 url을 이해하는 것은 기본적이다. 이번 포스팅은 url의 의미를 분석한 내용이다. Client와 Server의 관계 Client : 브라우저를 통해 url을 입력해 서버에 데이터 요청 Server : client가 데이터를 요청하면 요청 url에 따라 데이터를 전송 URL 뜯어보기 https://finance.naver.com/news/news_read.naver?mode=mainnews&office_id=018&article_id=0005433334 (네이버 증권 페이지 주요뉴스 기사) 위 url을 예시로 구성요소들을 분석해보자. Protocol ( https:// ) : 컴퓨터 내부에서 또는 컴퓨터 사이에서 데이터의 교환 방식을 정의하는 규칙 체계 ( 규칙!! ) HTTPS(htt..
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
EDA (Exploratory Data Analysis : 탐색적 데이터 분석) - 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법 - 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형으로 만드는 단계 예시) 쌓여있는 데이터를 하나의 목적을 가지고 보지 않고 이리 저리 추출해보고 뜯어보면서, 여러 형태로 통계를 시각화해서 다양한 관점으로 데이터를 바라본다. CDA (Confirmatory Data Analysis : 확증적 데이터 분석) - 목적을 가지고 데이터를 확보하여 분석하는 방법 - 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 - 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 예시) 기존에 논..
import numpy as np 조건에 맞는 값 위치 형태: np.where( 조건 ) 예시: np.where( titanic [ 'Sex' ] == ' female ' ) 조건에 맞는 값 변경 형태 : np.where( 조건 , 참일 때 변경값 , 거짓일 때 변경값 ) 예시 : titanic [ 'Sex' ] = np.where ( titanic [ 'Sex' ] == ' female ' , ' Woman ' , ' Man ' ) * 두, 세번째 파라미터에 문자형이 아닌, 수치형이 와도 상관없음 * 조건에는 ==, >, True, False로 변경되는 값이 정해짐
2023년 02월 20일 월요일 오늘부터 4일간 데이터분석 과정을 한기영 강사님께서 강의해주십니다. 오늘은 지난 3주간의 내용을 복습하고 CRISP-DM 분석 방법론에 대해 설명해주시고 matplotlib과 seaborn을 활용한 시각화를 조금 다루었다. 기록할 내용 CRISP-DM : 가장 많이 활용되는 데이터 마이닝 표준 방법론이며, 순차적이라기보다, 필요에 따라서 단계 간의 반복 수행을 통해 분석의 품질을 향상시키는 방법론 ADsP 준비해본 사람들에게는 익숙한 방법론일테지만, 머릿속에 프로세스를 각인시켜야할 만큼 데이터분석의 본질이다. 프로세스 6단계 1. Business Understanding(비즈니스 이해) -무엇이 문제인가, 비즈니스 문제정의 - 이를 해결하기 위한 가설 수립 → 문제정의와 ..
에이블스쿨에서 처음으로 미니 프로젝트를 진행했습니다. 3일간 진행되었으며, 8명의 팀원이 하나가 되어 주어진 task를 풀어나가는 형태였습니다. 강사님은 KT실무팀 이호준 강사님이셨다. 미니 프로젝트의 취지는 다음과 같습니다. 배운 이론과 실습 내용을 바탕으로 실제 사례에 적용해보며 문제 해결 역량을 상향시키기 위함입니다. 하여 앞서 배운 내용이 데이터 전처리였기에 1차 미니 프로젝트는 데이터 전처리 실습이었습니다. 목차 1. 강의구성 2. 정리할 내용 3. 해당 기간 이슈 4. 개인적 회고 1. 강의구성 매일 다루었던 데이터들은 다음과 같다. 서울시 모기예보제 정보 https://data.seoul.go.kr/dataList/OA-13285/S/1/datasetView.do 열린데이터..
오프닝데이 다음, 6일동안은 파이썬의 기초 데이터 다루는 법을 배웠다. 그리고 이 모든 것은 이장래 강사님께서 가르쳐주신다. 1. 강의 구성 2. 정리할 내용 3. 개인적 회고 1. 강의 구성 기본연산자 기본자료형 문자열 자료형 리스트, 튜플, 집합 딕셔너리 자료형 제어문 함수 정규표현식 텍스트 파일 다루는 법 엑셀 파일 다루는 법 이메일 보내기 2. 정리할 내용 문자열 포맷팅 방법 1) .format : 문자열 포맷팅이라고 하며, 해당 위치 { }에 변수를 넣어서 출력하고 싶을 때 자주 사용한다. 아래 간단한 예시같이 print문에 주로 쓴다. name = '김규한' age = '26' num = '010-..
Part별로 정리하자니 너무 아쉬워. Daily로 정리도 하고자 한다. 아마도 매일 기록하는데는 무리가 있을 것 같구. Part별 회고에서 다루기엔 상세한 내용이 있을 때 Daily에서 다룰 예정 !! 1. 오늘의 곡 2. 다루었던 내용 3. 기록할 내용 4. 오늘 뭐했냐면 내가~ 1. 오늘의 곡 https://www.youtube.com/watch?v=LGs_vGt0MY8 공부하기 싫을 때, 주로 음악을 듣곤 하는데. 최근에는 피아노곡을 많이 듣는 듯하다. 새롭게 알게 된 건, 일본에 유명한 피아니스트가 되게 많다는 것이다. 나는 히사이시 조 밖에 몰랐는데, 사카모토 류이치 구라모토 유키 츠지이 노부유키 사사키 이사오 등등 내가 듣는 피아노 플레이 리스트에 일본 피아니스트가 정말 많다. ..