목록NLP (3)
think deeply
EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 분석을 하기 위한 데이터를 살펴보는 과정을 의미하는 단어 도출하고자 하는 결과값을 좀 더 수월하게 낼 수 있도록 해당 데이터를 살펴보는 것입니다. EDA가 필요한 이유 분석 코드를 어렵게 모두 작성해도 원하는 형태의 결과가 나오지 않을 수 있는데, 그럴 경우 그 시간이 모두 헛고생으로 돌아간다. 근원적으로 분석해야하는 데이터를 잘못 이해했기 때문이라고 볼 수 있다. 오늘은 현재 내가 분석하고자 하는 대상인 '국내 e-book에 대한 사용자 경험 분석' EDA 과정을 간략히 정리해두고자 작성한다. 1. 관련 raw data를 모으기 위해, 국내 구글 플레이 스토어 크롤링 진행 분석 대상에 대한 사용자 경험을 다루기 위해 적합한 데..
워드임베딩이란? 사람의 언어를 벡터로 표현하는 방법으로 단어를 희소 벡터가 아닌, 밀집벡터의 형태로 표현하는 것 의미적으로 유사한 단어들끼리 서로 가까이 위치하도록 단어들을 벡터 공간으로 매핑 워드임베딩이 왜 필요한가? 사람의 언어는 불연속적인 형태의 단어로 이루어진다. 각 단어가 갖는 의미가 서로 연관성이 있는 경우도 있지만, 형태가 다른 경우에는 서로 얼마나 연관성이 있는지 컴퓨터는 이해하고 파악하기 어렵다. 그렇기에 단어를 숫자로 표현하는 방식에 따라 자연어 처리의 성능이 크게 달라지기 때문에 단어를 숫자로 바꾸는 과정이 중요하다. 희소 표현 vs 밀집 표현 ※ 희소표현(sparse representation): 벡터 또는 행렬(matrix)의 값이 대부분 0으로 표현되는방법 예로 원-핫 벡터를 생..
내가 관심있는 앱의 리뷰 데이터를 수집할 수 있는 크롤러입니다. 저는 지난 논문에 활용한 데이터도 이와 동일한 방법으로 크롤링했으며, 이번 개인 프로젝트를 위해 e-book과 관련된 어플들 몇 가지를 크롤링하기 위해 크롤링을 진행하였습니다. 셀레니움을 이용한 코드는 저희가 고려해야할 것들이 존재하나, 해당 크롤러는 빠른 속도와 간편한 크롤링이 가능합니다. 궁금한 앱의 웹 주소만 기입하면 크롤링 가능하도록 설명드리겠습니다. 1. 작업환경 저는 우선 Python 프로그래밍 언어에 사용되는 통합 개발 환경인 pycharm을 활용해 크롤링을 진행하였습니다. pycharm은 아래 링크를 참고해 설치하면 됩니다. https://blog.dalso.org/language/python/13524 python 개발을 위..