목록EDA (3)
think deeply
데이터 탐색에 어느 정도 정해진 방법이 존재한다. 우리는 탐색하고자 하는 변수의 특성과 개수에 따라 통계량, 시각화 방법을 정해서 탐색해주면 더욱 효율적인 EDA 과정이 되겠다. 데이터 탐색 두 가지 방법 1. 통계량 (MIN, MAX, SUM, MEAN, 사분위수: .describe()함수로 출력가능, 검정 통계량, P-value ) 2. 시각화 (histogram, density plot, box plot, bar plot, scatter plot 등: matplotlib, seaborn 라이브러리 활용) ※ 주의: 많은 데이터를 한 눈에 보기 위한 방식으로, 정보 요약하기 때문에 정보 손실이 있기에 이 단계의 분석은 향후 검증이 필요하다 ! (단지, 비즈니스 인사이트 파악을 위한 것!) 단변량 분석..
EDA (Exploratory Data Analysis : 탐색적 데이터 분석) - 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법 - 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형으로 만드는 단계 예시) 쌓여있는 데이터를 하나의 목적을 가지고 보지 않고 이리 저리 추출해보고 뜯어보면서, 여러 형태로 통계를 시각화해서 다양한 관점으로 데이터를 바라본다. CDA (Confirmatory Data Analysis : 확증적 데이터 분석) - 목적을 가지고 데이터를 확보하여 분석하는 방법 - 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 - 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용 예시) 기존에 논..
EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 분석을 하기 위한 데이터를 살펴보는 과정을 의미하는 단어 도출하고자 하는 결과값을 좀 더 수월하게 낼 수 있도록 해당 데이터를 살펴보는 것입니다. EDA가 필요한 이유 분석 코드를 어렵게 모두 작성해도 원하는 형태의 결과가 나오지 않을 수 있는데, 그럴 경우 그 시간이 모두 헛고생으로 돌아간다. 근원적으로 분석해야하는 데이터를 잘못 이해했기 때문이라고 볼 수 있다. 오늘은 현재 내가 분석하고자 하는 대상인 '국내 e-book에 대한 사용자 경험 분석' EDA 과정을 간략히 정리해두고자 작성한다. 1. 관련 raw data를 모으기 위해, 국내 구글 플레이 스토어 크롤링 진행 분석 대상에 대한 사용자 경험을 다루기 위해 적합한 데..