KT AIVLE

EDA 방법 정리(1) :: Data Understanding of CRISP-DM (feat. 단변량 분석, 이변량 분석, 통계량, 시각화, 상관계수의 한계)

윌_ 2023. 2. 23. 09:13

데이터 탐색에 어느 정도 정해진 방법이 존재한다.

우리는 탐색하고자 하는 변수의 특성과 개수에 따라

통계량, 시각화 방법을 정해서 탐색해주면 더욱 효율적인 EDA 과정이 되겠다.


데이터 탐색 두 가지 방법

1. 통계량 (MIN, MAX, SUM, MEAN, 사분위수: .describe()함수로 출력가능, 검정 통계량, P-value )

2. 시각화 (histogram, density plot, box plot, bar plot, scatter plot 등: matplotlib, seaborn 라이브러리 활용)

 

※ 주의: 많은 데이터를 한 눈에 보기 위한 방식으로, 정보 요약하기 때문에 정보 손실이 있기에 이 단계의 분석은 향후 검증이 필요하다 ! (단지, 비즈니스 인사이트 파악을 위한 것!)


단변량 분석 vs 이변량 분석

탐색하고자 하는 데이터셋의 변수에 따라 단변량 분석, 이변량 분석으로 나눌 수 있다. 

 

단변량 분석: 개별변수 분석

이변량 분석: 가설(x→y)가 맞는 지 혹은 두 feature 간의 관계 분석


단변량 분석 

  기초통계량 그래프
숫자형 변수 min, max, mean, std, 사분위수 등 histogram, kde plot, box plot
범주형 변수 범주별 빈도수 및 비율 bar plot, sns.countplot

※ 숫자형 변수를 pd.cut()으로 구간별로 나누어 범주형으로 바꾸어 탐색도 가능 !

※ 예시) 나이 (숫자형 변수) → 나이대별 10대, 20대,...(범주형 변수)


이변량 분석 

  Y
숫자
그래프 수치화
X 숫자형 변수 산점도
scatter plot
상관분석
(상관계수(아래에서 한계 설명), P-value)
범주형 변수 평균비교 bar plot 범주 2개일 경우:
두 평균의 차 T-검정

범주 3개 이상일 경우:
ANOVA 분산분석 F-검정

 

※ Y값이 범주형인 경우는 다음 포스팅에 이어서 !


상관계수의 한계

직선의 관계만 수치화해주기 때문에, 직선의 기울기는 고려하지 않으며, 비선형 관계를 파악할 수 없다.

2행: 직선의 기울기 반영하지 않는다는 예시, 3행: 비선형 관계는 파악하기 힘들다는 예시

 

2행과 3행을 보자.

직선의 기울기가 다르다는 것이 데이터 탐색에 무의미할까.

상관계수는 0으로 도출되지만 선형 외의 패턴이 나타나는데 이또한 데이터 탐색에 무의미한가.

 

이러한 이유로 상관계수(수치화)만 봐주면 안되고

시각화를 필수적으로 함께 해주어야 한다.

(오늘의 가장 큰 깨달음!! 시각화를 함께 해주어야하는 이유!! 수치만으로 파악되지 않는 데이터 패턴이 존재한다!)