KT AIVLE

[DAY 15] CRISP-DM (feat. 데이터분석 PART 1일)

윌_ 2023. 2. 20. 22:13

2023년 02월 20일 월요일

오늘부터 4일간 데이터분석 과정을 한기영 강사님께서 강의해주십니다.

 

오늘은 지난 3주간의 내용을 복습하고

CRISP-DM 분석 방법론에 대해 설명해주시고

matplotlib seaborn을 활용한 시각화를 조금 다루었다.


기록할 내용

CRISP-DM

가장 많이 활용되는 데이터 마이닝 표준 방법론이며,
순차적이라기보다, 필요에 따라서 단계 간의 반복 수행을 통해 분석의 품질을 향상시키는 방법론
 

ADsP 준비해본 사람들에게는 익숙한 방법론일테지만,
머릿속에 프로세스를 각인시켜야할 만큼 데이터분석의 본질이다.

출처: https://www.datenbanken-verstehen.de/lexikon/crisp-dm/

프로세스 6단계

 

1. Business Understanding(비즈니스 이해)

-무엇이 문제인가, 비즈니스 문제정의
- 이를 해결하기 위한 가설 수립
 
→  문제정의와 분석목표에 따라서 분석단위가 결정된다
 

2. Data Understanding(데이터 이해)

- 하나의 데이터프레임 만들기
  * 행을 분석 대상의 단위로 설정한다.
  * 예) 고객별 구독 서비스 이탈 분석 → 고객 한명 데이터를 한 행(분석단위)로 설정
 
→ 분석 단위를 결정하면 문제정의와 분석목표가 확고해진다
 
- EDA / CDA

EDA 방법 정리(1) :: Data Understanding of CRISP-DM (feat. 단변량 분석, 이변량 분석, 통계량, 시각화, 상관계수의 한계) - https://thelazyday.tistory.com/m/44

EDA 방법 정리(1) :: Data Understanding of CRISP-DM (feat. 단변량 분석, 이변량 분석, 통계량, 시각화, 상관

데이터 탐색에 어느 정도 정해진 방법이 존재한다. 우리는 탐색하고자 하는 변수의 특성과 개수에 따라 통계량, 시각화 방법을 정해서 탐색해주면 더욱 효율적인 EDA 과정이 되겠다. 데이터 탐색

thelazyday.tistory.com

3. Data Preparation(데이터 준비)

- 모델링 가능한 데이터 구조 만들기
* 모든 셀의 값 존재 → NaN값 처리
* 모든 값은 숫자 → 가변수화
* 필요시, 숫자의 범위 맞춰야함 → 스케일링

4. Modeling(모델링)

- 모델 만들기 및 검증 (파라미터 최적화해 나가는 단계)

5. Evaluation(평가)

-우리가 만든 모델이 문제를 해결했느냐
- 기술적  관점 평가 : 주로 오차(error)로 평가
- 비즈니스적 관점 평가: 말그대로 비즈니스적 평가
   ex.판매량 모델을 만들었다면 이 모델의 목적은재고관리. 그래서재고비용을 낮추었냐,재고 회전율을 높였느냐

6. Deployment(전개)

- 모델 적용에 필요한 모니터링, 유지보수 등
 


방법론 중 두 가지 질문이 가장 중요하다고 생각한다.
 
1. 무엇이 문제인가
2. 우리가 만든 모델이 문제를 해결했느냐
 
이 두 가지를 답할 수 있느냐에 따라 분석 성패가 가뉜다.


Q. 우리가 만든 모델의 성능이 시간이 지나 떨어지지는 않느냐

먼저, 시간이 흐르면 모델의 성능은 필연적을 떨어질 것이다.
어느정도 자명한 얘기다.
 
회사 내외로 상황이 변화한다.
 
회사의 전략이 바뀌고 상품 및 서비스가 바뀌고 회사 자체가 바뀐다.
코로나가 터지는 등 시장이 바뀌고 경쟁사도 바뀌고 고객의 취향도 바뀐다. 
 
그렇기에 변화의 영향을 받아서 모델에 들어가는 데이터가 변하고 
이전 데이터를 분석하고 미래를 예측하던 모델의 성능은 떨어지게 된다.
 
성능이 바로 떨어질 가능성은 낮지만 시간이 흐른다면 필연적으로 떨어지게 될 것.