목록rainbow/추천시스템 (6)
think deeply
추천시스템 구현을 고민하다 멜론 플레이리스트 크롤러를 만들어보게 되었습니다. 만들어진 크롤러가 아닌, 제가 원하는대로 크롤러를 만들어본 건 처음인 듯한데요! 이를 기록하기 위해 포스팅합니다 :) 해볼 건! 멜론 사이트에서 원하는 플레이리스트에 수록된 곡과 해당 곡 가사, 가수명을 긁어와보려합니다. 멜론에 들어가 원하는 플레이리스트 페이지에 들어가 링크만 아래 코드에서 수정해주면 크롤러 구현이 가능합니다. pip install selenium from selenium import webdriver import time from time import sleep from selenium.webdriver.common.by import By from selenium.webdriver.support.ui impo..
1. TF-IDF의 개념 대부분의 문서에 공통적으로 많이 등장하는 단어만으로 새로운 인사이트를 내기는 어렵다. 일반적으로 문서에 자주 등장하는 단어보다, 우리가 궁금한 것은 특정 내용을 다루는 문서에서 자주 등장하는 단어다. 예를 들어, 자동차 관련 문서에서 자주 쓰이는 단어가 있기 마련이고, 자전거 관련 문서에서 자주 쓰이는 단어가 있기 마련이다. 특정 문서 내 단어 빈도가 문서 전체에서의 단어 빈도보다 더 높은 단어를 강조해 표시하기 위한 방법이 TF-IDF다. 즉, 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM(Document term matrix) 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법이다. 2. TF-IDF의 활용 그럼 TF-IDF는 어디서 주로 활..
1. 콘텐츠 기반 필터링(Content-based filtering) 콘텐츠 기반 필터링은 대상의 특성을 바탕으로 추천하는 방법론입니다. 대상의 특성은 대상을 표현할 수 있는 데이터로 대상이 속한 카테고리, 대상의 제목과 같은 텍스트 데이터, 가수의 이미지 같은 이미지 데이터가 포함됩니다. 이러한 특성들을 기반으로 딥러닝 모델을 만들 수 있다는 것이 콘텐츠 기반 필터링 방식의 특징입니다. 정보를 모으고 그 정보를 잘 분류한 후에 사용자가 좋아했던 다른 아이템과 얼마나 비슷한 지를 비교해서 추천 리스트를 생성한다. 아이템을 벡터로 표현하는데는 원-핫 인코딩, 임베딩이 있어요. 아이템을 벡터로 표현하면 그 벡터 간의 코사인 유사도와 같이 다양한 유사도 계산 식으로 사용자에게 추천해줄 리스트를 생성하게 되는 ..
1. LINER는 콜드 스타트 문제를 어떻게 해결했을까? 📌 포인트 사용자 선호 정보 입력 유도 선호 정보 기반 추천 어느 서비스를 처음 사용할 때 가입 과정에서 사용자가 어떤 주제에 관심을 가지는 지 선택한 경험이 있을 거에요. 신규 가입 사용자에게 가입 과정 중 ‘관심사’ 등 사용자 선호 정보 입력하도록 유도하여 선호 정보를 추천 시드로 활용하는 방법이에요. 2. 트렌드에 사용자의 관심사 반영 📌 포인트 트렌딩 스코어 정의 트렌드 기반 추천 실시간으로 적재되는 하이라이트 데이터를 활용해 현재 라이너를 사용하는 다른 사용자들은 어떤 글에 하이라이트하고 있는지 등의 인사이트가 녹아든 추천 경험을 제공하고자 했습니다. 이를 라이너는 ‘하이라이트 인터랙션 기반 트렌딩 콘텐츠 추천’라고 정의했어요. 단순 최신..
📌 포인트: 연관 스타일끼리 K-means 클러스터링 1. 트렌드 기반 콘텐츠만 제공해도 될까 아래를 보시면, 스타일쉐어의 홈 화면에서 제공되는 컨텐츠 대부분이 유저 대상 타켓딩이 되지 않고, 트렌드에 초점을 맞춘 컨텐츠임을 알 수 있어요. 사용자를 위해서는 개인의 취향 또한 기업이 잡아야할 토끼라고 생각합니다. 앞선 사례에서 다룬 연관스타일에서 새로운 아이디어를 착안했어요. 2. 유저들의 관심사 별로 묶인 스타일 그룹을 만들자! 앞서 유저의 관심사를 가장 주요한 지표로 보고 스타일을 추천해준 사례를 소개해드렸어요. 관심사의 묶음이 스타일을 탐색하는 새로운 경험이 될 것이라 생각했기에, 다음과 과정을 진행했습니다. 유저들의 관심사 별로 묶인 스타일 그룹 연관 스타일에서 스타일을 추천하기 위해 만든 모델에..
📌 포인트 : 가장 주요한 지표를 ‘관심사’로 봄! 관심사는 행동기록 데이터를 활용 스타일쉐어는 패션 정보에 특화된 인스타그램이라고 할 수 있는데요. 인스타그램처럼 마음에 드는 코디에 좋아요를 누르거나, 마음에 드는 사용자를 팔로우하거나 마음에 드는 코디를 자기 페이지에 스크랩하는 기능 등을 가지고 있어요. 2021년 무신사에 통합되어 2022년 서비스 중단했지만요. 1. 사용자가 좋아할 스타일을 어떻게 정의할까 스타일쉐어의 고민은 여기 있었습니다. 저희가 현재 쓰고 있는 인스타그램처럼 사용자가 좋아할 컨텐츠(패션 스타일)를 업로드해주어야 했어요. 그럼 사용자에게 스타일사용자가 좋아할 스타일을 어떻게 정의할 것인가 고민하는 과정이 존재했습니다. 그럼 어떤 스타일을 연관있는 스타일로 사용자에게 제공해야할까..