목록크롤링 (3)
think deeply

오류 발생 코드 # 데이터프레임 생성 lyrics_df = pd.DataFrame(columns=['Song', 'Singer', 'Lyrics']) song = [] singer = [] lyrics = [] #-------------------------------------------------------------------------------------------------- # 플레이리스트 내 수록곡 Length song_list = driver.find_elements(By.XPATH,'//*[@id="frm"]/div/table/tbody') song_list_li = [] for element in song_list: tr_elements = element.find_elements(By..

웹크롤링을 위해서 url을 이해하는 것은 기본적이다. 이번 포스팅은 url의 의미를 분석한 내용이다. Client와 Server의 관계 Client : 브라우저를 통해 url을 입력해 서버에 데이터 요청 Server : client가 데이터를 요청하면 요청 url에 따라 데이터를 전송 URL 뜯어보기 https://finance.naver.com/news/news_read.naver?mode=mainnews&office_id=018&article_id=0005433334 (네이버 증권 페이지 주요뉴스 기사) 위 url을 예시로 구성요소들을 분석해보자. Protocol ( https:// ) : 컴퓨터 내부에서 또는 컴퓨터 사이에서 데이터의 교환 방식을 정의하는 규칙 체계 ( 규칙!! ) HTTPS(htt..

내가 관심있는 앱의 리뷰 데이터를 수집할 수 있는 크롤러입니다. 저는 지난 논문에 활용한 데이터도 이와 동일한 방법으로 크롤링했으며, 이번 개인 프로젝트를 위해 e-book과 관련된 어플들 몇 가지를 크롤링하기 위해 크롤링을 진행하였습니다. 셀레니움을 이용한 코드는 저희가 고려해야할 것들이 존재하나, 해당 크롤러는 빠른 속도와 간편한 크롤링이 가능합니다. 궁금한 앱의 웹 주소만 기입하면 크롤링 가능하도록 설명드리겠습니다. 1. 작업환경 저는 우선 Python 프로그래밍 언어에 사용되는 통합 개발 환경인 pycharm을 활용해 크롤링을 진행하였습니다. pycharm은 아래 링크를 참고해 설치하면 됩니다. https://blog.dalso.org/language/python/13524 python 개발을 위..