목록rainbow (32)
think deeply
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
import numpy as np 조건에 맞는 값 위치 형태: np.where( 조건 ) 예시: np.where( titanic [ 'Sex' ] == ' female ' ) 조건에 맞는 값 변경 형태 : np.where( 조건 , 참일 때 변경값 , 거짓일 때 변경값 ) 예시 : titanic [ 'Sex' ] = np.where ( titanic [ 'Sex' ] == ' female ' , ' Woman ' , ' Man ' ) * 두, 세번째 파라미터에 문자형이 아닌, 수치형이 와도 상관없음 * 조건에는 ==, >, True, False로 변경되는 값이 정해짐
파이썬 역순 정렬 함수3. : reverse, reversed 1. reverse() :: list.reverse() 배열의 항목 순서를 뒤집는다 메모리 내의 배열 원소들을 직접 수정 반환값은 None a = 'string' a_list = list(a) # 문자열을 list로 치환 :: reverse는 list에만 사용 가능하기 때문 a_list.reverse() # reverse 함수를 사용해 문자열 리스트를 거꾸로 뒤집음 print(''.join(a_list)) # 거꾸로 뒤집어진 리스트를 연결해서 출력 #출력: gnirts 2. reversed() :: reversed(list) reversed는 문자열에도 바로 적용이 가능함 (cf. reverse는 list만 사용 가능) 반환값이 배열값: 변수..
구글은 이제 끝났다 2022년 11월 30일, OpenAI에서 엄청난 챗봇 'ChatGPT'을 공개했다. 그 이후 지금까지 가장 많이 나오고 있는 말이다. 검색시스템을 기반으로 하는 구글은 고정된 데이터를 기반으로 한다. 한 번 작성되거나 텍스트, 웹페이지를 사용자에게 돌려주는 것인데. 이번 ChatGPT는 묻는 말에 따라 새로운 답변을 만들어서 준다. 어려운 질문을 해도, 사람처럼 정확한 답을 준다. 일상 대화, 코딩, 소설 등 알아서 척척 만들어준다. *OpenAI : 일론 머스크와 샘 알트만, 리드 호프먼 등이 힘을 합쳐 만든 AI 회사 * chatGPT는 내년의 출시 예정인 GPT-4의 중간격인 GPT-3.5를 기반으로 한다. *GPT-3는 1750억개의 매개변수를 가졌다. 인간의 시냅스 수의 1..
window 쓰던 사람들은 화면 분할 단축키에 익숙하다. 맥북도 화면 분할 방법이 존재하나, 다음 그림과 같이 찾아보지 않는 이상은 알기 어렵다. 반면, 그 화면 분할 단축키가 맥북은 초기값으로 지니고 있지 않는다. 아래에 맥북에 화면 분할 단축키 설정을 하는 spactacle 어플리케이션을 설정하는 방법을 정리해둔 사이트를 가지고 왔다. https://extrememanual.net/41717 Mac 화면 분할 단축키 사용 방법 - 익스트림 매뉴얼 Mac 컴퓨터에서 작업을 하면서 동시에 여러개의 창을 띄워야 할 때 화면 분할 기능을 이용해 화면을 효율적으로 사용할 수 있는 기능을 제공하고 있습니다. macOS의 화면 분할 기능은 창 왼쪽의 전 extrememanual.net
EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 분석을 하기 위한 데이터를 살펴보는 과정을 의미하는 단어 도출하고자 하는 결과값을 좀 더 수월하게 낼 수 있도록 해당 데이터를 살펴보는 것입니다. EDA가 필요한 이유 분석 코드를 어렵게 모두 작성해도 원하는 형태의 결과가 나오지 않을 수 있는데, 그럴 경우 그 시간이 모두 헛고생으로 돌아간다. 근원적으로 분석해야하는 데이터를 잘못 이해했기 때문이라고 볼 수 있다. 오늘은 현재 내가 분석하고자 하는 대상인 '국내 e-book에 대한 사용자 경험 분석' EDA 과정을 간략히 정리해두고자 작성한다. 1. 관련 raw data를 모으기 위해, 국내 구글 플레이 스토어 크롤링 진행 분석 대상에 대한 사용자 경험을 다루기 위해 적합한 데..
워드임베딩이란? 사람의 언어를 벡터로 표현하는 방법으로 단어를 희소 벡터가 아닌, 밀집벡터의 형태로 표현하는 것 의미적으로 유사한 단어들끼리 서로 가까이 위치하도록 단어들을 벡터 공간으로 매핑 워드임베딩이 왜 필요한가? 사람의 언어는 불연속적인 형태의 단어로 이루어진다. 각 단어가 갖는 의미가 서로 연관성이 있는 경우도 있지만, 형태가 다른 경우에는 서로 얼마나 연관성이 있는지 컴퓨터는 이해하고 파악하기 어렵다. 그렇기에 단어를 숫자로 표현하는 방식에 따라 자연어 처리의 성능이 크게 달라지기 때문에 단어를 숫자로 바꾸는 과정이 중요하다. 희소 표현 vs 밀집 표현 ※ 희소표현(sparse representation): 벡터 또는 행렬(matrix)의 값이 대부분 0으로 표현되는방법 예로 원-핫 벡터를 생..
내가 관심있는 앱의 리뷰 데이터를 수집할 수 있는 크롤러입니다. 저는 지난 논문에 활용한 데이터도 이와 동일한 방법으로 크롤링했으며, 이번 개인 프로젝트를 위해 e-book과 관련된 어플들 몇 가지를 크롤링하기 위해 크롤링을 진행하였습니다. 셀레니움을 이용한 코드는 저희가 고려해야할 것들이 존재하나, 해당 크롤러는 빠른 속도와 간편한 크롤링이 가능합니다. 궁금한 앱의 웹 주소만 기입하면 크롤링 가능하도록 설명드리겠습니다. 1. 작업환경 저는 우선 Python 프로그래밍 언어에 사용되는 통합 개발 환경인 pycharm을 활용해 크롤링을 진행하였습니다. pycharm은 아래 링크를 참고해 설치하면 됩니다. https://blog.dalso.org/language/python/13524 python 개발을 위..