목록자연어처리 (9)
think deeply
정리한 논문: https://www.sciencedirect.com/science/article/abs/pii/S0957417420309519 지난 번 작성한 논문의 주제가 흥미로워서 이용수도 많이 나오니 뿌듯하다. 학회에 제출한 연구는 LDA topic modeling으로 각 리뷰를 토픽 기준으로 나누고 Logistic regression을 통해 (감성 사전을 활용해 회귀계수 값을 바탕으로) 긍부정으로 분류하였다. 나는 리뷰 하나를 한 document로 활용했는데, LDA가 짧은 텍스트에서는 두 가지 문제가 존재한다. 리뷰들을 토픽으로 묶기 위해서는 동시발생 빈도가 높은 단어들끼지 묶어주어야하는데, 문서 길이가 비교적 짧은 '리뷰' 특성 상 동시 발생 패턴(co-occurence)이 부족하고 data ..
개념 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용 하는 기법. 쉽게, 한 분야의 문제를 해결하기 위해서 얻은 지식과 정보를 다른 문제를 푸는데 사용하는 방식을 의미한다. 아무 지식없이 처음부터 학습하는 것보다 익힌 것을 활용한다면 학습 속도가 더 빠른 것과 같다. 예시 자연어에서 예로 들기엔 설명이 복잡하여 하나의 포스팅으로 빼고 링크를 걸어두겠다. https://brunch.co.kr/@geumjaelee/4 자연어의 피처와 전처리 Feature and Preprocessing for NLP | 1. 오늘의 주제 * 왜 한국어의 자연어처리가 어려운가? * 왜 자연어처리의 개념을 잡기가 어려운가? * Feature와 Label, Data는 무슨 관계인가? * Feature란 무엇인가? * 자 ..
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
1. 교육정보 및 지원계기 2. 서류 작성예시 3. 인적성 4. 커리큘럼 및 후기 . 1. 교육정보 및 지원계기 교육정보 KT AIVLE 3기 홍보 사이트에 따르면 다음과 같이 설명한다. (추가적인 건 다음 링크를 통해 찾아보면 된다) https://aivle.kt.co.kr/home/main/indexMain 지원계기 지난 학기 논문을 쓰면서도 느꼈지만, 논문은 기획이 80%다. 유의미한 논문이란 처음 어떻게 실험을 설계하는지에 따라 달렸다. 유의미한 결과값이 나와도 사회에 도움이 안된다면 필요없는 논문이 될 수 있다. '그래서 이거 왜 연구했는데?' '그래서 이게 그 질문의 적절한 해답을 주냐?' 라는 질문에 답할 수 있어야한다. 이번 겨울 또 하나의 논문을 쓰려고 주제를 잡고 있다. 주 연구분야는 ..
구문분석이란 - 구문 분석: 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 · 문법적 구조 정보를 자동으로 추출함으로써 자연어처리 기술(기계 번역, 정보 검색 등)에서 문장의미의 분석을 돕는 세부 기술로 활용 가능 - 구문 문법 : 언어학에서 문법적 구성요소들로부터 문장을 생성하고, 또 반대로 문장을 구성요소들로 분석할 때 활용하는 문법 → 구문 분석에서 구문 문법을 정의하는 것은 중요한 요소 중 하나이다. 구문 분석의 목표가 자연어 문장의 문법적 구조를 '구문 문법'에 따라 자동으로 분석하는 것이기 때문에 이를 위해선 구문 분석을 통해 추출하고자 하는 문법 구조 정보를 정의하는 과정(구문 문법 정의 과정)은 중요한 절차이다. - 구문 문법은 크게 구구조 문법, 의존 문법으로 나뉜다 구문 중..
형태소 분석이란? - 어휘분석 : 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구 - 형태소 분석 : 더 이상 분해될 수 없는 최소한의 의미 단위인 형태소를 자연어의 제약조건과 문법 규칙에 맞춰 분석하는것 - 어휘들을 분석하기 위해 형태소 분석이 선행되어야함 형태소 분석의 절차 Ⅰ. 단어에서 최소 의미를 포함하는 형태소 후보로 분리 - 형태소 분석의 처리 대상인 어절(또는 단어)는 하나 이상의 형태소가 연결된 것 - 우리는 하나 이상의 형태소가 연결된 어절이나 단어를 형태소열이라고도 부른다 Ⅱ. 형태론적 변형이 일어난 형태소의 원형 복원 및 형태소품사쌍 생성 -한국어에서 형태소가 연결될 때, 형태소의 변형이 일어나기 때문에 이를 원형 형태로 복원해줄 필요가 있음 ex. '..
▶N-gram - 가지고 있는 코퍼스에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주 - n-gram에서 n의 의미: n개의 연속적인 단어 나열 - 언어 모델을 설계할 때 활용되는 개념 ▶예시 - 문장 An adorable little boy is spreading smiles이 있을 때, 각 n에 대해서 n-gram을 전부 구해보면 다음과 같다 unigrams : An, adorable, little, boy, is, spreading, smiles bigram : An adorable, adorable little, little boy, boy is, is spreading, spreading smiles trigram : An adorable little, adorable little..
자연어처리에서 텍스트의 전처리가 필요한 이유 -비정형 데이터(Unstructured Data)란 그림, 영상, 문서와 같이 형태와 구조가 다른 구조화되지 않은 데이터를 의미 (ex. 음성정보, 동영상정보, 시각정보) -세상에 존재하는 대부분의 가공되지 않은 데이터는 비정형 데이터 형식이다. 따라서 비정형 데이터의 오류를 수정하는 과정(전처리 과정)은 필수적 텍스트 문서의 변환 - 우리가 분석을 목적으로 하는 파일로부터 텍스트를 추출하는 것이 전처리의 첫 단계 - 우리가 접하는 문서는 대부분 사람들이 읽기 쉬운 형태로 저장되어 있지만 파일 형식에 따라 저장 방법이 다르기에 시스템에서는 파일의 텍스트를 추출하는 것이 - 문서 파일을 문서로 바꾸는 작업을 수행 후에는 목표로 하는 언어의 어휘만 남아있어야 한다..