목록rainbow/자연어처리 (10)
think deeply
개념 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용 하는 기법. 쉽게, 한 분야의 문제를 해결하기 위해서 얻은 지식과 정보를 다른 문제를 푸는데 사용하는 방식을 의미한다. 아무 지식없이 처음부터 학습하는 것보다 익힌 것을 활용한다면 학습 속도가 더 빠른 것과 같다. 예시 자연어에서 예로 들기엔 설명이 복잡하여 하나의 포스팅으로 빼고 링크를 걸어두겠다. https://brunch.co.kr/@geumjaelee/4 자연어의 피처와 전처리 Feature and Preprocessing for NLP | 1. 오늘의 주제 * 왜 한국어의 자연어처리가 어려운가? * 왜 자연어처리의 개념을 잡기가 어려운가? * Feature와 Label, Data는 무슨 관계인가? * Feature란 무엇인가? * 자 ..
자연어 처리 모델 기본 프로세스 자연어(사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어) ↓ 모델 ↓ 출력(확률) 모델이 자연어를 입력받고 해당 입력이 특정 범주일 확률을 반환하는 확률 함수 예시 리뷰 감성분석 자연어 문장을 모델로 받아서 내부 계산을 거쳐 해당 문장이 긍정, 중립, 부정에 속할 확률을 반환 f ( 오늘 탔던 킥보드는 브레이크가 안 좋았어요 ) = [ 0.1 0.2 0.7 ] f ( 출근 시간에 잘 쓰고 있어요 ) = [ 0.9 0.1 0.0 ] 과 같은 방식으로 도출된다. 모델 결과로 출력되는 확률값을 후처리를 통해 긍정, 중립, 부정으로 자연어 형태로 변환해주면 끝. 자연어 처리 관련 추가 개념 https://blog.naver.com/kgh5654/222614779688 해당 ..
워드임베딩이란? 사람의 언어를 벡터로 표현하는 방법으로 단어를 희소 벡터가 아닌, 밀집벡터의 형태로 표현하는 것 의미적으로 유사한 단어들끼리 서로 가까이 위치하도록 단어들을 벡터 공간으로 매핑 워드임베딩이 왜 필요한가? 사람의 언어는 불연속적인 형태의 단어로 이루어진다. 각 단어가 갖는 의미가 서로 연관성이 있는 경우도 있지만, 형태가 다른 경우에는 서로 얼마나 연관성이 있는지 컴퓨터는 이해하고 파악하기 어렵다. 그렇기에 단어를 숫자로 표현하는 방식에 따라 자연어 처리의 성능이 크게 달라지기 때문에 단어를 숫자로 바꾸는 과정이 중요하다. 희소 표현 vs 밀집 표현 ※ 희소표현(sparse representation): 벡터 또는 행렬(matrix)의 값이 대부분 0으로 표현되는방법 예로 원-핫 벡터를 생..
▶개체명 인식(NER) : - 사람, 장소, 기관, 날짜 등 이외에도 분야별 각각 명명된(named) 개체를 텍스트로 식별하는 작업 - 질의답변(QA: Question Answering), 정보검색(IR: Information Retrieval), 관계추출(RE: Relation Extraction) 등을 위해 선제되어야하는 작업으로, NLP(자연어처리) 시스템의 핵심 구성 요소 ※ NER에서 NE(Named Entity: 명명된 개체)는 두 종류로 나뉜다 1. 일반적인 개체명(generic NEs): 인물이나 장소 등의 명칭 2. 특정 분야 개체명(domain-specific NEs): 분야별 전문 용어 → 실제 NER을 적용할 때는 첫 번째 유형의 개체명은 NER 알고리즘을 통해, 두 번째 유형은 미..
구문분석이란 - 구문 분석: 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 · 문법적 구조 정보를 자동으로 추출함으로써 자연어처리 기술(기계 번역, 정보 검색 등)에서 문장의미의 분석을 돕는 세부 기술로 활용 가능 - 구문 문법 : 언어학에서 문법적 구성요소들로부터 문장을 생성하고, 또 반대로 문장을 구성요소들로 분석할 때 활용하는 문법 → 구문 분석에서 구문 문법을 정의하는 것은 중요한 요소 중 하나이다. 구문 분석의 목표가 자연어 문장의 문법적 구조를 '구문 문법'에 따라 자동으로 분석하는 것이기 때문에 이를 위해선 구문 분석을 통해 추출하고자 하는 문법 구조 정보를 정의하는 과정(구문 문법 정의 과정)은 중요한 절차이다. - 구문 문법은 크게 구구조 문법, 의존 문법으로 나뉜다 구문 중..
형태소 분석이란? - 어휘분석 : 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구 - 형태소 분석 : 더 이상 분해될 수 없는 최소한의 의미 단위인 형태소를 자연어의 제약조건과 문법 규칙에 맞춰 분석하는것 - 어휘들을 분석하기 위해 형태소 분석이 선행되어야함 형태소 분석의 절차 Ⅰ. 단어에서 최소 의미를 포함하는 형태소 후보로 분리 - 형태소 분석의 처리 대상인 어절(또는 단어)는 하나 이상의 형태소가 연결된 것 - 우리는 하나 이상의 형태소가 연결된 어절이나 단어를 형태소열이라고도 부른다 Ⅱ. 형태론적 변형이 일어난 형태소의 원형 복원 및 형태소품사쌍 생성 -한국어에서 형태소가 연결될 때, 형태소의 변형이 일어나기 때문에 이를 원형 형태로 복원해줄 필요가 있음 ex. '..
▶N-gram - 가지고 있는 코퍼스에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주 - n-gram에서 n의 의미: n개의 연속적인 단어 나열 - 언어 모델을 설계할 때 활용되는 개념 ▶예시 - 문장 An adorable little boy is spreading smiles이 있을 때, 각 n에 대해서 n-gram을 전부 구해보면 다음과 같다 unigrams : An, adorable, little, boy, is, spreading, smiles bigram : An adorable, adorable little, little boy, boy is, is spreading, spreading smiles trigram : An adorable little, adorable little..
자연어처리에서 텍스트의 전처리가 필요한 이유 -비정형 데이터(Unstructured Data)란 그림, 영상, 문서와 같이 형태와 구조가 다른 구조화되지 않은 데이터를 의미 (ex. 음성정보, 동영상정보, 시각정보) -세상에 존재하는 대부분의 가공되지 않은 데이터는 비정형 데이터 형식이다. 따라서 비정형 데이터의 오류를 수정하는 과정(전처리 과정)은 필수적 텍스트 문서의 변환 - 우리가 분석을 목적으로 하는 파일로부터 텍스트를 추출하는 것이 전처리의 첫 단계 - 우리가 접하는 문서는 대부분 사람들이 읽기 쉬운 형태로 저장되어 있지만 파일 형식에 따라 저장 방법이 다르기에 시스템에서는 파일의 텍스트를 추출하는 것이 - 문서 파일을 문서로 바꾸는 작업을 수행 후에는 목표로 하는 언어의 어휘만 남아있어야 한다..