목록전체 글 (48)
think deeply
▶개체명 인식(NER) : - 사람, 장소, 기관, 날짜 등 이외에도 분야별 각각 명명된(named) 개체를 텍스트로 식별하는 작업 - 질의답변(QA: Question Answering), 정보검색(IR: Information Retrieval), 관계추출(RE: Relation Extraction) 등을 위해 선제되어야하는 작업으로, NLP(자연어처리) 시스템의 핵심 구성 요소 ※ NER에서 NE(Named Entity: 명명된 개체)는 두 종류로 나뉜다 1. 일반적인 개체명(generic NEs): 인물이나 장소 등의 명칭 2. 특정 분야 개체명(domain-specific NEs): 분야별 전문 용어 → 실제 NER을 적용할 때는 첫 번째 유형의 개체명은 NER 알고리즘을 통해, 두 번째 유형은 미..
구문분석이란 - 구문 분석: 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 · 문법적 구조 정보를 자동으로 추출함으로써 자연어처리 기술(기계 번역, 정보 검색 등)에서 문장의미의 분석을 돕는 세부 기술로 활용 가능 - 구문 문법 : 언어학에서 문법적 구성요소들로부터 문장을 생성하고, 또 반대로 문장을 구성요소들로 분석할 때 활용하는 문법 → 구문 분석에서 구문 문법을 정의하는 것은 중요한 요소 중 하나이다. 구문 분석의 목표가 자연어 문장의 문법적 구조를 '구문 문법'에 따라 자동으로 분석하는 것이기 때문에 이를 위해선 구문 분석을 통해 추출하고자 하는 문법 구조 정보를 정의하는 과정(구문 문법 정의 과정)은 중요한 절차이다. - 구문 문법은 크게 구구조 문법, 의존 문법으로 나뉜다 구문 중..
형태소 분석이란? - 어휘분석 : 단어의 구조를 식별하고 분석을 통한 어휘의 의미와 품사에 관한 단어 수준의 연구 - 형태소 분석 : 더 이상 분해될 수 없는 최소한의 의미 단위인 형태소를 자연어의 제약조건과 문법 규칙에 맞춰 분석하는것 - 어휘들을 분석하기 위해 형태소 분석이 선행되어야함 형태소 분석의 절차 Ⅰ. 단어에서 최소 의미를 포함하는 형태소 후보로 분리 - 형태소 분석의 처리 대상인 어절(또는 단어)는 하나 이상의 형태소가 연결된 것 - 우리는 하나 이상의 형태소가 연결된 어절이나 단어를 형태소열이라고도 부른다 Ⅱ. 형태론적 변형이 일어난 형태소의 원형 복원 및 형태소품사쌍 생성 -한국어에서 형태소가 연결될 때, 형태소의 변형이 일어나기 때문에 이를 원형 형태로 복원해줄 필요가 있음 ex. '..
▶N-gram - 가지고 있는 코퍼스에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주 - n-gram에서 n의 의미: n개의 연속적인 단어 나열 - 언어 모델을 설계할 때 활용되는 개념 ▶예시 - 문장 An adorable little boy is spreading smiles이 있을 때, 각 n에 대해서 n-gram을 전부 구해보면 다음과 같다 unigrams : An, adorable, little, boy, is, spreading, smiles bigram : An adorable, adorable little, little boy, boy is, is spreading, spreading smiles trigram : An adorable little, adorable little..
자연어처리에서 텍스트의 전처리가 필요한 이유 -비정형 데이터(Unstructured Data)란 그림, 영상, 문서와 같이 형태와 구조가 다른 구조화되지 않은 데이터를 의미 (ex. 음성정보, 동영상정보, 시각정보) -세상에 존재하는 대부분의 가공되지 않은 데이터는 비정형 데이터 형식이다. 따라서 비정형 데이터의 오류를 수정하는 과정(전처리 과정)은 필수적 텍스트 문서의 변환 - 우리가 분석을 목적으로 하는 파일로부터 텍스트를 추출하는 것이 전처리의 첫 단계 - 우리가 접하는 문서는 대부분 사람들이 읽기 쉬운 형태로 저장되어 있지만 파일 형식에 따라 저장 방법이 다르기에 시스템에서는 파일의 텍스트를 추출하는 것이 - 문서 파일을 문서로 바꾸는 작업을 수행 후에는 목표로 하는 언어의 어휘만 남아있어야 한다..
*데이터 분석에서 통계, 선형대수학 개념이 많이 활용되기에 학부과정이라면, 잘 숙지해두는 것이 용이하다. ▶ 조건부 확률 : 어떤 사건 A가 일어났다고 가정한 상태에서 사건 B가 일어날 확률 - 전체 표본공간을 다루던 확률을 사건A로 축소해줄 수 있어 이 개념이 많이 활용된다 - 조건부 확률에서 'l' (조건부확률 기본식 예시에서 A)의 의미는 B의 확률을 계산하기 위해서 주어진 문맥, 히스토리, 지식으로 해석할 수 있다 * ex. 주사위를 던져 2가 나올 확률은 1/6, 주사위를 던져 나온 짝수값 중에서 2가 나올 확률은 1/3 - 만약 A와 B가 독립이라면 확률 계산에 영향을 미치지 않는다 - 지금까지 예시는 두 사건을 가지고 가정을 하는 중이었다. 이는 아래와 같이 확장도 가능하다 ▶ 베이즈 정리 ..
자연어 처리란? ▶ 자연어: 사람들의 사회생활에서 자연스럽게 발생하여 쓰이는 언어 - 흔히 대비되는 개념으로 인공언어가 있다. 컴퓨터에서 명령을 하기 위해 제약을 더하여 프로그래밍 언어와 같은 것을 의미한다. ▶자연어처리: 사람들이 사용하는 자연어를 컴퓨터를 이용하여 이해하고 생성하도록 하는 제반의 연구 - 자연어처리의 과정은 크게 NLU, NLG로 나뉜다. · NLU(자연어 이해): 컴퓨터로 들어온 언어의 의미를 파악하여 의미 표현 형태로 변화시키는 과정 → 단어, 구,문장과 같이 언어구조에 대한 이해를 다루는 데 더 초점을 맞추며, 구문 뿐만 아니라 의미에도 중점 을 둠. 인간의 이해를 위해 기계의 해석이 들어간 것이라 보면 쉬움. · NLG(자연어 생성): 주어진 의미를 표현하기 위하여 컴퓨터에서 ..
-axis(축) 이해 및 axis를 파라미터로 갖는 함수 활용하기 -broadcasting 이해 및 활용하기 -Boolean indexing으로 조건에 맞는 데이터 선택하기 np.sum에는 기본적으로 axis=None이 설정되어있다. 따라서 axis를 따로 지정해주지 않는다면 axis=none으로 설정이된다. 1차원 벡터를 만들어보고, 단순히 np.sum은 모든 값을 다 더해주지만, 이 함수에는 axis-None이 숨어있다는 것을 인지하자. axis를 0으로 설정해준다면 행방향으로, 1로 설정해준다면 열방향으로 값들을 더해준다. 프레스로 그 차원 방향으로 찍어 누른다고 생각하면 된다. axis를 1로 설정해주기 위해서는 최소한 차원이 2차원 이상, 최소 벡터가 아닌 행렬을 가져야 한다. reshape을 ..