Word Embedding이란?

워드임베딩은 Deep Learning 분야에서 자연어처리에서 필수적으로 알아야할 개념입니다.

머신러닝, 딥러닝으로 학습을 시킬 데이터는 숫자로 나타낼 필요가 있습니다.

영어나 한국어나 모든 언어(자연어)들은 abcd, ㄱㄴㄷㄹ 이런식으로 수치화되어있지 않기때문에 특징들을 뽑아내서

수치화하게 되는게 이 과정을 워드임베딩 이라고 합니다.

즉 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)이라고 합니다.

그리고 이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터(embedding vector)라고도 합니다.

먼저 인코딩(Encoding)에 대해 알아보겠습니다.

인코딩(Encoding)

인코딩 방법에는 2가지가 있습니다.

정수 인코딩

dictionary를 이용한 정수 인코딩
- 각 단어와 정수 인덱스를 연결하고, 토큰을 변환해주는 정수 인코딩
- {'you' : 0, 'say' : 1, 'goodbye' : 2, ....} 이런 예시로 정수값으로 라벨링

원 핫 인코딩(One-Hot Encoding)

Sparse Represention (희소 표현)

Dense Representation (밀집표현)

Distributed Representation (분산표현)

분포 가설 : '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 됩니다.

Word2Vec

Word2Vec에는 CBOW(Continuous Bag of Words)와 Skip-Gram 두 가지 방식이 있습니다.

예를 들어, 갖고 있는 코퍼스에 아래와 같은 문장이 있다고 합시다. 예문 : "The fat cat sat on the mat"

가운데 단어를 예측하는 것이 CBOW라고 했습니다.
- {"The", "fat", "cat", "on", "the", "mat"}으로부터 sat을 예측하는 것은 CBOW가 하는 일입니다.
- 이 때 예측해야하는 단어 sat을 중심 단어(center word)라고 하고, 예측에 사용되는 단어들을 주변 단어(context word)라고 합니다.
중심 단어를 예측하기 위해서 앞, 뒤로 몇 개의 단어를 볼지를 결정했다면 이 범위를 윈도우(window)라고 합니다.
- 예를 들어서 윈도우 크기가 2이고, 예측하고자 하는 중심 단어가 sat이라고 한다면 앞의 두 단어인 fat와 cat, 그리고 뒤의 두 단어인 on, the를 참고합니다.
- 윈도우 크기가 n이라고 한다면, 실제 중심 단어를 예측하기 위해 참고하려고 하는 주변 단어의 개수는 2n이 될 것입니다.
- 윈도우 크기를 정했다면, 윈도우를 계속 움직여서 주변 단어와 중심 단어 선택을 바꿔가며 학습을 위한 데이터 셋을 만들 수 있는데, 이 방법을 슬라이딩 윈도우(sliding window)라고 합니다.

Skip-gram

글의 내용이 많아져서 2개로 나누어서 올리겠습니다. 긴 글 읽어주셔서 감사합니다.

정규표현식(Regular Expression) with 파이썬 . ? + *기호 re.compile(), re.findall(), re.sub() (2) (0)	2021.09.14
정규표현식(Regular Expression) with 파이썬 . ? + *기호 re.compile(), re.findall(), re.sub() (1) (0)	2021.09.14
자연어처리, 워드임베딩 (Word2Vec, FastText , GloVe 예제)(2) (0)	2021.09.09
딥러닝에서 가중치(W), 편향(Bias)의 역할 (3)	2021.08.30
인공지능, 머신러닝, 딥러닝(AI, ML, DL)이 무슨 말? (0)	2021.08.27