본문 바로가기

딥러닝

(1)

[NLP] Distributed Representations of Words and Phrases and their Compositionality 리뷰 Abstract 이 논문은 이 전에 발표된 Efficient Estimation of Word Representations in Vector Space의 후속 논문으로 기존의 Skip-gram 모델보다 단어 벡터의 quality를 높이는 것과 동시에 훈련 시간을 줄이는 방법을 제시했습니다. 빈도수가 높은 단어를 subsampling 함으로써 훈련 시간을 줄이고, 좀 더 보편적인 단어 표현을 얻을 수 있었습니다. 또한, 계층적 소프트맥스를 대신할 수 있는 negative sampling에 대해서도 설명합니다. 단어 표현의 고질적인 문제는 관용어구를 표현할 수 없다는 것입니다. 예를 들어 'Canada'와 'Air'의미를 가지고 'Air Canada'로 합치는 것은 쉽지 않습니다. 이에 영감을 받아서, 텍스..

이전 1 다음

티스토리툴바