본문 바로가기

AI/NLP Paper

(9)
[NLP] Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context 리뷰 Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context Transformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel neural architecture Transformer-XL that enables learning dependency beyond a fixed length..
[NLP] BERT : Pre-training of Deep Bidirectional Transformer for Language Understanding 리뷰 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Introduction 언어 모델의 사전 학습(pre-training)은 많은 자연어 처리 task에서 효과적인 성능 향상을 보였습니다. sentence level task는 언어 추론(NLI)이나 paraphrasing처럼 전체 sentences를 분석하여 sentence 간의 관계를 예측합니다. token level task는 고유명사 인식이나 QA 등이 있습니다. 이처럼 많은 task에서 효과적인 사전 학습된 언어 표현을 down-stream tasks에 적용하기 위한 2가지 방법이 있습니다. 바로 Feature-based approach와 Fine-tun..
[NLP] Attention Is All You Need 리뷰 Introduction LSTM, GRU 같은 순환 신경망은 language modeling과 기계 번역 분야에서 SOTA의 자리를 굳건하게 지키고 있었습니다. Recurrent 모델은 기본적으로 input과 output sentence의 symbol위치에 따라서 계산을 고려합니다. position을 계산 step에 aligning 하면서 hidden state의 시퀀스 $h_t$를 이 전 hidden state $h_{t-1}$과 position $t$에서의 input을 이용하여 생성합니다. 이것은 본질적으로 training examples에서의 병렬화를 막고, batching across examples에서의 메모리 제한을 두게 됩니다. 이 문제를 해결하기 위해 많은 노력이 있었지만, sequenti..
[NLP] Neural Machine Translation by Jointly Learning to Align and Translate 리뷰 Abstract 기존 통계기반 기계 번역과 다르게, 신경망 기계 번역은 성능을 극대화할 수 있게 함께 조정될 수 있는 단일 신경망 구축을 목표로 합니다. 최근에 제안된 모델은 encoder-decoder 계열로 decoder가 번역을 생성할 때 사용할 수 있는 고정 길이 벡터를 encode에서 만들어냅니다. 논문에서는 이러한 고정 길이 벡터가 기본적인 encoder-decoder모델의 성능 향상을 저하한다고 추측했고, 그에 따라 모델이 자동적으로 source sentence에서 예측할 단어와 관련 있는 부분을 찾을 수 있게 하는 방법을 제안합니다. Introduction 전통적인 phrase-based 번역 시스템은 개별로 조정되는 많은 sub-components를 갖고 있었던 것과 다르게 신경망 기계 ..
[NLP] Sequence to Sequence Learning with Neural Networks 리뷰 Abstract DNN은 large labeled training set을 이용하여 학습을 가능하게 해 줬지만, sequence를 sequence로 표현하는 데는 사용되지 않았습니다. 이에 논문에서는 sequence 학습에 대한 end-to-end방법을 소개합니다. 멀티 레이어 LSTM을 사용하여 input sequence를 하나의 고정 길이 벡터로 표현하고, 다른 LSTM을 이용하여 표현된 벡터로부터 target sequence를 decode 합니다. LSTM은 긴 문장에서도 어려움 없이 동작합니다. 그리고 단어 순서에 민감하고 능동적 및 수동적 표현에 상대적으로 강건한 구와 문장 표현을 학습했습니다. 마지막으로 source sentence의 단어 순서를 뒤집는 것이 LSTM의 성능을 크게 향상하는 것..
[NLP] Distributed Representations of Words and Phrases and their Compositionality 리뷰 Abstract 이 논문은 이 전에 발표된 Efficient Estimation of Word Representations in Vector Space의 후속 논문으로 기존의 Skip-gram 모델보다 단어 벡터의 quality를 높이는 것과 동시에 훈련 시간을 줄이는 방법을 제시했습니다. 빈도수가 높은 단어를 subsampling 함으로써 훈련 시간을 줄이고, 좀 더 보편적인 단어 표현을 얻을 수 있었습니다. 또한, 계층적 소프트맥스를 대신할 수 있는 negative sampling에 대해서도 설명합니다. 단어 표현의 고질적인 문제는 관용어구를 표현할 수 없다는 것입니다. 예를 들어 'Canada'와 'Air'의미를 가지고 'Air Canada'로 합치는 것은 쉽지 않습니다. 이에 영감을 받아서, 텍스..
[NLP] Efficient Estimation of Word Representations in Vector Space(Word2Vec) 리뷰 Abstract 이 논문에서는 아주 큰 데이터셋에 있는 단어의 연속적인 벡터 표현을 계산하는 새로운 모델 구조를 제안합니다. 이는 이 전의 모델에 비해 훨씬 적은 계산 양에도 불구하고 정확도에서 큰 성능 향상이 있었습니다. 나아가 syntactic, semantic 단어 유사도 측정 부분에서 state-of-the-art 성능을 달성했습니다. Introduction 이전의 많은 NLP 시스템은 단어를 아주 작은 단위(atomic units)로써 다뤘습니다. 여기에 단어 사이의 유사성에 관한 개념은 없었습니다. 이러한 방식에는 단순하고, 강건하다는 장점과 단순한 모델이 많은 양의 데이터로 학습을 진행했을 때가 복잡한 모델이 적은 데이터로 학습했을 때 보다 성능이 좋은 것이 관찰됐습니다. 하지만, 이런 단순..
[NLP] (NNLM)A Nueral Probabilistic Language Model 리뷰 Abstract 통계학적 언어 모델을 만들게 된 목적은 언어에서 word sequences의 결합 확률 함수를 학습하기 위해서입니다. 하지만 이는 Curse Of Dimensionality(차원의 저주)라는 본질적인 문제가 있습니다. 이에 논문에서는 단어의 분산 표현을 학습함으로써 문제를 해결하고자 합니다. Introduction 언어 모델이나 다른 학습이 어려운 근본적인 문제는 차원의 저주 때문입니다. 특히 많은 discrete random variables사이의 분산을 합친 모델을 만들려고 할 때 문제가 발생합니다. 예를 들어, 우리가 10개의 연속적인 단어의 분산을 합친 모델을 단어장 크기가 100,000인 $V$를 이용해서 만들려고 한다고 가정하겠습니다. 이러한 경우 free parameters는..