発表

3B-057

BERT による意味表現

[責任発表者] 浅川 伸一:1
[連名発表者・登壇者] 近藤 公久:1
1:東京女子大学

はじめに ELMo(Peters et al., 2018), BERT (Devlin, Chang, Lee, & Toutanova, 2018), GPT-2[1]の提案は精度向上が認められ,自然言語処理のイメージネットとも言われる[2]。これは word2vec (Mikolov, Yih, & Zweig, 2013), GloVe (Pennington, Socher, & Manning, 2014) などの単語埋め込みモデルから,fastText (Joulin et al., 2017) のような単語ベクトルの加算ベクトルを文ベクトルとみなす手法から一歩進んで普遍文章符号化 universal sentence encoding に至っている。本研究ではこの普遍文章符号化モデルを用いて,単語の心理属性の検討を試みた。普遍文章符号化モデルでは,単語,文書,段落などの諸段階での埋め込み表象が可能である。しかも事前訓練したモデルが Google Hub[3]で公開されているため,取扱が容易である。普遍文章符号化モデルによって生成された埋め込みは,正規化されているため直接比較かのうである。文間の意味的類似性は,符号化ベクトルの内積として明示的に計算可能である。単語,文,段落の相互類似性を計算すればヒートマップとして表示可能である。
BERT 事前訓練には柴田・河原・黒橋(2019) の実装を用いた。このデータは,事前学習には日本語 Wikipedia 全部(約1,800 万文) を用い,語彙数(サブワードも含む) は 32,000 であった。事前訓練には Google による Tensorflow 実装[4]を用い,ファインチューニングには PyTorch 実装[5]を改良したものである。BERT はトランスフォーマー (Vaswani et al. , 2017) をベースにしている。トランスフォーマーは RNN やCNN を使わず,自己注意を使用したモデルである。
入力表現: BERT への入力は1文,文のペアもしくは文書である。いずれの場合もトークン列として表現される。各トークンはトークン埋め込み,セグメント埋め込み,位置埋め込みベクトルの和で表現される。各単語は準単語に分割される。準単語に分割された語のうち先頭ではないものには ## を付与する。セグメント埋め込みは入力が2文の場合1文目のトークンには文A 埋め込み,2文目には文B 埋め込みを入れる(2文の間に[SEP] トークンをはさむ)。また,各トークンの位置は位置埋め込みとして学習される。文の先頭には[CLS] トークンを入れる。文分類問題または2文分類問題ではこのトークンに対応する最終層の埋め込みベクトルが文または2文の表現となる。
マスク化言語モデル: BERT ではマスク化言語モデルを用いている。マスク化言語モデルでは,文中の任意の単語をマスクとして隠蔽し,その単語を予測する課題である。これは,次単語予測課題に基づく通常の言語モデルとは一線を画するものである。
次文予測: 質問応答やテキスト含意認識などのタスクでは2文間の関係を捉えることが重要となる。そこで,次文予測課題でモデルを事前学習する。50% のものは本当に存在する次の文をつなげて正例とし,残りの50% はランダムにサンプルした文をつなげて負例とし,これらを識別する問題を解く。従って次文予測課題は word2vec における負例サンプリングの拡張と考えられる。
ファインチューニング: トランスフォーマーの上に各タスクに応じた最終層を加えることによって,文ペア分類問題,1文分類問題,質問応答,系列ラベリング問題を扱っている。例えば文ペア分類問題もしくは1文分類問題では,[CLS] に対応する最終層の埋め込みベクトルとするで各クラスの確率を求める。
考察人間による単語の意味表象と近年精度向上の認められる自然言語処理系の意味表象との関連を考察することは,今後の研究動向を考えても重要であろう。心理属性との関連は,文章読解,比喩理解,類似性判断,反応時間,プライム量予測,など多くの課題への適用が可能である。BERT のような普遍符号化モデルによる表象によるあらたな方向性が考えられよう。
引用文献
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv.
Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jëgou, H., & Mikolov, T. (2017). FASTTEXT.ZIP: Compressing text classification models. In Y. Bengio & Y. LeCun (Eds.), The proceedings of International Conference on Learning Representations (ICLR). Toulon, France.
Mikolov, T., Yih, W. tau, & Zweig, G. (2013). Linguistic regularities in continuous space word representations. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies NAACL. Atlanta, WA, USA.
Doha, Quatar. Peters, M. E., Neumanny, M., Iyyery, M., Gardnery, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. arXiv.
柴田知秀・河原大輔・黒橋禎夫. (2019). 『Bert による日本語構文解析の精度向上』.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., & Kaiser Łukasz. (2017). Attention is all you need arXiv.
footnote
[1] https://openai.com/blog/better-language-models/
[2] NLP's ImageNet moment has arrived
[3] https://www.tensorflow.org/hub
[4] https://github.com/google-research/bert
[5] https://github.com/huggingface/pytorch-pretrained-BERT

キーワード
普遍文章埋め込み/意味表象/自然言語処理


詳細検索