Language Models as an Alternative Evaluator of Word Order Hypotheses: A Case Study in Japaneseを読んだ
概要
日本語の語順の評価をLanguage Model(LM)を用いた生成確率で比較する方法を提案。人間が評価する手法や、既存の頻度ベースの評価手法と同様の結果が得られることを実験で確認している。
リンク
用語
用語 | 意味 |
---|---|
NOM | nominativeの略。主格のこと |
DAT | dative caseの略。与格のこと。 |
ACC | accusative caseの略。対格のこと。 |
背景
文章の語順の評価方法としては、人間が実際に確認して評価する方法や、大規模なコーパスから頻度集計を行ったものを用いて評価する方法がある。人間が行う評価ではスケーラビリティに問題があり、頻度ベースの手法では前処理の段階でエラーが発生するといった問題がある。
Language Modelを用いた英語の語順の評価については既往研究があるが、日本語のような柔軟な語順でも成立する言語でも成り立つかどうかは検証されていない。
提案手法(LM-based method)
正しい語順の場合、Language Model(LM)の文の生成確率が最も高くなるという仮定に基づいて評価を行う。
文 の生成確率は以下を用いる
:left-to-right LMで算出した生成確率
:right-to-left LMで算出した生成確率
※ LMに用いられているTransformerは文全体の生成確率は出せない気がするので、生成確率は各単語の生成確率の累積ではないかと思われる。fairseqの論文を読んだほうが良いのかもしれないが未調査。
LMにはTransformerを用いる(auto-regressive, unidirectionalなのでBERTではない)。fairseqで実装されたものを用いた。
LMはCLMとSLMの2種類のそれぞれを評価する。
CLM:character-based LM
SLM:subword-based LM
subwordはUniDic辞書を用いたMeCabで形態素解析を行い、byte-pair-encodingで行う。
LMの学習は、3B web pageからランダム抽出した160M文を用いて行う。dev用に10K文を切り出す。adaptive softmax cutoffはSLMにのみ適用する。
ハイパーパラメータは以下のTable 5参照。
学習後のperplexityはleft-to-right CLMが11.05、right-to-left CLMが11.08、left-to-right SLMが28.51、right-to-left SLMが28.25となった。CLMとSLMのperplexityの差はボキャブラリーサイズの違いに依存している。
LM-basedを使うメリットとしては、後置詞が削除されたような場合にユーザがどちらを好むかどうかの検証用のサンプルが作りやすい点である。
※ Language Models as an Alternative Evaluator of Word Order Hypotheses: A Case Study in Japaneseより引用
検証結果
Human-based methodとLM-based methodの比較
検証用のデータ作成
3B web pagesから10K文をランダム抽出。以下の条件に該当する文のみ使用する。
- 5句以下で、1つの動詞を持つ
- dependency treeに兄弟関係を持つ節があり、助詞や副詞を持つ
- 括弧などの特殊記号を持たない
- backward dependency pathを持たない
各文に対して以下のスクランブル処理を行い、語順を変更した文を作成する
評価方法
評価はYahoo Japan! のクラウドソーシングで実施。
作業者に元の文と語順を変更した文のペアを見せ、以下のどれに該当するかを選択してもらう。
(1)文1の語順の方が良い
(2)文2の語順の方が良い
(3)文1、文2に意味的におかしい文が含まれている
文1、文2のどちらが元の文かは作業者には知らされない。
作業者はcheck questionsを用いてunmotivated workersを除外した。
各ペアに対して10人の作業者に回答してもらい、誰も「(3)文1、文2に意味的におかしい文が含まれている」を選択していない、かつ、好ましい文の選択が9人以上一致しているペアのみ評価に用いる。選択した作業者が多い方の文を、好ましい語順とする。最終的に2.6Kペアを収集した。
上記の2.6Kペアの好ましい文とLM-basedで選択された好ましい文のピアソン相関係数を算出すると、クラウドソーシングとCLMの相関係数が0.89、クラウドソーシングとSLMの相関係数が0.90だった。
なお、こうした語順の直接比較はcount-basedだとコーパスのスパース性のため難しい。
Data-driven methodsとLM-based methodの比較
目的語が2つある場合
DATとACCがどちらが先にある方が好ましいかを検証する。
例:
DAT-ACC:生徒に 本を あげた
ACC-DAT:本を 生徒に あげた
Data-driven methodsとLM-based methodの比較指標として、動詞毎にACCが前、DATが後ろである場合の確率 を用いる。
以下の図はData-driven methodsとLM-based methodの をプロットしたもの(縦軸がLM-based method)。
その他の場合
実際はその他の場合ではなく、目的語の対格が無い場合や、副詞の位置がSOVの中でどこに現れるかなどで細かく場合分けして検証を行っている。
詳細は省略するが、全て既存のData-driven手法とLM-based手法との間で一貫性のある結果が確認できている。CLMとSLMのData-driven手法とのピアソン相関係数はそれぞれ0.91と0.88で、強い相関があることが分かる。