WORKS

2020.10.20 Up

Posted by Toru Urakawa

異なる文化の世界認識を、日本語AIで捉え直す— [穴埋め式]世界ことわざ辞典

異なる文化で生まれた世界認識を、日本語だけ学習したモデルで捉え直すー

「[穴埋め式]世界ことわざ辞典 ([MASK]ed World Proverb Dictionary)」は、日本語データのみから作られた言語モデルを使って、海外のことわざを再構成していくことで新しい辞典をつくる、浦川通と朝日新聞社メディアラボによるプロジェクト。TRANSBOOKS DOWNLOADsにてpdfとして販売中。

世界の様々な国からことわざを収集、文中における単語をいくつかマスク=黒塗りしたうえで、言語モデルにその黒塗り箇所に入る単語を推測。

各ことわざについて、単語を 100 個推測させることで新たなテキストを生成。それらが原文と意味の近い順に掲載されている。

 

各ページを上から下へ順に読んでいくことで、元の意味からどんどんと離れていく、日本語データ独自の解釈による「ことわざ」を見ることができる。

言語モデルは、朝日新聞社の保有する記事から 2003 年以降に蓄積されたものを学習することで作 られた、Masked Language Model(MLM)。
MLM は文章中のマスクされた箇所にふさわしい単語を前後の文脈から予測することができ、今回 このモデルを用いてことわざの生成を行なっている。

機械学習における学習データの持つバイアスについて議論が生まれつつある昨今、本辞書ではあえて日本語のみを学習したモデルで、異文化の世界認識を表すテキストとも言えることわざの再構成を行う。そこから、日本語社会について新たな視点を与えるをことを目的としている。