ウィットに富んだキャプション生成 – Punny Captions: WittyWordplay in Image Descriptions
Chandrasekaran, Arjun, Devi Parikh, and Mohit Bansal. "Punny captions: Witty wordplay in image descriptions." arXiv preprint arXiv:1704.08224 (2017).
2017
Overview
「ユーモア」は人間の創造性のさまざまな側面の中でもコンピュータにとって最も理解が難しいものの一つ. 画像のキャプション生成(画像の内容を説明する文)は、Deep Learningのタスクとしては一般的になっていますが、今回の論文はダジャレ、語呂合わせ(pun)を含んだキャプションを生成することに挑戦しています.
Abstract
Wit is a form of rich interaction that is often grounded in a specific situation (e.g., a comment in response to an event). In this work, we attempt to build computational models that can produce witty descriptions for a given image. Inspired by a cognitive account of humor appreciation, we employ linguistic word play, specifically puns, in image descriptions. We develop two approaches which involve retrieving witty descriptions for a given image from a large corpus of sentences, or generating them via an encoder-decoder neural network architecture. We compare our approach against meaningful baseline approaches via human studies and show substantial improvements. We find that when a human is subject to similar constraints as the model regarding word usage and style, people vote the image descriptions generated by our model to be slightly wittier than human-written witty descriptions. Unsurprisingly, humans are almost always wittier than the model when they are free to choose the vocabulary, style, etc.
Architecture
やり方はというと…まず一般的な画像認識、画像キャプション生成のモデル(Show and Tell)を用いて、画像の内容を記述する単語をいくか取り出します(単語リストAとします). 予め用意した語呂合わせが成り立つ=発音が近い単語のリストの中に含まれる単語に絞り込みます (上の例だと sellとcell, sideとsighed). 単語リストBとしましょう.
ここから、二つの方法でキャプションを生成および検索します.
生成: 上と同様に画像キャプションの生成モデルを用いてキャプションを生成するのですが、途中のステップでモデルが使える単語を単語リストBのみに強制的に絞り込みます. うまくいけば、Bのなかの単語を用いて、キャプションが生成されるという分けです.
検索: もうひとつは生成するのではなく、大量の文章から合う文を検索するというやりかた. 小説などのコーパスから、単語リストA, B両方の単語を含む文を探す… それだけです (笑
Results
下の図で、Generatedとあるのが生成、Retrievedは検索した例です.
Further Thoughts
わりと乱暴なやり方だなという印象ですが、数名の被験者をつかってどちらが面白いか聞いたところ、55%の場合にこのシステムで生成・検索したものが面白いと答えたとのことです.