Yu, Mo, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, and Jie Zhou. 2025. "The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding." arXiv preprint arXiv:2502.08946.
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding
Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou
@June 18, 2024 9:30 PM (GMT+2)
Overview
- 大規模言語モデル(ChatGPTやGeminiなど)が本当に物理法則を理解しているのか、グリッド形式の課題で調べました。
- 最先端のAIでも人間より約40%劣っており、言葉では説明できても実際には理解していない『オウム返し現象』が存在することを発見しました。
最近のAIが何でも答えてくれるように見えますが、実は本当に『理解』しているのか、単に学習したパターンを並べているだけなのかが重要な問いになっています。この研究は、その疑問に正面から向き合い、AIの理解度の限界を浮き彫りにする興味深い取り組みです。

Abstract
In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.
Motivation
- AIが自然言葉で物理法則について説明できることと、本当に理解していることは別なのではないかという疑問があります。
- これまでの評価方法では、AIが暗記した知識を再利用しているだけでは検出できない可能性がありました。
- AIの『理解』と『オウム返し』を区別する、より信頼できる測定方法が必要だと考えました。
Method
グリッド形式の視覚的パズルで物理現象を表現し、AIが本当に理解しているかを測る新しい課題『PhysiCo』を設計しました。グリッドには核となる現象、応用例、他の抽象パターンとの類似性が含まれており、AIと人間の性能を比較しています。
- GPT-4o、o1、Gemini 2.0 flash thinkingなど最先端のモデルと人間を対象に、PhysiCoという物理概念理解タスクで性能を比較しました。
- グリッド形式の視覚入力を使って、自然言語による事前学習データの影響を最小化し、純粋な理解力を測定しました。
- 同じグリッド形式でのプロンプト学習と微調整を試して、学習による改善がどの程度可能かも検証しました。
Results
最先端のAIでも人間より約40%性能が低く、自然言葉では物理概念を説明できるのに、グリッド形式では理解できていない『オウム返し現象』が明確に存在することが判明しました。
- GPT-4o、o1、Gemini 2.0 flash thinkingといった最先端モデルは、PhysiCo課題で人間のパフォーマンスより約40ポイント低い精度にとどまりました。
- AIは同じ物理概念を自然言語で説明・認識することはできるのに、グリッド形式では失敗し、純粋な理解の欠如を示唆しています。
- プロンプト学習や同じグリッド形式でのファインチューニングを試しても性能向上がわずかで、グリッド形式への慣れではなく、本質的な理解の困難さが原因であることが示されました。
Further Thoughts
- AI開発者は、AIの『理解度』を評価する際に、複数のフォーマットでの検証が必要であることを認識すべきです。暗記とのしっかりした区別なしに、AIを信頼できる推論パートナーとして扱うのは危険です。
- 実世界で物理シミュレーションや科学的予測が必要な用途では、AIの根本的な理解の限界を踏まえた慎重な設計が求められます。
- 今後は、この手法を他の学問領域(化学、生物学など)に拡張したり、AIが理解を深めるための新しい訓練方法を探索することが重要な課題です。