Entry

Yu, Mo, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, and Jie Zhou. 2025. "The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding." arXiv preprint arXiv:2502.08946.

Simple Title

The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Description

Mo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

Type

Paper

Year

@June 18, 2024 9:30 PM (GMT+2)

Posted at

March 23, 2026 5:04 PM (GMT+9)

Overview

大規模言語モデル（LLM）が物理現象を本当に理解しているのか、グリッド形式の問題を使って検証しました。
GPT-4oやo1などの最先端モデルでさえ、人間より約40%低い正答率に留まり、表面的な理解に止まっている可能性を発見しました。

LLMが急速に進化する中で、『本当に理解しているのか、それとも単に確率的にもっともらしい答えを出しているだけではないのか』という疑問は多くの研究者や利用者の心に浮かびます。この論文は、その疑問に正面から答えようとした実験的な取り組みです。単に言語で概念を説明できるかどうかではなく、抽象的な図形パターンを通じて本質的な理解があるかを測ることで、LLMの限界を浮き彫りにしています。

Abstract

In a systematic way, we investigate a widely asked question: Do LLMs really understand what they say?, which relates to the more familiar term Stochastic Parrot. To this end, we propose a summative assessment over a carefully designed physical concept understanding task, PhysiCo. Our task alleviates the memorization issue via the usage of grid-format inputs that abstractly describe physical phenomena. The grids represents varying levels of understanding, from the core phenomenon, application examples to analogies to other abstract patterns in the grid world. A comprehensive study on our task demonstrates: (1) state-of-the-art LLMs, including GPT-4o, o1 and Gemini 2.0 flash thinking, lag behind humans by ~40%; (2) the stochastic parrot phenomenon is present in LLMs, as they fail on our grid task but can describe and recognize the same concepts well in natural language; (3) our task challenges the LLMs due to intrinsic difficulties rather than the unfamiliar grid format, as in-context learning and fine-tuning on same formatted data added little to their performance.

Motivation

LLMは学習データから概念を丸暗記しているだけではないか、という『確率的オウム仮説』を検証したいと考えました。
これまでのテストは自然言語で出題されるため、学習済みの表現をそのまま取り出すだけで解ける可能性がありました。
本当の理解力を見抜くには、まったく新しい形式で概念を理解させる必要があると考えたからです。

Method

グリッド（碁盤状の図形）を使ってさまざまなレベルの物理現象を表現する新しい課題『PhysiCo』を設計しました。自然言語による説明や認識タスクとは異なる、純粋に抽象的パターン理解を問う問題を作り、GPT-4o、o1、Gemini 2.0など複数の最先端LLMで性能を比較しました。

PhysiCoタスクでは、格子状の図形パターンで物理現象の基本原理、具体例、他の抽象パターンへの類推といった異なるレベルの理解を測定しました。
同じ概念について、グリッド形式での正答率と、自然言語での説明・認識能力を比較することで、モデルが本当に理解しているか検証しました。
データ形式への慣れが原因ではないことを確認するため、同じグリッド形式でのコンテキスト内学習とファインチューニングも試みました。

Results

GPT-4oやo1といった最先端のLLMでさえ、グリッド形式の物理概念理解では人間より約40%低い正答率を示し、自然言語では同じ概念を説明・認識できるにもかかわらずパターン理解では大きく劣ることが判明しました。

最先端LLMの正答率は人間よりも約40ポイント低く、本質的な理解の欠如が明らかになりました。
同じ概念を自然言語で説明・認識できるモデルが、グリッド形式では失敗する矛盾が確認されました。
同じグリッド形式でのコンテキスト内学習やファインチューニングでも性能向上がわずかで、形式の不慣れではなく内在的な理解の問題であることが示唆されました。

Further Thoughts

LLMの開発者は、単に自然言語での性能向上だけでなく、本質的な推論能力や抽象化能力の強化が必要であることに気付かされました。
LLMを医学診断や科学研究といった正確な物理理解が必須な分野で使う際には、慎重さが求められることが浮き彫りになりました。
今後は、より多様な形式での理解を測るベンチマークの開発や、LLMの推論メカニズムの深掘り研究が求められています。

LLMは本当に理解しているのか？物理概念で検証 — The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding