Entry

大規模言語モデル(LLM)が人間の執筆支援に使用される際、単に表現を変えるだけでなく、テキストの本来の意味を一貫して改変していることを実証的に示した。

Simple Title

How LLMs Distort Our Written Language | LLMが書き言葉をどう歪めるか

Description

Marwa Abdulhai, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, Natasha Jaques

Type

Paper

Year

@June 18, 2024 9:30 PM (GMT+1)

Posted at

March 23, 2026 3:37 PM (GMT+9)

Overview

大規模言語モデル(LLM)が人間の執筆支援に使用される際、単に表現を変えるだけでなく、テキストの本来の意味を一貫して改変していることを実証的に示した。
ユーザー調査、歴史的エッセイデータセット、実際のピアレビュー分析の3つの視点から、LLM使用が文章の創造性、個性、科学的評価の質に与える負の影響を定量化した。

LLMが10億人以上に日常的に使用される現在、人間の執筆スタイルへの影響はまだ十分に研究されていない。この研究は、利便性の高さの裏側に隠れた意味論的な変質という根本的な問題を指摘することで、AI導入時の社会的・文化的リスクに警告を鳴らすタイムリーで重要な実証研究である。

Abstract

Large language models (LLMs) are used by over a billion people globally, most often to assist with writing. In this work, we demonstrate that LLMs not only alter the voice and tone of human writing, but also consistently alter the intended meaning. First, we conduct a human user study to understand how people actually interact with LLMs when using them for writing. Our findings reveal that extensive LLM use led to a nearly 70% increase in essays that remained neutral in answering the topic question. Significantly more heavy LLM users reported that the writing was less creative and not in their voice. Next, using a dataset of human-written essays that was collected in 2021 before the widespread release of LLMs, we study how asking an LLM to revise the essay based on the human-written feedback in the dataset induces large changes in the resulting content and meaning. We find that even when LLMs are prompted with expert feedback and asked to only make grammar edits, they still change the text in a way that significantly alters its semantic meaning. We then examine LLM-generated text in the wild, specifically focusing on the 21% of AI-generated scientific peer reviews at a recent top AI conference. We find that LLM-generated reviews place significantly less weight on clarity and significance of the research, and assign scores that, on average, are a full point higher.These findings highlight a misalignment between the perceived benefit of AI use and an implicit, consistent effect on the semantics of human writing, motivating future work on how widespread AI writing will affect our cultural and scientific institutions.

Motivation

LLMが執筆支援に広く使用されている一方で、人間がどのようにLLMと相互作用し、その結果として文章がどう変化するのかについて、実証的なデータが欠けていた。
先行研究では、LLMの有用性や効率性に焦点が当たっていたが、テキストの『意味』という側面での変質、特に目的外の変更がどの程度生じるのかは未解明であった。
大規模なAI導入の時代において、文章生成ツールが人間の思考表現や学術的評価基準にもたらす潜在的な歪みを明らかにすることが急務であるという認識。

Method

本研究は3つの相補的なアプローチを採用している：(1)LLMの執筆支援利用実態に関するユーザー調査、(2)2021年に収集されたLLM登場前のエッセイを用いた制御実験でLLMの改変効果を測定、(3)実際の学術論文査読データにおけるAI生成査読の特性分析。

ユーザー調査では実際の利用者を対象にLLM使用パターンと主観的な文章変化の認知を調査。2021年に収集された人手作成エッセイデータセット（具体的なサンプル数は記載なし）に対し、専門家フィードバックに基づきLLMに『文法編集のみ』と指示して改訂させ、セマンティック変化を定量化した。
セマンティック意味の変化は自動評価指標（BERTスコアなど暗示されるが具体名記載なし）と人手評価の組み合わせで測定。中立性の判定、創造性、個人の声の維持などを多次元的に評価した。
学術査読の分析では、最近のトップAIカンファレンスの査読データから21%がAI生成であると特定し、clarity（明確性）、significance（重要性）、スコア分布（平均で1点高い）などを人間による査読と比較。

Results

LLMを多用するユーザーのエッセイは中立的な回答の割合が70%近く増加し、創造性喪失と個人性の低下が報告された。LLMは『文法編集のみ』の指示でも意味論的に大きく改変し、AI生成査読は文章の clarity と significance への評価比重が著しく低く、スコアは平均1点上回った。

ユーザー調査から：LLM重度利用者のエッセイでは、トピック質問への中立的回答が約70%増加し、創造性低下と声の喪失が有意に報告された。
制御実験から：『文法編集のみ』と指示されたLLMでも、テキストのセマンティック意味が有意に改変された。改変内容の詳細な定量値は抄録に記載なし。
査読分析から：AI生成査読（21%）は human-written 査読と比べ、clarity と significance に対する重み付けが有意に低く、付与スコアは平均で1ポイント高かった。

Further Thoughts

LLM開発者・企業は、文法修正や単語提案機能の実装時に、意図しない意味改変を最小化するメカニズムを設計する必要がある。意図を保持しつつ改善する条件付き介入の研究が急務である。
教育機関では学生の執筆支援にLLMを導入する際、過度な依存が創造性喪失と個人の声の埋没をもたらすリスクを周知し、適切な利用ガイドラインを策定すべき。学術査読への影響も監視が必要。
本研究の制限としては、分析対象エッセイのドメイン限定性、使用したLLMモデルの具体性の明記不足、さらに『意味改変』の定義・測定方法の詳細記述が必要。今後は時系列での言語変化、複数言語への展開、LLM自体の改善効果を検証する縦断研究が望まれる。

Links