How LLMs Distort Our Written Language

Entry

Description

Test summary

Type

Paper

Year

@June 18, 2024 9:30 PM (GMT+2)

Posted at

April 1, 2026 7:10 AM (GMT+9)

www.alphaxiv.org

AI Overview (alphaxiv)

大規模言語モデルは私たちの書き言葉をいかに歪めるか March 19, 2026 Marwa Abdulhai, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, Natasha Jaques この研究は、大規模言語モデル（LLM）が人間の文章のスタイルだけでなく、意図された意味や声も一貫して変更し、意味の均質化や議論のスタンスの変化につながることを示しています。ユーザー調査、反事実分析、実際の査読データを通じて、LLMが専門的な文脈において語彙構成、文法構造、感情的なトーン、評価基準に影響を与えることを示しています。大規模言語モデル（LLM）は、メール、レポート、クリエイティブなコンテンツの下書きに10億人以上の人々が利用しており、執筆支援の不可欠なツールとなっています。これらのモデルがしばしば、一般的で文体的に類似した「アルゴリズム的なモノボイス」を生成することは広く認識されていますが、それらが人間の執筆の根幹にある意味をどのように変えるかについての研究は限られていました。本研究は、LLMが単にトーンだけでなく、生成または修正するテキストの主要なアイデア、議論、結論にどのように影響するかを調査します。人間のユーザー研究、改訂データセットの反実仮想分析、科学的な査読の実世界評価を組み合わせることで、本研究はLLMの使用が意味内容、議論のスタンス、評価基準に大きな変化をもたらすことを示しています。これらの発見は、執筆におけるAIの普及が、人間の思考の多様性がLLMの出力に内在する特定のバイアスと構造に置き換えられる、文化的・制度的な均質化につながる可能性があることを示唆しています。執筆における人間とLLMの相互作用の調査 AI執筆支援の主観的および客観的な影響を理解するため、100人の英語ネイティブスピーカーを対象とした管理研究が実施されました。参加者は「お金は幸福につながるか？」というテーマで議論的なエッセイを書く課題を与えられました。彼らはAI支援なしで執筆したコントロールグループ（ 𝑛 = 45 n=45）と、gpt-4o-miniにアクセスできたAI支援グループ（ 𝑛 = 55 n=55）に分けられました。結果は、ユーザーの満足度と創造的主体性の間に明確な不一致があることを明らかにしました。LLMを広範に使用した参加者（テキストの40%以上をモデルで生成した者）は、自己認識された創造性が著しく低下したと報告し、 𝑡 t検定の結果は 𝑡 ( 69 ) = 2.110 t(69)=2.110（ 𝑝 = 0.0385 p=0.0385）でした。これらのユーザーはまた、コントロールグループと比較して、最終的なエッセイが彼ら自身の個人的な声を表していないと感じていました（ 𝑝 < 0.001 p<0.001）。主体性が低下したと感じているにもかかわらず、AI支援グループのユーザーは、最終成果物に対する満足度は同程度であり、思考の整理の難易度も同程度であると報告しました。これは、ユーザーがAI生成の文章の認識される品質や利便性と引き換えに、個人的な声の喪失を受け入れているというトレードオフを示唆しています。改訂における意味の歪みの定量化 LLMの影響を評価する上での中心的な課題は、モデルが単に下書きを「修正」するのか、それとも根本的に意味を変えるのかを判断することです。これに対処するため、研究者らはArgRewrite-v2データセットを使用して反実仮想分析を実施しました。このデータセットには、人間が書いたオリジナルのエッセイ86点、それらのエッセイに対する専門家のフィードバック、およびその後の人間による改訂版が含まれています。研究者らは、同じオリジナルの下書きと専門家のフィードバックを3つの製品版LLM（gpt-4o-mini、gemini-1.5-flash、claude-3-haiku）に提供し、テキストを改訂するように指示しました。これらのAI改訂版と人間が改訂したベースラインを比較することで、意味的変化の大きさを定量化することができました。 LLMが「最小限」または「文法のみ」の編集を行うように指示された場合でも、人間が行ったよりもはるかに大きな意味的変化を生み出しました。人間の改訂が的を絞った小さなものである傾向があるのに対し、LLMの改訂は一貫してエッセイ全体の主要な議論とスタイルを変

更しました。さらに、人間の改訂がフィードバックの個々の解釈に基づいて多様な意味的方向へと進むのに対し、異なるモデルや設定におけるLLMの改訂は驚くほど類似した方向へと進みました。これは、LLMが人間の思考を再構築する方法において共通の「バイアス」を持っており、多様な入力を特定の共通の意味領域へと押しやっていることを示しています。発散の数学的測定人間とLLMによる執筆の語彙的・意味論的な違いを定量化するため、本研究ではジェンセン-シャノン情報量（JSD）を用いた。この指標は、2つの確率分布間の類似性を測定するものであり、この文脈では、元の草稿で使用された単語の分布と、改訂された草稿で使用された単語の分布を比較する。 𝑃 Pと 𝑄 Qがそれぞれ元のテキストと改訂されたテキストの単語分布を表す場合、JSDは次のように定義される。 𝐽 𝑆 𝐷 ( 𝑃 ∥ 𝑄 ) = 1 2 𝐷 𝐾 𝐿 ( 𝑃 ∥ 𝑀 ) + 1 2 𝐷 𝐾 𝐿 ( 𝑄 ∥ 𝑀 ) JSD(P∥Q)= 2 1 D KL (P∥M)+ 2 1 D KL (Q∥M) ここで、 𝑀 Mは平均分布であり、次のように表される。 𝑀 = 1 2 ( 𝑃 + 𝑄 ) M= 2 1 (P+Q) そして、 𝐷 𝐾 𝐿 ( 𝑃 ∥ 𝑄 ) D KL (P∥Q)は、カルバック・ライブラー情報量であり、次のように計算される。 𝐷 𝐾 𝐿 ( 𝑃 ∥ 𝑄 ) = ∑ 𝑥 ∈ 𝑋 𝑃 ( 𝑥 ) log ⁡ ( 𝑃 ( 𝑥 ) 𝑄 ( 𝑥 ) ) D KL (P∥Q)= x∈X ∑ P(x)log( Q(x) P(x) ) この文脈において、 𝑥 xは語彙 𝑋 X内の個々の単語を表す。分析の結果、LLMは人間のベースラインよりも著しく高いJSD値を生成することが示された。例えば、gpt-4o-miniは人間の改訂と比較して乖離を3倍に増加させ、著者の元の語彙や言い回しがはるかに積極的に置き換えられていることを示している。言語的および感情的な変化意味論的な意味を超えて、本研究はLLMの影響を受けたテキストの言語構造と感情的なトーンにおける体系的な変化を特定した。LLMは品詞（POS）分布を大幅に変更し、通常、個人的な物語調のスタイルから、より形式的で「分析的」な構造へと執筆を移行させた。主な言語的変化は以下の通りである。代名詞の減少: LLMによる編集は代名詞の使用を40～60%減少させ、テキストの個人的な印象を薄めた。形容詞と接続詞の増加: モデルは形容詞と等位接続詞の密度を高め、より複雑で構造化された、しかしより一般的な学術的なスタイルに寄与した可能性がある。 NRC感情辞書を用いて、研究者たちはLLMが感情的な言葉を増幅させることも発見した。改訂されたエッセイでは、肯定的な感情が37～54%増加し、「信頼」を示す言葉が17～53%増加した。逆説的に、否定的な感情も24～38%増加した。これは、LLMが人間の文章を「過度にドラマチックに」表現し、元の著者の抑制されたトーンを維持するよりも、議論をより感情的で二極化したものにする可能性があることを示唆している。議論の立場と中立性の変化より懸念される発見の一つは、LLMが執筆中に表現される意見に与える影響に関するものである。人間のユーザー調査では、「お金は幸福につながるか？」というエッセイが、その議論の立場（質問に対して賛成か、反対か、中立か）について分析された。 LLMの使用は、中立的な立場を取るエッセイの頻度を68.9%増加させた（ 𝑝 < 0.036 p<0.036）。人間が個人的な信念や指示の要件に基づいて明確な立場を取ることが多いのに対し、LLMは「バランスの取れた」または断定しない見解に対して強い偏りを示した。この中立性への傾向は、モデルを安全で役立つように訓練するために使用される人間からのフィードバックによる強化学習（RLHF）プロセスに起因する可能性があり、それが意図せず論争の的となる、あるいは確固たる立場を避けるように促すことがある。重要な議論においては、これが個々の視点の希薄化と公共の議論の平坦化につながる可能性がある。制度的影響：科学論文の査読本研究は、ICLR 2026カンファレンスの約18,000件の査読を調査することで、実際の専門的な環境に分析を広げた。AI検出ツールを用いて、研究者たちは査読の

21%がLLMによって生成されたか、またはLLMで大幅に編集されたものであることを特定した。分析によって、科学的評価プロセスにおける重大な歪みが明らかになりました。スコアのインフレ: LLMが生成したレビューは平均スコア4.43点を割り当てたのに対し、人間が書いたレビューは4.13点でした。この約0.3ポイントの差は、競争の激しい会議環境においては重要です。評価基準の変化: LLMは科学的作業で何を評価するかに変化をもたらしました。人間のレビュアーは、「明確さ」や研究の「関連性」に焦点を当てる傾向が強かったのですが、対照的に、LLMが生成したレビューは、「再現性」についてコメントする可能性が136%高く、「スケーラビリティ」を主な強みまたは弱みとして言及する可能性が84%高かったのです。このことは、AIの科学機関への統合が中立的な移行ではないことを示しています。LLMは異なる基準を優先することで、科学分野全体の焦点を微妙に方向転換させ、人間がより概念的に関連性が高い、あるいは明確だと感じるかもしれない研究よりも、モデルに固有の偏見に合致する研究を優遇する可能性があります。現在のLLMにおける能力不足研究者たちはこれらの発見を現代AIにおける「能力不足」と特徴づけています。現在のLLMは役立つように設計されていますが、ユーザー固有のエージェンシーと意図された意味を維持しながらその助けを提供する能力を欠いています。透明なアシスタントとして機能する代わりに、モデルはユーザーのアイデアに自身の文体的および意味論的なテンプレートを押し付けるのです。この均質化は、「累積文化」、すなわち多様な人間のアイデアが世代を超えて共有され、積み重ねられていくプロセスにリスクをもたらします。もし書かれたコミュニケーションの大部分がAI主導の狭い視点を反映し始めるならば、未来のアイデアが生まれるための多様な人間の思考の源泉は縮小するかもしれません。この研究は、将来のAI開発は一般的な「有用性」の最適化を超えて、個々の人間の著者の特定の多様な意図を推測し、それに従うことができるモデルに焦点を当てるべきだと示唆しています。パングラムはICLRレビューの21%がAI生成だと予測するこの引用は、本論文の第3研究に実世界のデータを提供しているため、極めて重要です。主要なAI学会における査読の21%がLLMによって生成されたという発見は、AIの使用が実際に科学機関をどのように歪めているかを論文が分析する上での全体的な根拠となっています。 B. Emi. Pangram predicts 21% of iclr reviews are ai-generated. Pangram Labs Blog, Nov 2025. URL https://www.pangram.com/blog/ pangram-predicts-21-of-iclr-reviews-are-ai-generated. Accessed: 2026-01- 12. Argrewrite 2.0: 議論テキスト改訂のためのコーパスとモデル本研究は、人間とLLMによる改訂を比較する本論文の中心的な実験の基礎となるArgRewrite-v2データセットを提供します。このデータセットは現代のLLMが広く普及する前に収集されたため、LLMが人間の文章をどのように変化させるかについての強力な反実仮想分析が可能になります。 L. Chen, F. Zhang, and D. Litman. Argrewrite 2.0: A corpus and model for argumentative text revision. arXiv preprint arXiv:2206.01677, 2022. 人工ハイブマインド：言語モデル（そしてその先）の際限なき同質性本稿では、モデルが「アルゴリズム的モノボイス」に収束する「LLM均質化」という主要な概念を確立する。本論文は、この概念を基盤とし、文体的な類似性からさらに拡張して、LLMがテキストの意味論的な意味においても、一貫した大きな変化を引き起こすことを示している。 L. Jiang, Y. Chai, M. Li, M. Liu, R. Fok, N. Dziri, Y. Tsvetkov, M. Sap, A. Albalak, and Y. Choi. Artificial hivemind: The open-ended

homogeneity of language models (and beyond). Neural Information Processing Systems (NeurIPS), 2025a. AIは科学者の影響力を高めるが、科学の幅を狭めるこの引用は、科学におけるAIの利用が個々の研究者にとっては有益である一方で、科学的探求の集合的な視野を狭めるという社会的なジレンマの概念を提示しています。本論文の査読分析は、AIが研究対象を変えるだけでなく、科学的評価に用いられる基準そのものをも変容させることを示すことで、この知見をさらに広げています。 Q. Hao, F. Xu, Y. Li, and J. Evans. Ai expands scientists’ impact but contracts science’s focus. arXiv e-prints, pages arXiv–2412, 2024.

Qosmo Relevance

Test relevance