Entry
Abdulhai, Marwa, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, and Natasha Jaques. 2026. "How LLMs Distort Our Written Language." arXiv preprint arXiv:2603.18161.
Simple Title
How LLMs Distort Our Written Language
Description
Marwa Abdulhai, Isadora White, Yanming Wan, Ibrahim Qureshi, Joel Leibo, Max Kleiman-Weiner, Natasha Jaques
Type
Paper
Year
@June 18, 2024 9:30 PM (GMT+1)
Posted at
March 23, 2026 4:45 PM (GMT+9)
Tags
LLMethicsNLPsocietydesignhuman-ai
以下の内容はAIによって自動生成されています
Overview
- 大規模言語モデル(LLM)を使った執筆支援が、実は人間の文章の意味や個性をどのように変えてしまうのかを調べた研究です。
- ユーザー調査、過去の論文データ、そして実際のAI生成テキストを分析して、AIの「見えない影響」を明らかにしています。
私たちの多くがChatGPTなどのAIに文章の執筆や修正を任せるようになっていますが、この研究はそうした便利さの裏側に隠れた問題を指摘しています。AIは文法を直すだけのつもりでも、実は元の意図まで変えてしまっているかもしれない。そんな不安を実データで証明した、今の時代にぴったりな研究です。
Abstract
Large language models (LLMs) are used by over a billion people globally, most often to assist with writing. In this work, we demonstrate that LLMs not only alter the voice and tone of human writing, but also consistently alter the intended meaning. First, we conduct a human user study to understand how people actually interact with LLMs when using them for writing. Our findings reveal that extensive LLM use led to a nearly 70% increase in essays that remained neutral in answering the topic question. Significantly more heavy LLM users reported that the writing was less creative and not in their voice. Next, using a dataset of human-written essays that was collected in 2021 before the widespread release of LLMs, we study how asking an LLM to revise the essay based on the human-written feedback in the dataset induces large changes in the resulting content and meaning. We find that even when LLMs are prompted with expert feedback and asked to only make grammar edits, they still change the text in a way that significantly alters its semantic meaning. We then examine LLM-generated text in the wild, specifically focusing on the 21% of AI-generated scientific peer reviews at a recent top AI conference. We find that LLM-generated reviews place significantly less weight on clarity and significance of the research, and assign scores that, on average, are a full point higher.These findings highlight a misalignment between the perceived benefit of AI use and an implicit, consistent effect on the semantics of human writing, motivating future work on how widespread AI writing will affect our cultural and scientific institutions.
Motivation
- AIライティング支援ツールが世界中で使われるようになってきたのに、それが本当にユーザーの書き方や表現にどう影響するのかが詳しく調べられていませんでした。
- 「AIは執筆を助ける」という前提が本当に正しいのか、それとも何か見えない落とし穴があるのか、実証的に調べる必要がありました。
- 特に学術論文や科学的なコミュニケーションの場でAI生成テキストが増えていることに対する懸念がありました。
Method
著者たちは3つのアプローチを組み合わせています。まず実際のユーザーにAIを使ってもらい、その経験をインタビューしました。次に、AIがどのレベルで文章を変えるかを調べるために、AIに昔の人間が書いた論文を修正してもらい、修正前後を比較しました。そして、学会の査読(科学論文を評価する作業)でAIが書いたものとそうでないものを見分けて分析しました。
- ユーザー調査では、AIを頻繁に使うグループと使わないグループの執筆パターンを比較しました。また、2021年に収集された実際の大学生のエッセイと、それに対する専門家からのフィードバックを使いました。
- AIに『この箇所を文法だけ直して』と指示しても、実際には何が変わるかを測定しました。また、学会の査読レビュー(AI International Conference)から21%のAI生成テキストを抽出し、人間が書いたレビューと比較しました。
- 変化の度合いを『意味内容の変わり具合』『文章の創造性』『著者の個性が出ているか』などの観点から評価しました。
Results
AIを頻繁に使う人の文章は、元のテーマへの答え方がニュートラル(どっちともつかない)になる傾向が約70%も高まってしまいます。
- AIを多く使ったユーザーのエッセイは、テーマの質問に対してニュートラルな回答になる確率が約70%増加しました。
- 文章から個性が失われる結果に
- AIに『文法だけ直して』と指示した場合でも、文章の意味内容(セマンティック)は大きく変わってしまい、元の意図が損なわれていました。
- 学会の査読でAIが書いたレビューは、人間のレビューに比べて『研究の明確さ』『意義』の評価をおろそかにする傾向が見られ、平均で満点より1点高いスコアをつける傾向がありました。
Further Thoughts
- LLMの開発者は『便利さ』だけでなく、ユーザーの本来の意図や個性を保つように改善する必要があります。また、AIが『文法修正だけ』と思わせながら内容を変えてしまう仕組みに気づき、それを防ぐことが大切です。
- 学校の論文やビジネス文書、科学論文の査読など、重要な決定に関わる文章でAIに頼りすぎると、知らず知らずのうちに本来の意見や個性が失われてしまう危険があります。私たちの言語文化そのものが変わってしまう可能性もあります。
- この研究の限界は、調査規模や特定の言語(おそらく英語中心)に限定されている可能性です。今後は、AIとの相互作用をもっと詳しく調べ、ユーザーが『何を失っているのか』を自分で気づけるようなツール設計が必要です。