「推論」はもう不要？プロンプトを2回繰り返すだけで LLMの性能が爆上がりする件

2025.12.27 5分で読めます

この記事の要点（TL;DR）

「LLMの精度を上げたいなら、『ステップバイステップで考えて』と指示しろ」。これはプロンプトエンジニアリングの常識でした。しかし、APIを利用してアプリケーションを開発するエンジニアにとって、これは**「コスト」と「速度」のトレードオフ**を意味します。

「答えはAです。なぜなら〜」と思考過程を出力するため、トークン課金が増え、レスポンスも遅い。

「答えはAです。」と即答させるが、精度は高い。安くて速い。

今回紹介する論文「Prompt Repetition Improves Non-Reasoning LLMs」は、このジレンマを解決する驚くべき発見を報告しています。

手法は拍子抜けするほど簡単です。LLMに入力するプロンプト（質問）を、ただ2回繰り返して送信するだけです。

Input Prompt Example Copy

`<コンテキスト>
以下の文章を読んで質問に答えてください...（文章）...

<質問>
この文章の結論は何ですか？

<コンテキスト（繰り返し）>
以下の文章を読んで質問に答えてください...（文章）...

<質問（繰り返し）>
この文章の結論は何ですか？`

推論（Reasoning）モードを使わず、この「繰り返しプロンプト」を入力するだけで、Gemini、GPT-4o、Claude、DeepSeekといった主要モデルすべてでパフォーマンスが向上することが確認されました。

「2回言われるとよく分かる」というのは人間と同じですが、LLMの場合はより技術的な理由があります。それは「因果的注意機構（Causal Attention）」のハックです。

現在のLLM（GPTなど）は、原則として「前の単語」しか見ることができません（Causal Masking）。
しかし、入力を2回繰り返すとどうなるでしょうか？

1回目のクエリ処理
未来が見えない（片方向）

2回目のクエリ処理
1回目の全内容が見える！
（実質、双方向）

これにより、モデルは推論時間をかけずに、BERTのような「文章全体を俯瞰した深い理解」を強制的に獲得できるのです。

Web版のChatGPTやGeminiを使っている場合、すでに裏側でこのような最適化が行われている（あるいは今後実装される）可能性があります。しかし、PythonなどでAPIを直接叩いている開発者にとっては、この手法は即戦力です。

入力トークンは増えますが、高価な出力トークンは最小限（回答のみ）で済みます。 * #### 超低レイテンシ

「プレフィル（入力処理）」は並列処理されるため、入力が倍になっても待ち時間はほぼ変わりません。

「複雑な推論はさせたくないが、精度は落としたくない」。
そんなワガママな要件があるときは、迷わずプロンプトをループさせてみてください。
LLMは2度聞かれると、私たちが思う以上に深く理解してくれます。

※本記事は論文内容の解説であり、特定の手法による利益を保証するものではありません。