ChatGPTはなぜ計算を間違える？GPT-5.4とLean 4が起こすAI数学革命

コラム公開: 2026/5/15

最近、ニュースやSNSでこんな話題を目にしたことはありませんか？

ChatGPTに簡単な計算をお願いしたら平気でウソをつかれたんだけど……。でもニュースでは「AIが数学の未解決問題を解いた！」って言ってるし。これってどういうことなの？

AIはポンコツなのか、それとも天才なのか。実は今、AI界隈では「予測するAI」と「論理を確かめるAI（プログラミング言語）」の**最強のタッグ**が、数学の世界に革命を起こしている真っ最中なんです。

この記事では、なぜAIが簡単な算数を間違えるのかという基礎から、最新モデルの驚異的な進化、そして数学者たちが熱狂する最新ツールまで、AIと数学が交差する最前線を紐解いていきます。

1. AIの根幹は「計算機」ではなく「予測変換辞書」である

「AIはコンピュータなんだから、計算なんて一瞬で完璧にできるでしょ？」多くの人がそう思っています。しかし、これがChatGPTのような生成AIに対する最大の誤解です。

結論から言うと、従来の生成AIは**「計算」を一切していません**。

AIの脳内は「超高性能な予測変換」

LLM(ChatGPTなどの大規模言語モデル)の基本的な仕組みは、スマートフォンのキーボードについている「予測変換」の超絶進化版です。これまでの文章の文脈から、「次に来る確率が最も高い単語（トークン）」を順番に出力しているだけなのです。

たとえば、AIに「 $1+1=$ 」と入力したとします。AIは「 $2$ 」と答えます。これは、内部で足し算のプログラムが動いたからではありません。AIが学習したインターネット上の膨大なテキストデータの中で、「 $1+1=$ 」という文字列の次に「 $2$ 」という文字が続く確率が圧倒的に高かったから、「 $2$ 」を出力したに過ぎません。

えっ、意味を理解して計算してるわけじゃないんですか！？ただ「確率的に次に来そうな文字」を並べてるだけ……？

そうなんです。だからAIは「確率的オウム」とも呼ばれます。この仕組みを知ると、AIがどうして簡単な算数を間違えるのかが見えてきます。

なぜ「もっともらしいウソ（ハルシネーション）」をつくのか？

「 $1+1=2$ 」や「 $9 \times 9=81$ 」のような九九のレベルであれば、ネット上に正解のデータが山ほどあるため、AIは確率的に正しい答えを引き当てられます。

しかし、「 $3456 \times 7891$ は？」のような桁数の多い計算になるとどうでしょう。ネット上に、この具体的な計算式と答えのセットがそのまま書かれている確率はほぼゼロです。するとAIは、確率の海の中で迷子になります。

計算式が組まれていないAIは、「なんとなく桁数はこれくらいで、掛け算の答えっぽく見える数字の羅列」を確率でデタラメに生成してしまいます。これが、AIがもっともらしい顔をしてトンデモないウソをつく現象、**ハルシネーション（幻覚）**の正体です。数学の厳密な証明をお願いしたときに、途中で謎の論理の飛躍が起きるのも全く同じ理由です。

従来のAIは「直感」だけで生きている

行動経済学者のダニエル・カーネマンは、人間の思考プロセスを以下の2つに分類しました。

System 1（直感）： 「 $1+1$ は？」と聞かれて「 $2$ 」と即答するような、無意識で高速な思考。
System 2（熟考）： 「 $17 \times 24$ は？」と聞かれて、立ち止まって筆算を思い浮かべながらじっくり解くような、論理的で遅い思考。

従来の生成AI（GPT-4など）は、巨大な「System 1（直感）」の塊です。人間が「 $17 \times 24$ 」をパッとは答えられないのと同じように、従来のAIは「立ち止まって、手順を踏んで、論理的に計算する（System 2）」という機能を持っていなかったのです。

「じゃあ、AIには永遠に数学は無理なの？」と思うかもしれません。しかし、2024年ついに、この「System 2（熟考）」を手に入れたAIが登場し、世界を震撼させました。

2. AIの進化

「AIは直感でしか動けない」――そんな常識を打ち破る転換点となったのが、推論特化型として実験的に登場した「o1」や「o3」シリーズを経て、現在メインストリームとして大旋風を巻き起こしている 「GPT-5.4 Thinking」 や 「GPT-5.5」 です。

ついに手に入れた「熟考（System 2）」の力

第1章で触れた「直感（System 1）」だけで答えていた従来のモデルに対し、最新のGPTシリーズはついに**「熟考（System 2）」**のプロセスを内部に組み込むことに成功しました。

これまでのAIは、ユーザーの問いに対して「即座に次の文字を予測して出力する」という動きをしていました。しかし最新のシリーズは、答えを書き始める前に「内部的な思考時間」を設けます。この「考えてから話す」というステップこそが、数学のような厳密な論理が求められる分野で劇的な効果を発揮したのです。

「思考の連鎖（Chain of Thought）」とは何か？

この凄さを支えている中心技術は、**「思考の連鎖（CoT: Chain of Thought）」**と呼ばれる手法です。これは、問題を一つの大きな塊として解くのではなく、人間が数学を解くときのように「小さなステップ」に分解して順を追って考える仕組みです。

たとえば、複雑な文章題が出されたとき、o1は内部で以下のようなプロセスを辿ります。

「まず、変数 $x$ と $y$ を定義しよう」
「次に、問題文から方程式を2つ立ててみる」
「この方程式を解くと $x=5$ になるはずだ」
「おっと、待てよ。この $x$ だと元の条件と矛盾するぞ？」

自分で間違いに気づく「自己修正」の衝撃

従来のAIが数学でウソをつく最大の理由は、「一度書き始めたら止まれない」ことにありました。途中で計算ミスに気づいても、確率的な予測に従ってそのまま突き進むしかなかったのです。

それに対し、最新のAIは思考の途中で**「あ、この方針は間違っている」と気づき、自分で軌道修正（バックトラッキング）を行う**ことができます。

人間が「あ、計算ミスした！消しゴムで消してやり直しだ」と考えるプロセスを、AIがデジタルの脳内で実行できるようになった。これは数学的証明において、革命的な進化なんです。

未解決レベルの数学（FrontierMath）への挑戦

この「粘り強い思考」の結果、AIの数学力は次元が変わりました。従来のAIでは正答率がわずか「2%」に留まっていた、現代の数学者でも手を焼く世界最高難易度の数学ベンチマーク（FrontierMath）において、最新の推論モデルは一気に40%以上の正答率を叩き出し、さらに進化を続けています。

2%から40%超え！？それって歴史的な大ジャンプじゃないですか……。じゃあ、もうAIに解けない数学の問題なんてないってことですか？

いいえ、実はまだ「大きな壁」があります。AIがどれだけ熟考しても、その土台が「言葉の確率」である以上、最後には必ずと言っていいほど「論理の隙」が生まれてしまうんです。

その「最後の1ミリ」を埋めるために数学者が頼りにしているのが、次に紹介する「裁判官」のようなツールです。

3. 数学者の新たな武器「対話型定理証明器（Lean 4）」

AIがどれだけ「熟考（System 2）」できるようになったとしても、その土台が「言葉の確率」である以上、致命的な弱点が残ります。それは、「論理の飛躍」や「巧妙なウソ」を100%防ぐことは原理的に不可能だということです。

そこで、現代の数学者たちが「絶対にウソを許さない最終防衛ライン」として使い始めているのが、**「Lean 4」に代表される対話型定理証明器（プログラミング言語）**です。

数学の証明を「コンパイル」する

Leanは、Microsoft Researchが開発したオープンソースのプログラミング言語であり、数学の証明をコードとして記述するための環境です。

エンジニアの方ならイメージしやすいと思いますが、C++やTypeScriptで型が合わないと「型エラー（Type Error）」が出ますよね？ Leanはそれと同じことを**「数学の論理」**に対して行います。

Leanの根底には「命題は型であり、証明はその型を持つプログラムである（カリー＝ハワード同型対応）」という美しい理論があります。人間が「AだからBである」という証明（コード）を書いたとき、もしそこに1ミリでも論理の飛躍や矛盾があれば、Leanのコンパイラは真っ赤なエラーを吐いて絶対にビルドを通しません。

逆に言えば、**「Leanのコンパイルが通ったなら、その証明は数学的に100%正しい」**と機械が保証してくれるのです。

天才数学者テレンス・タオの熱狂と業界の標準化

現在「世界最高の頭脳」と呼ばれる現役最強の数学者、テレンス・タオ氏は、この「数学のソフトウェア化」に熱狂し、現代数学のすべての定理をLeanのコードに翻訳する巨大なデジタル図書館プロジェクトを推進しています。

さらに2026年現在、Lean 4は純粋数学の世界を飛び出し、「絶対にバグを起こさない安全なプログラムを作るための言語」として、ソフトウェアエンジニアリングの分野でも急速にスタンダードになりつつあります。

しかし、ここで一つの大きな壁にぶつかります。「人間が、Leanの厳密すぎる文法（コード）を何百行も手作業で書くのは、あまりにもしんどい」ということです。

そこで登場するのが、第2章で進化した「AI」との最強タッグです。

4. 究極の融合と「民主化」

AIはウソをつくが、ひらめきがある。Leanは絶対にウソを許さないが、自分でコードを書けない。この両者を繋ぐ大ブレイクスルーが、**「自動形式化（Autoformalization）」**です。

これは、人間が自然言語（日本語や英語）で書いた数学の証明やアイデアを、AI（LLM）に読ませて「Leanの実行可能なコード」に翻訳させる技術です。

右脳（AI）と左脳（Lean）のハイブリッド

ここで、AIとLeanの完璧な役割分担が生まれます。

ニューラルネットワーク（AI）：「ここに補助線を引けば解けるかも！」という**直感とひらめき（右脳）**を担当。
シンボリックAI（Lean）：「そのひらめきが論理的に100%正しいか」の**厳密な検証（左脳）**を担当。

このように、ディープラーニングと記号論理学を組み合わせたシステムを Neuro-Symbolic AI（ニューロシンボリックAI） と呼びます。 Google DeepMindが2024年に開発した「AlphaProof」は、この仕組みを使って国際数学オリンピック（IMO）で銀メダルレベルの成績を収め、歴史的な第一歩を踏み出しました。

エラーから学ぶ「無限の自己学習ループ」

このシステムの最も恐ろしいところは、**「AIがコンパイラを相手に自律的に学習できるループ」**にあります。

もしAIが書いた証明コードに論理の飛躍があれば、Leanは無慈悲に「コンパイルエラー」を返します。するとAIは「なるほど、この条件付けが足りなかったのか」と自分でコードを修正し、再びコンパイルをかけます。人間が正解を教えなくても、AIが一人で「テストと修正」を繰り返し、勝手に賢くなっていくのです。

2026年、証明AIの「民主化（Leanstral）」

そして2026年現在、この凄まじい技術は一部の天才や巨大企業だけのものではなくなりました。

Mistral AIのような企業から**「Leanstral」**をはじめとするLean 4専用のオープンソース証明エージェントAIが次々と公開されています。つまり、普通の学生や開発者でも「AIにアイデアを投げて、Leanでガチガチに数学的な裏付けをとる」っていう最強のコンボが日常的に使える時代になったってことですか！

「数学オリンピックを解くための特別なAI」から、「日常の開発や学習で論理のバグをゼロにするための実用ツール」へと、フェーズが完全に切り替わったのです。

まとめ

「計算機（予測変換）」に過ぎなかったAIは、「熟考する力」を手に入れ、ついに「厳密なコンパイラ」と結びつくことで、人類の知の限界を拡張し続けています。

かつての数学者は「紙とペンでひたすら計算し、論理を組み立てる」のが仕事でした。しかしこれからの時代、数学を学ぶ学生も、Webアプリやゲームを作る開発者も、等しく**『証明エンジニア』**へと進化していくはずです。それは、AIのひらめきを上手く導き、定理証明器のコンパイラを通すための的確な指示（プロンプト）を書くという新しい役割です。

しかし、計算や証明の厳密なチェックをAIがやってくれる時代だからこそ、「そもそもその数学的概念がどういう意味を持つのか」を直感的に理解する人間の力の価値は、むしろ高まっていくでしょう。

もし「数学の直感的な意味」をもっと知りたい、数学の基礎を味わい直したいと思ったら、ぜひ過去の記事も覗いてみてくださいね！

寄り道

高橋