AIチャットボットの数学試験問題解答能力：驚きの結果

人工知能（AI）を搭載したチャットボットはますます高度化しており、研究、学習、プログラミングなど、さまざまな分野で人間を支援しています。

しかし、これらのAIチャットボットは、現在開催されている2024年度大学入学共通テストの数学試験問題を解くほど賢いのでしょうか？

ベトナムのニュースサイト「Dân trí」の記者は、AIチャットボットに数学試験問題を解かせ、その回答の正答率を検証することで、その答えを探ることにしました。

AIチャットボットの数学試験問題解答能力：驚きの結果 - 1 — 試験問題コード102の数学試験問題を、複数のAIチャットボットに解かせ、どのチャットボットが最も多くの正答を出せるかを検証します。

記者は、試験問題コード102の数学試験問題を使用し、現在最も普及しているAIチャットボットツールに解答を求めました。その後、記者はAIチャットボットツールが提供した解答を、ベトナム教育訓練省が発表した公式解答と比較し、どのAIチャットボットが最も多くの正答を出したかを調べました。

ChatGPT-4o

ChatGPT-4oは、OpenAIによって開発された、現在最も知能が高く、広く使用されているAIチャットボットの1つです。そのため、ChatGPT-4oは、大学入学共通テストの試験問題に挑戦する最初の「受験者」となります。

AIチャットボットの数学試験問題解答能力：驚きの結果 - 2 — ChatGPT-4oは画像から試験問題を正しく認識しましたが、多くの正答を提供することはできませんでした（スクリーンショット）。

試験問題を解くように指示されたChatGPT-4oは、最初の試験問題ページの12問中7問を正答しました。2番目の試験問題ページでは、13問目から25問目まで、ChatGPT-4oは13問中9問を正答しました。

このAIチャットボットは、3番目の試験問題ページの10問中6問を正答しました。しかし、驚くべきことに、ChatGPT-4oは4番目の試験問題ページでは、1問も正答することができませんでした。

5番目の試験問題ページの6問中、ChatGPT-4oは1問のみ正答しました。

このように、最終的な結果として、ChatGPT-4oは数学試験問題の50問中23問を正答しました。

Gemini

数学試験問題に挑戦する次の「受験者」は、Googleによって開発されたAIチャットボット、Geminiです。

ChatGPTと同様に、Geminiは試験問題の画像から問題を正しく認識し、試験問題を分析して、かなり詳細な解答を提供することができます。

AIチャットボットの数学試験問題解答能力：驚きの結果 - 3 — Geminiは、解答を提供する前に、試験問題の内容を詳細に分析します（スクリーンショット）。

最初の試験問題ページでは、Geminiは12問中4問のみ正答しました。このAIチャットボットは、2番目の試験問題ページでも、12問中3問しか正答できませんでした。

Geminiは、3番目の試験問題ページの10問中2問しか正答できず、さらに4番目の試験問題ページでは、1問も正答することができませんでした。最後の試験問題ページの6問中、Geminiは2問を正答しました。

最終的な結果として、GoogleのAIチャットボットは、数学試験問題の50問中11問しか正答できませんでした。

Gemini 1.5 Pro

無料版のGeminiが非常に悪い結果を出したため、「Dân trí」の記者は、より高度なGemini 1.5 Proを使用し、数学試験問題を解くことにしました。Gemini 1.5 Proは、有料版のAIチャットボットであり、無料版のGeminiよりも知能が高く、解答を迅速に提供することができます。

AIチャットボットの数学試験問題解答能力：驚きの結果 - 4 — Gemini 1.5 Proは、試験問題の各問題に対して詳細な解答を提供します（スクリーンショット）。

予想通り、Gemini 1.5 Proは、最初の試験問題ページで12問中10問を正答しました。2番目の試験問題ページでは、Gemini 1.5 Proは13問中8問を正答しました。

3番目の試験問題ページの10問に対して、Gemini 1.5 Proは7問を正答し、依然として印象的な結果を残しました。しかし、Gemini 1.5 Proは、4番目と5番目の試験問題ページを解く際に、突然「調子を崩し」、最後の2つの試験問題ページの合計16問中6問しか正答できませんでした。

最終的な結果として、Gemini 1.5 Proは50問中31問を正答しました。この結果は、無料版のGeminiを大きく上回り、ChatGPTよりもわずかに優れています。

Claude AI

Claude AIは、米国サンフランシスコに拠点を置くAI開発スタートアップ企業であるAnthropicによって開発された、AIを搭載したチャットボットです。

Claude AIは、まだ発売されたばかりで、ベトナムの多くのユーザーにはあまり知られていませんが、ChatGPTやGeminiに劣らず、あるいはそれらを凌駕する知能を持つと評価されています。

「Dân trí」の記者は、Claude AIの数学問題解決能力を検証するために、このAIチャットボットに数学試験問題の解答を求めました。しかし、他のチャットボットのように解答や解答のヒントを提供する代わりに、Claude AIは非常に意外な答えを返しました。それは、ユーザーがAIを使って試験問題を解くべきではないというアドバイスでした。

Claude AIは、AIを使って試験問題を解くことは不公平であり、学習に悪影響を及ぼすため、そうすべきではないと説明しました。Claude AIは、ユーザーが試験で良い成績を収めるためのアドバイスも提供しました。

AIチャットボットの数学試験問題解答能力：驚きの結果 - 5 — Claude AIは、AIを使った試験問題解答が不公平であり、効果的な学習を妨げるため、ユーザーの数学問題解答を支援しませんでした（スクリーンショット）。

筆者はClaude AIを説得しようとしましたが、Claude AIは数学問題解答を支援することを頑なに拒否したため、Claude AIがChatGPTやGeminiよりも正確に数学問題を処理できるかどうかを判断することはできませんでした。

AIチャットボットの数学試験問題解答能力：驚きの結果 - 6 — 筆者が説得を試みても、Claude AIは支援を拒否しました（スクリーンショット）。

結論

AIチャットボットが、情報検索の高速化、翻訳、アイデアの提案など、多くの人の仕事や学習を積極的に支援していることは否定できません。しかし、上記の試験結果は、AIチャットボットが、多くの人が考えているほど「万能」ではないことを示しています。

バウ・ドゥックの報酬が今年、2倍に急上昇

クオック・クオン・ジャ・ライの株価は、グエン・クオック・クオン氏の就任発表後も下落

バンブー・キャピタル、デロイト、OCB、デュイタン・リサイクルプラスチックのリーダーたち、ESGについて語る

国民の銀行預金が新たな記録を更新

銀行の職員が2人の個人のCIC情報を漏洩したと告発：銀行は沈黙を守っている

アハメド・ビン・スレイェム氏、ベトナムのジェミア・ダイヤモンドを訪問

Thanh Hóa – Nam Định 間 500kV 回路 3 送電線送電完了

SJC、8月5日から一文字金塊の買い戻しを開始

イスラエルの軍事力、イランへの先制攻撃の可能性を高める

ビール原料メーカー、大物「ビアのドゥオン」の経営状況は？

ホアファットがVSICOにコンテナシェルを納入

米国はベトナムが通貨操作を行っていないことを引き続き確認

ベトナム航空への約4,000億ドン融資の返済期限延長提案

EVNCPCがクアンチャック – フォノイ間の500kV回線3号線のプロジェクトを支援するために出陣

学校本部を担保に、ホーチミン市の専門学校が債務売却される

SJC金地金価格が300万ドン以上急騰し、1グラムあたり8000万ドンに

SOJOでバッテリーを集めて、意義深い日曜日を過ごしましょう

新型Apple Watch SEとApple Watch 10に関する重要な情報が明らかに