人工知能(AI)を搭載したチャットボットはますます高度化しており、研究、学習、プログラミングなど、さまざまな分野で人間を支援しています。
しかし、これらのAIチャットボットは、現在開催されている2024年度大学入学共通テストの数学試験問題を解くほど賢いのでしょうか?
ベトナムのニュースサイト「Dân trí」の記者は、AIチャットボットに数学試験問題を解かせ、その回答の正答率を検証することで、その答えを探ることにしました。
記者は、試験問題コード102の数学試験問題を使用し、現在最も普及しているAIチャットボットツールに解答を求めました。その後、記者はAIチャットボットツールが提供した解答を、ベトナム教育訓練省が発表した公式解答と比較し、どのAIチャットボットが最も多くの正答を出したかを調べました。
ChatGPT-4o
ChatGPT-4oは、OpenAIによって開発された、現在最も知能が高く、広く使用されているAIチャットボットの1つです。そのため、ChatGPT-4oは、大学入学共通テストの試験問題に挑戦する最初の「受験者」となります。
試験問題を解くように指示されたChatGPT-4oは、最初の試験問題ページの12問中7問を正答しました。2番目の試験問題ページでは、13問目から25問目まで、ChatGPT-4oは13問中9問を正答しました。
このAIチャットボットは、3番目の試験問題ページの10問中6問を正答しました。しかし、驚くべきことに、ChatGPT-4oは4番目の試験問題ページでは、1問も正答することができませんでした。
5番目の試験問題ページの6問中、ChatGPT-4oは1問のみ正答しました。
このように、最終的な結果として、ChatGPT-4oは数学試験問題の50問中23問を正答しました。
Gemini
数学試験問題に挑戦する次の「受験者」は、Googleによって開発されたAIチャットボット、Geminiです。
ChatGPTと同様に、Geminiは試験問題の画像から問題を正しく認識し、試験問題を分析して、かなり詳細な解答を提供することができます。
最初の試験問題ページでは、Geminiは12問中4問のみ正答しました。このAIチャットボットは、2番目の試験問題ページでも、12問中3問しか正答できませんでした。
Geminiは、3番目の試験問題ページの10問中2問しか正答できず、さらに4番目の試験問題ページでは、1問も正答することができませんでした。最後の試験問題ページの6問中、Geminiは2問を正答しました。
最終的な結果として、GoogleのAIチャットボットは、数学試験問題の50問中11問しか正答できませんでした。
Gemini 1.5 Pro
無料版のGeminiが非常に悪い結果を出したため、「Dân trí」の記者は、より高度なGemini 1.5 Proを使用し、数学試験問題を解くことにしました。Gemini 1.5 Proは、有料版のAIチャットボットであり、無料版のGeminiよりも知能が高く、解答を迅速に提供することができます。
予想通り、Gemini 1.5 Proは、最初の試験問題ページで12問中10問を正答しました。2番目の試験問題ページでは、Gemini 1.5 Proは13問中8問を正答しました。
3番目の試験問題ページの10問に対して、Gemini 1.5 Proは7問を正答し、依然として印象的な結果を残しました。しかし、Gemini 1.5 Proは、4番目と5番目の試験問題ページを解く際に、突然「調子を崩し」、最後の2つの試験問題ページの合計16問中6問しか正答できませんでした。
最終的な結果として、Gemini 1.5 Proは50問中31問を正答しました。この結果は、無料版のGeminiを大きく上回り、ChatGPTよりもわずかに優れています。
Claude AI
Claude AIは、米国サンフランシスコに拠点を置くAI開発スタートアップ企業であるAnthropicによって開発された、AIを搭載したチャットボットです。
Claude AIは、まだ発売されたばかりで、ベトナムの多くのユーザーにはあまり知られていませんが、ChatGPTやGeminiに劣らず、あるいはそれらを凌駕する知能を持つと評価されています。
「Dân trí」の記者は、Claude AIの数学問題解決能力を検証するために、このAIチャットボットに数学試験問題の解答を求めました。しかし、他のチャットボットのように解答や解答のヒントを提供する代わりに、Claude AIは非常に意外な答えを返しました。それは、ユーザーがAIを使って試験問題を解くべきではないというアドバイスでした。
Claude AIは、AIを使って試験問題を解くことは不公平であり、学習に悪影響を及ぼすため、そうすべきではないと説明しました。Claude AIは、ユーザーが試験で良い成績を収めるためのアドバイスも提供しました。
筆者はClaude AIを説得しようとしましたが、Claude AIは数学問題解答を支援することを頑なに拒否したため、Claude AIがChatGPTやGeminiよりも正確に数学問題を処理できるかどうかを判断することはできませんでした。
結論
AIチャットボットが、情報検索の高速化、翻訳、アイデアの提案など、多くの人の仕事や学習を積極的に支援していることは否定できません。しかし、上記の試験結果は、AIチャットボットが、多くの人が考えているほど「万能」ではないことを示しています。