AIは東大文系をどう解いたのか｜Gemini・Claude・ChatGPT系AIの比較から見える「組織AI化」の本質【前編】

生成AIの進化は、単なるチャットツールの域を超え、ついに「知的労働の構造」そのものを変え始めています。近年では、東大入試をAIに解かせる実験が行われ、Google系AIであるGeminiが文系科目で高い評価を受け、AnthropicのClaudeが日本史でトップクラスの性能を示したことが注目されました。これは単なる“学力競争”ではありません。各AIの設計思想の違いが、情報整理・文脈理解・人間的文章生成にそのまま現れているのです。本記事では、Gemini・Claude・OpenAI系AIを比較しながら、「なぜ得意分野が分かれるのか」を構造的に分析します。そして最終的には、「自組織内のデータや業務を、どのAIとどう連携させるべきか」という実務視点へ接続していきます。前編ではまず、“AIの知性の違い”そのものに焦点を当てます。

第1章：東大入試で見えたAIごとの「知性の違い」
第2章：AIが苦手とする「比喩・皮肉・暗黙知」
- 2-1. なぜ比喩や皮肉は難しいのか
- 2-2. ClaudeとGeminiとGPT系の違い
第3章：なぜ「ChatGPT系」はインハウスで見えにくかったのか
第4章：AI比較の本質は「知能競争」ではない
- 4-1. AIは「万能知能」ではなく役割分化する
- 4-2. 次の焦点は「組織との接続」になる
まとめ
〆最後に〆

第1章：東大入試で見えたAIごとの「知性の違い」

本章では、東大入試を題材にしたAI比較から、各モデルの「知性の設計思想」の違いを整理します。結論として、AIの優劣は単純な知識量では決まりません。情報構造をどう扱うか、文脈をどう保持するか、人間の採点者にどう自然に見えるか――その違いが結果に現れています。これは将来の業務AI選定にも直結する重要な視点です。

1-1. なぜGeminiは文系科目で強いのか

Google系AIであるGeminiは、文系科目で特に高い評価を受けました。これは単なる言語能力の問題ではなく、Googleが長年培ってきた「情報構造化」の思想が強く反映されているためです。

東大文系の問題では、単純な暗記ではなく：

設問意図の把握
資料間の関係理解
抽象度の調整
論点整理

が求められます。

Geminiは検索・要約・知識グラフ技術の延長線上にあるため、

「全体構造の中で、この情報をどう位置づけるか」

という処理に非常に強い特徴があります。

そのため：

論点逸脱が少ない
設問への忠実度が高い
減点されにくい

という傾向が現れます。

Google Gemini 公式情報

Geminiの設計思想やマルチモーダル戦略を解説。

公式サイトを見る

1-2. なぜClaudeは日本史で強いのか

一方で、日本史記述ではAnthropicのClaudeが非常に高い評価を受けました。

これは単なる知識量では説明できません。

日本史記述では：

時代感覚
断定の強弱
因果関係の自然さ
語感の違和感の少なさ

が重要です。

Claudeは長文でも文脈を崩しにくく、

「人間が読んで自然に感じる文章」

を作る能力に優れています。

特にAnthropicは、AIの一貫性や文脈維持を重視しており、これが歴史記述との相性の良さにつながっています。

Anthropic Claude

Claudeの長文処理・安全性思想について。

公式サイトを見る

第2章：AIが苦手とする「比喩・皮肉・暗黙知」

本章では、AIが依然として苦手とする領域について整理します。結論として、AIは論理や構造では人間を超え始めていますが、「場の空気」や「暗黙知」の理解では限界を抱えています。特に日本語特有の曖昧さは、現在のLLMにとって大きな壁となっています。

2-1. なぜ比喩や皮肉は難しいのか

比喩や皮肉では、言葉の表面と真意が意図的にズレています。

例えば：

「素晴らしい会議でしたね」

という発言が、実際には批判を意味する場合があります。

人間は：

表情
場の空気
過去の関係性
共有経験

を前提に意味を補完しています。

しかしLLMは基本的に：

「次にもっともらしい単語を予測する」

構造です。

そのため、暗黙知が不足すると表層的解釈に倒れやすくなります。

2-2. ClaudeとGeminiとGPT系の違い

この領域では各AIに個性があります。

AI	特徴
Claude	長文文脈保持に強い
Gemini	背景知識統合が強い
GPT系	タスク処理と構造化が強い

Claudeは特に：

含みのある表現
遠回しな日本語
歴史叙述

との相性が良い傾向があります。

一方でGPT系は：

業務分解
ルール処理
構造化判断

に強みがあります。

第3章：なぜ「ChatGPT系」はインハウスで見えにくかったのか

本章では、OpenAI系AIが企業のインハウス環境で長く見えにくかった理由を整理します。結論として、従来のChatGPTはSaaS型であり、データ主権や監査要件との相性が悪かったためです。しかし現在では状況が変わり始めています。

3-1. ChatGPTはなぜオンプレ運用できなかったのか

従来のChatGPT系モデルは：

クラウド前提
モデル非公開
API利用中心

という構造でした。

そのため：

機密情報を扱いにくい
監査ログを制御しづらい
データ主権要件に弱い

という問題がありました。

このため企業では：

「AIは便利だが、内部業務には使いにくい」

という認識が広がっていました。

3-2. OpenAI系OSSモデルの登場

しかし近年、OpenAIはオープンウェイト系モデルを公開し始めています。

特に注目されているのが：

gpt-oss-20B
gpt-oss-120B

などのモデルです。

これらは：

Ollama対応
オンプレ実行可能
API費用不要

という特徴を持っています。

Ollama公式

ローカルLLM実行環境の代表例。

公式サイトを見る

これによって：

「ChatGPT系はインハウスでは使えない」

という状況が変わり始めています。

第4章：AI比較の本質は「知能競争」ではない

本章では、ここまでの議論を整理し、「AI比較」の本質を考察します。結論として、今後重要なのは“どのAIが最強か”ではなく、“どのAIをどの業務に配置するか”です。つまり、AIの役割分化こそが実務上の核心になります。

4-1. AIは「万能知能」ではなく役割分化する

ここまで見てきた通り：

Gemini → 情報構造理解
Claude → 文脈保持
GPT系 → 構造化判断

という違いがあります。

これはつまり、AIが：

「万能化」

するのではなく、

「専門化」

していることを意味します。

4-2. 次の焦点は「組織との接続」になる

重要なのは、AI単体の性能ではありません。

本当に重要なのは：

社内データとどう接続するか
業務フローにどう組み込むか
責任をどう分離するか

という設計です。

つまり今後の主戦場は：

「AIそのもの」

ではなく、

「AIを組織内でどう配置するか」

へ移行していきます。

後編では、この流れを受けて：

インハウスAI三層構造
判定／文脈／責任の分離
Claude費用問題の解決法
gpt-ossとOllamaの実務設計
RAGと業務DB統合

について、実装・運用レベルまで踏み込んで解説していきます。

まとめ

今回見えてきたのは、AIの進化が単なる「高性能化」ではないという点です。

Geminiは構造を読む
Claudeは文脈を維持する
GPT系は判断を整理する

つまりAIは、それぞれ異なる知性を持ち始めています。

そして今後の本当の競争は：

「どのAIが賢いか」

ではなく、

「どのAIを、どの責任構造の中で使うか」

へ移行していきます。

〆最後に〆

以上、間違い・ご意見は
以下アドレスまでお願いします。
全て返信できていませんが見ています。
適時、改定をします。

nowkouji226@gmail.com

【全体の纏め記事に戻る】【雑記の纏め記事に戻る】