AIは東大文系をどう解いたのか|Gemini・Claude・ChatGPT系AIの比較から見える「組織AI化」の本質【前編】

New Challenge

生成AIの進化は、単なるチャットツールの域を超え、ついに「知的労働の構造」そのものを変え始めています。近年では、東大入試をAIに解かせる実験が行われ、Google系AIであるGeminiが文系科目で高い評価を受け、AnthropicのClaudeが日本史でトップクラスの性能を示したことが注目されました。これは単なる“学力競争”ではありません。各AIの設計思想の違いが、情報整理・文脈理解・人間的文章生成にそのまま現れているのです。本記事では、Gemini・Claude・OpenAI系AIを比較しながら、「なぜ得意分野が分かれるのか」を構造的に分析します。そして最終的には、「自組織内のデータや業務を、どのAIとどう連携させるべきか」という実務視点へ接続していきます。前編ではまず、“AIの知性の違い”そのものに焦点を当てます。

第1章:東大入試で見えたAIごとの「知性の違い」

本章では、東大入試を題材にしたAI比較から、各モデルの「知性の設計思想」の違いを整理します。結論として、AIの優劣は単純な知識量では決まりません。情報構造をどう扱うか、文脈をどう保持するか、人間の採点者にどう自然に見えるか――その違いが結果に現れています。これは将来の業務AI選定にも直結する重要な視点です。

1-1. なぜGeminiは文系科目で強いのか

Google系AIであるGeminiは、文系科目で特に高い評価を受けました。これは単なる言語能力の問題ではなく、Googleが長年培ってきた「情報構造化」の思想が強く反映されているためです。

東大文系の問題では、単純な暗記ではなく:

  • 設問意図の把握
  • 資料間の関係理解
  • 抽象度の調整
  • 論点整理

が求められます。

Geminiは検索・要約・知識グラフ技術の延長線上にあるため、

「全体構造の中で、この情報をどう位置づけるか」

という処理に非常に強い特徴があります。

そのため:

  • 論点逸脱が少ない
  • 設問への忠実度が高い
  • 減点されにくい

という傾向が現れます。

Google Gemini 公式情報

Geminiの設計思想やマルチモーダル戦略を解説。

公式サイトを見る

1-2. なぜClaudeは日本史で強いのか

一方で、日本史記述ではAnthropicのClaudeが非常に高い評価を受けました。

これは単なる知識量では説明できません。

日本史記述では:

  • 時代感覚
  • 断定の強弱
  • 因果関係の自然さ
  • 語感の違和感の少なさ

が重要です。

Claudeは長文でも文脈を崩しにくく、

「人間が読んで自然に感じる文章」

を作る能力に優れています。

特にAnthropicは、AIの一貫性や文脈維持を重視しており、これが歴史記述との相性の良さにつながっています。

Anthropic Claude

Claudeの長文処理・安全性思想について。

公式サイトを見る


第2章:AIが苦手とする「比喩・皮肉・暗黙知」

本章では、AIが依然として苦手とする領域について整理します。結論として、AIは論理や構造では人間を超え始めていますが、「場の空気」や「暗黙知」の理解では限界を抱えています。特に日本語特有の曖昧さは、現在のLLMにとって大きな壁となっています。

2-1. なぜ比喩や皮肉は難しいのか

比喩や皮肉では、言葉の表面と真意が意図的にズレています。

例えば:

「素晴らしい会議でしたね」

という発言が、実際には批判を意味する場合があります。

人間は:

  • 表情
  • 場の空気
  • 過去の関係性
  • 共有経験

を前提に意味を補完しています。

しかしLLMは基本的に:

「次にもっともらしい単語を予測する」

構造です。

そのため、暗黙知が不足すると表層的解釈に倒れやすくなります。

2-2. ClaudeとGeminiとGPT系の違い

この領域では各AIに個性があります。

AI特徴
Claude長文文脈保持に強い
Gemini背景知識統合が強い
GPT系タスク処理と構造化が強い

Claudeは特に:

  • 含みのある表現
  • 遠回しな日本語
  • 歴史叙述

との相性が良い傾向があります。

一方でGPT系は:

  • 業務分解
  • ルール処理
  • 構造化判断

に強みがあります。


第3章:なぜ「ChatGPT系」はインハウスで見えにくかったのか

本章では、OpenAI系AIが企業のインハウス環境で長く見えにくかった理由を整理します。結論として、従来のChatGPTはSaaS型であり、データ主権や監査要件との相性が悪かったためです。しかし現在では状況が変わり始めています。

3-1. ChatGPTはなぜオンプレ運用できなかったのか

従来のChatGPT系モデルは:

  • クラウド前提
  • モデル非公開
  • API利用中心

という構造でした。

そのため:

  • 機密情報を扱いにくい
  • 監査ログを制御しづらい
  • データ主権要件に弱い

という問題がありました。

このため企業では:

「AIは便利だが、内部業務には使いにくい」

という認識が広がっていました。

3-2. OpenAI系OSSモデルの登場

しかし近年、OpenAIはオープンウェイト系モデルを公開し始めています。

特に注目されているのが:

  • gpt-oss-20B
  • gpt-oss-120B

などのモデルです。

これらは:

  • Ollama対応
  • オンプレ実行可能
  • API費用不要

という特徴を持っています。

Ollama公式

ローカルLLM実行環境の代表例。

公式サイトを見る

これによって:

「ChatGPT系はインハウスでは使えない」

という状況が変わり始めています。


第4章:AI比較の本質は「知能競争」ではない

本章では、ここまでの議論を整理し、「AI比較」の本質を考察します。結論として、今後重要なのは“どのAIが最強か”ではなく、“どのAIをどの業務に配置するか”です。つまり、AIの役割分化こそが実務上の核心になります。

4-1. AIは「万能知能」ではなく役割分化する

ここまで見てきた通り:

  • Gemini → 情報構造理解
  • Claude → 文脈保持
  • GPT系 → 構造化判断

という違いがあります。

これはつまり、AIが:

「万能化」

するのではなく、

「専門化」

していることを意味します。

4-2. 次の焦点は「組織との接続」になる

重要なのは、AI単体の性能ではありません。

本当に重要なのは:

  • 社内データとどう接続するか
  • 業務フローにどう組み込むか
  • 責任をどう分離するか

という設計です。

つまり今後の主戦場は:

「AIそのもの」

ではなく、

「AIを組織内でどう配置するか」

へ移行していきます。

後編では、この流れを受けて:

  • インハウスAI三層構造
  • 判定/文脈/責任の分離
  • Claude費用問題の解決法
  • gpt-ossとOllamaの実務設計
  • RAGと業務DB統合

について、実装・運用レベルまで踏み込んで解説していきます。


まとめ

今回見えてきたのは、AIの進化が単なる「高性能化」ではないという点です。

  • Geminiは構造を読む
  • Claudeは文脈を維持する
  • GPT系は判断を整理する

つまりAIは、それぞれ異なる知性を持ち始めています。

そして今後の本当の競争は:

「どのAIが賢いか」

ではなく、

「どのAIを、どの責任構造の中で使うか」

へ移行していきます。

〆最後に〆

以上、間違い・ご意見は
以下アドレスまでお願いします。
全て返信できていませんが 見ています。
適時、改定をします。

nowkouji226@gmail.com

全体の纏め記事に戻る】【雑記の纏め記事に戻る

タイトルとURLをコピーしました