前編では、東大・京大入試を題材として、なぜGeminiが文系的構造理解に強く、Claudeが日本史や自然な文章に優れ、ChatGPT系が数学・推論に強いのかを考察しました。
そして見えてきたのは、単なる「AI性能比較」ではありませんでした。
本当に重要だったのは、
「AIをどう組織に埋め込むか」
という問題です。
2026年現在、多くの企業はまだ「ChatGPTを試す段階」にいます。しかし世界の先端企業はすでに次の段階へ進み始めています。
それは、
・AIを単なるチャットツールとして扱わない
・社内データと接続する
・業務フローに組み込む
・責任構造と分離して設計する
という「組織AI化」の段階です。
特に重要なのは、OpenAIが公開したGPT-OSS系モデルや、Ollamaを用いたローカルLLM運用によって、「インハウスAI」が現実的になってきたことです。
これによって企業は、
「クラウドAIを借りる」
だけではなく、
「自社内でAIを持つ」
という選択肢を持ち始めました。
本記事では後編として、
・比喩や皮肉にAIはなぜ弱いのか
・なぜClaudeは“人間らしい”のか
・GPT-OSSとOllamaは実務で使えるのか
・なぜ企業は“AI三層構造”へ向かうのか
・AI時代に人間はどこへ残るのか
を、生成過程そのものに注目しながら整理していきます。
AIは東大文系をどう解いたのか|Gemini・Claude・ChatGPT系AIの比較から見える「組織AI化」の本質【前編】
Gemini・Claude・ChatGPT系AIの違いを東大入試から分析。文系・理系・日本史・数学の差から、「組織AI化」の本質を考察した前編です。

第1章:なぜAIは比喩・皮肉・空気に弱いのか
生成AIは2026年時点で東大理三合格レベルに達しつつあります。しかし、その一方で「皮肉」「含み」「場の空気」といった人間的文脈では、いまだ不安定さを見せます。
これは単なる性能不足ではありません。むしろ、LLM(大規模言語モデル)の構造そのものが、「字義」と「真意」がズレる状況を苦手としているからです。この章では、なぜAIが比喩や感情文脈に弱いのかを、入試問題・日本語・人間評価の観点から考えていきます。
AIは「正しい言葉」を選ぶが、「本音」を保証しない
LLMは基本的に、「次に最も確率が高い単語」を生成しています。
つまり内部では、
- 発話者の感情
- 場の空気
- 皮肉
- 本音
- 暗黙知
を理解しているわけではありません。
たとえば人間は、
「素晴らしい会議でしたね(最悪だった)」
という皮肉を、空気から理解します。
しかしAIは、字義通りに読めば「肯定」と判断する可能性があります。
実際、2026年共通テスト検証では、複数AIが「人間感情」や「イラスト文脈」で誤答したことが報告されています。 :contentReference[oaicite:0]{index=0}
つまりAIは、
「論理」
には強い。
しかし、
「社会的含意」
にはまだ脆い。
これは重要です。
なぜなら企業実務の多くは、
- 曖昧な依頼
- 責任回避表現
- 政治的配慮
- 空気を読む判断
によって成立しているからです。
Claudeが“人間らしい”と言われる理由
興味深いのは、Claude系モデルがしばしば
「自然」
「違和感が少ない」
「人間らしい」
と評価される点です。
これは単なる日本語性能ではありません。
Anthropic系モデルは、長文一貫性と文脈保持を非常に重視しています。
その結果、
- 前半と後半で人格が崩れにくい
- 断定しすぎない
- 急に論調が飛ばない
- 説明が過剰攻撃的になりにくい
という特徴が出ます。
日本史記述や長文説明でClaudeが高評価を得た背景にも、この「文脈維持能力」があると考えられています。 :contentReference[oaicite:1]{index=1}
つまりClaudeは、
「正解率」
だけではなく、
「読み手が違和感を抱かない」
方向へ最適化されている可能性があります。
ここに、単なるベンチマークでは測れない「AIの性格差」が見え始めています。
第2章:なぜ企業は「インハウスAI」を求め始めたのか
生成AIブーム初期、多くの企業はChatGPTやClaudeを「外部サービス」として利用していました。しかし現在、世界の企業は徐々に「自社内でAIを持つ」方向へ動き始めています。
背景には、機密性・監査・コスト・継続利用の問題があります。特にOpenAIがGPT-OSS系モデルを公開し、Ollamaによるローカル運用が普及したことで、インハウスAIは現実的な選択肢になりました。
この章では、なぜ今インハウスAIが重要視されるのかを考えます。
ChatGPT系は「存在しなかった」のではなく、「持てなかった」
以前、多くの人は、
「インハウスAI=Llama系やOSS系」
という印象を持っていました。
理由は単純です。
従来のChatGPT系モデルは、
- クラウド前提
- モデル非公開
- オンプレ不可
- 重み未提供
だったからです。
つまり企業側は、
「便利だが、自社で持てない」
という状態でした。
しかし2025年以降、OpenAIはGPT-OSS系モデルを公開し始めます。
これにより、
- ローカル実行
- オンプレミス
- 監査ログ保持
- API依存低減
が可能になりました。
さらにOllamaによって、ローカルLLM運用は急激に簡略化されます。
Shell例:
ollama run gpt-oss:20bこの変化は非常に大きい。
なぜなら企業は初めて、
「AIを借りる」のではなく、
「AIを所有する」
方向へ進めるようになったからです。
Claudeの費用問題は「使い方」の問題でもある
多くの企業がClaudeを高く評価する一方で、
「費用が重い」
という問題を抱えています。
特に長文・大量処理・常時運用では、クラウドAI課金は急速に膨らみます。
しかし重要なのは、
Claudeを“全部”に使う必要はない
という点です。
実務上、本当に高価な文脈理解が必要なのは、
- 社外文章
- 説明責任文書
- 曖昧問い合わせ
- 人間向け要約
など限定領域です。
逆に、
- チェック
- 分類
- 数値判定
- 業務ルール適用
はOSS系LLMでも十分実用的です。
つまり現実的な企業構成は、
- 大量処理 → GPT-OSS / Ollama
- 高文脈処理 → Claude
という分業になっていきます。
これは単なるコスト削減ではありません。
AIを「役割分離」し始めているのです。
第3章:AIは実務で本当に使えるのか
生成AIは派手なデモでは驚異的に見えます。しかし企業が本当に知りたいのは、「実務で壊れないのか」という点でしょう。
実際、AIは万能ではありません。誤読もしますし、嘘も混ぜます。しかし一方で、構造化・要約・分類・検索補助といった領域では、すでに人間を大きく上回る効率を見せ始めています。
この章では、「AIは何に使えるのか」を幻想ではなく実務軸で整理します。
AIが強いのは「判断」より「前処理」
企業が誤解しやすいのは、
AIに最終判断をさせようとする
ことです。
しかし現在のAIが本当に強いのは、
- 整理
- 分類
- 要約
- 検索
- 比較
- 候補生成
です。
つまり、
「人間が判断しやすい状態を作る」
ことに圧倒的に強い。
たとえば社内規程レビューでも、
- 規程違反候補抽出
- 関連文書提示
- 根拠整理
- チェックリスト生成
は非常に得意です。
逆に、
- 例外承認
- 政治判断
- 法的責任
- 倫理的最終決定
は苦手です。
ここを混同すると、
「AIが暴走した」
という事故になります。
AI時代に重要なのは「全部自動化」ではない
2023〜2024年頃、多くの企業は
「AIで全部自動化」
を夢見ていました。
しかし2026年現在、先進企業はむしろ逆方向へ向かっています。
つまり、
- 責任を分離する
- 判断を分解する
- AIを限定配置する
- ログを残す
方向です。
なぜか。
AIは便利ですが、
「説明責任を負えない」
からです。
そのため現在重要なのは、
AIを賢くすること
ではなく、
AIを安全に配置すること
になり始めています。
これはまさに、
「組織設計」
の問題です。
第4章:AI時代に人間はどこへ残るのか
生成AIが東大・京大レベルへ到達しつつある現在、多くの人が「人間は不要になるのか」と不安を抱きます。しかし実際には、AIの発展は逆に「人間が何を引き受ける存在なのか」を浮かび上がらせ始めています。
重要なのは、AIは責任を負えないという点です。AIは推論し、提案し、分類できます。しかし最終的に「決める」「引き受ける」「説明する」のは依然として人間です。
この章では、AI時代に残る人間の役割を考えます。
AIは「知能」を拡張するが、「責任」は持てない
AIは確かに驚異的です。
東大理三レベル。
数学満点。
長文読解。
コード生成。
ここまで来ています。
しかしAIは、
- 責任を取れない
- 法的主体になれない
- 倫理的負債を負えない
という根本問題を抱えています。
だから企業は結局、
「誰が決めたのか」
を必要とします。
ここに、人間が残ります。
つまりAI時代の人間は、
「全部知っている人」
ではなく、
「最終的に引き受ける人」
へ変わっていく可能性があります。
AI時代は「知識量」より「構造設計」が問われる
かつて知識量は強さでした。
しかし現在、知識検索だけならAIの方が速い。
すると人間に残る価値は、
- 何を接続するか
- どこで責任を止めるか
- どのAIを使うか
- どこを人間が見るか
という「構造設計」へ移ります。
これは重要です。
AI時代は、
「一番賢い人」
より、
「AIと組織を安全に繋げられる人」
が重要になる可能性が高いからです。
そしてその設計思想として、現在急速に注目され始めているのが、
「判定」
「文脈」
「責任」
を分離する「三層構造」です。
次回は、
- インハウスAI三層構造
- 判定層/文脈層/責任層
- Ollama×RAG×業務DB
- Claude使用量を減らす設計
- AIエージェント時代の監査
を、さらに実装・運用レベルで考察します。
参考・関連記事
AIは東大文系をどう解いたのか【前編】
Gemini・Claude・ChatGPT系AIの違いを、東大入試・日本史・文系答案から分析。
Ollama公式サイト
ローカルLLMを簡単に実行できる代表的環境。GPT-OSS系モデルも利用可能。
OpenAI公式サイト
GPT系モデル・推論モデル・API・OSS戦略などを確認可能。
Anthropic公式サイト
Claudeシリーズや長文推論・安全性設計の背景を確認可能。
参考資料:
・東進「2026年東大二次試験AI検証」 :contentReference[oaicite:3]{index=3}
・LifePrompt「東大・京大二次試験AI比較」 :contentReference[oaicite:4]{index=4}
・ITmedia「AIは共通テストをどう解いたか」 :contentReference[oaicite:5]{index=5}
・ChatGPT / Claude / Gemini比較記事 :contentReference[oaicite:6]{index=6}
::contentReference[oaicite:7]{index=7}
〆最後に〆
以上、間違い・ご意見は
以下アドレスまでお願いします。
全て返信できていませんが 見ています。
適時、改定をします。
nowkouji226@gmail.com
