o1 pro・Gemini 2.0・Claude 3.5 Sonnetの性能比較

AI（ChatGPTなど）

2025/1/14
AI（ChatGPTなど）
大規模言語モデル　比較, Google Gemini　Perplexity　比較, OpenAI　Claude比較
コメント: 0
投稿者: そうた

Table of Contents

はじめに：なぜ複数のAIを使い分けるのか

近ごろ、対話型AIをめぐる進化のスピードがものすごい。

特に大規模言語モデル（LLM）は数カ月単位で劇的にアップデートされるから、「これが最強だ！」と思っても、次の瞬間には別のモデルが追い抜いている、なんてこともザラだ。

そんな中、最適解を探そうとしてあれこれ迷っている人も多いはず。

「ChatGPTがイケてるって聞いたけど、他のAIはどうなんだろう？」
「結局、どれにお金を払えば効率上がるの？」
「無料のモデルと有料のモデル、どこがどう違う？」

こんな疑問を抱えつつ、いまいち踏み出せていない人は少なくないんじゃないかと思う。

この記事では、普段から複数のAIをがっつり使い倒している筆者が、それぞれのLLMに対する生々しい“肌感”をまとめてみた。

各サービスを**「大賢者」「賢者」「学生さん」「Fラン」「アホの子」**という独自ランクに分類しつつ、それぞれの特徴と上手な使い方を紹介する。

さらに、実際の活用例もいくつか挙げながら、「なんで複数モデルを使い分けるの？」という疑問にも答えていこうと思う。

1. 独自ランク付けの背景

私が複数のLLMを同時に使うようになったのは、**「一つのAIだけでは解決できない問題」**が増えてきたからだ。

たとえば、コードの自動生成が得意なモデルもあれば、深い思考力で抽象的な議論が得意なモデル、指示追従力（こちらの要望を正確に理解し応えてくれる能力）が高いモデル、日本語の文章表現が極端に上手なモデルなど、得意分野がバラバラ。

さらに、それぞれのモデルには微妙なクセや個性がある。

文章構造の傾向やミスの出方、情報の混ぜ方など、「こんなタイプの質問ならこっちがいい」「ああいう相談ならあっちを使う」みたいな住み分けが自然と生まれてくるわけだ。

そういった体験を重ねていくと、「結局、どれが一番？」という二択比較ではなく、「**Tier1の大賢者はいざというときの切り札、Tier2の賢者は日常業務の良き相棒、Tier3以下は…どう使う？」**みたいに段階的に評価したくなる。

そこで生まれたのが、この記事で取り上げる独自ランク付けだ。

2. Tier1：大賢者たちの圧倒的パワー

2-1. OpenAI「o1」と「o1-pro」

OpenAI製のモデルで「大賢者」認定されているのが、このo1系統。

ただし、o1とo1-proには微妙な違いがあって、o1-proはとにかくレスポンスが遅い。数分待たされるなんて当たり前。

その代わり、質問を大量に投げ込んでもしっかり思考してくれるという印象がある。

たとえば開発中の大規模プロジェクトにおいて、設計や要件定義について延々とディスカッションしたい場面ってあるじゃないか。

ああいう場合は**o1-proの“放っておいても勝手に考えてくれる感”**が頼もしい。

テンポは犠牲になるが、雑多なクエリを一気にぶち込んで、1時間くらい“裏で考えさせる”みたいな使い方をするなら、o1-proは非常に有能だ。

逆にo1は返信速度がそこそこ速いので、リアルタイムにキャッチボールしながら深掘りするのに向いている。

たとえば「こんなアイデア考えたんだけど、ネックになりそうな点は？」と聞き、返答が来たらそこをさらに掘り下げて「そのネックを解消する案を3つ出して」とか、「もうちょっと構造的に整理して」とか、短いスパンで次々に突っ込んでいく。
このやりとりをやりやすいモデルがo1というわけだ。

大賢者っぽい要素としては、やはり「深い思考力」と「論理構築能力」だろう。

他のモデルでは見られないような踏み込んだ考察や、納得感のある構造化が期待できる。

ただ、その分計算に時間がかかるのか、とにかくレスポンスが遅め。

ここを**「パワフルだけどのんびりな仙人」**と割り切って使うとめちゃくちゃ役立つ。

2-2. Google「Gemini 2.0 Experimental Advanced」

もう一つの大賢者が、GoogleのGemini 2.0 Experimental Advanced。

o1ほどの深みはないが、速度が圧倒的に速いのがポイント。

o1と同列のTier1とはいえ、得意分野は少し異なる印象だ。

実際に触ってみるとわかるが、Gemini 2.0 Experimental Advancedはある程度複雑な質問でも素早く答えを提示してくる。

すぐにフィードバックを得たいときはこっちを使い、もう少し突っ込んだ深い議論がほしいときはo1に聞く、という併用パターンが多い模様。

コード生成の精度や日本語の自然さではo1に一日の長があるかもしれないが、Gemini 2.0 Experimental Advancedがダメというわけではない。

むしろ大規模データに支えられた知識量は相当なもので、要点をテキパキ出すのがうまい印象。

「とりあえず5秒以内にざっくり答えがほしい」とか、「複数の視点をパパッと比較したい」みたいなシーンではとても重宝する。

3. Tier2：賢者の安定感

3-1. Anthropic「Claude 3.5 Sonnet」

Claude 3.5 Sonnetは「日本語操作能力や指示追従能力が非常に高い」。

たとえばブログ記事の校正や、日本語文章の再構成をさせるとかなり正確。

さらに、Reactで画面を作ったり、Mermaidで図を書かせたりといった“フロント系の試作”が得意という特徴もある。

大賢者（o1やGemini 2.0）には及ばないものの、現場で使うには十分すぎるほどの性能を持っている。

それに加えてレスポンスの速さや安定度があるから、「突拍子もない大発見をしたいわけじゃなく、そこそこ高度な資料作成やコーディング補助をしてほしい」ならSonnetでOK、という感じ。

3-2. 賢者を活かす具体的なシーン

日々のライティングや校正
ちょっとした文章を書いては「これ変な表現ない？」とか「ここのロジック飛躍してない？」と聞いてみると、割とズバッと修正案を返してくれる。
ReactやMermaidでのプロトタイピング
「○○という画面デザインが必要なんだ。Reactのコードテンプレート書いてくれない？」
→ 生成されたものを本番に持ち込む前にテストするだけでも作業効率が大幅UP。
加えてMermaid図でUIフローやシーケンス図をサクッと生成させると、ディスカッションがスムーズになる。
要約・再構成役
複数のAIモデルに質問を投げて出てきた回答をClaude Sonnetに要約させる、というやり方がとにかく便利。
「gemini-2.0でパパッと答えをもらいつつ、o1に深く聞いた内容を取りまとめてもらい、それをSonnetが要約し、最終整形する」というフローだ。
Sonnetは指示の汲み取りがうまいので、「ちょっと話が長いから2行でまとめて」「10点満点でこの案を評価して」みたいなオーダーにも応えてくれる。

4. Tier3：「学生さん」の奮闘ぶり

4-1. OpenAI「gpt-4o」

ここで登場するのが、OpenAI製の「gpt-4o」。

独断と偏見だが、一世代前のAI感がどうしても拭えない。

実際に使うと、賢者や大賢者と比べて指示追従能力がやや弱く、ちょっと込み入った要望を出すと理解しきれずにトンチンカンな回答を返してくるケースが目立つ。

ただし、まったく使えないわけじゃない。

ある程度シンプルな質問やリサーチ的なことなら、そこそこ答えてくれるのだ。

4-2. 学生さんに“使い道”はあるのか

サブタスクの切り出し
どうしても大賢者のAPI枠やトークンが足りないとき、あるいは「軽い雑務をやらせたい」ときに、この学生さんを起用するのはアリ。
サポート的ポジション
たとえばSonnetやgemini-2.0-expに本命の指示を出しつつ、その補完でgpt-4oを使う。ときどき面白い視点が出てくることもあるので、思わぬ副産物が得られるかもしれない。

とはいえ、メインでガッツリ頼るには物足りない。

無料ならまあまあ、といったレベルだろう。

5. Tier4：Fランの壁

5-1. Google「Gemini 1.5 pro」

「意味不明なレベルでアホすぎる」「ハルシネーションが多い」という印象なのがこのランク。

正直なところ、「Gemini 2.0 Experimental Advancedと同じGoogle系列なのに、こんなにも差があるのか」と驚く。

機能的に1.5 proは前世代のモデルであり、そのまま手直しされず残っている可能性も考えられるが、ハルシネーションがあまりにも激しいなら、素直に上位モデルを検討したほうがいいだろう。

5-2. ハルシネーション多発の原因とは

AIが“もっともらしい嘘”をつくことを「ハルシネーション」と呼ぶ。

この現象はどのAIモデルでも起こりうるが、学習データの偏りや自己補完的な回答生成のアルゴリズムが荒いと、頻度が増えると言われている。

Gemini 1.5 proの場合、そのアルゴリズムがかなり旧世代なのか、やたらと“でっち上げ”っぽい回答を返してくることがある。

もし、それでも1.5 proしか使えない状況ならば、回答内容を必ず人力でチェックするか、補助的な用途に限るのが賢明。

時間や労力をかけられないなら、大人しく大賢者クラスを導入するか、Tier2の賢者ラインに手を伸ばすほうが結果的には安く上がるかもしれない。

6. Tier5：アホの子の愛すべき（？）存在感

6-1. OpenAI「gpt-4o-mini」

「論外レベル」「アホの子」。

正面からの質問ややや複雑な指示への対応がまるで噛み合わず、完全にトンチンカンな回答を連発することがある。

まさに「出始めた頃のChatGPT」を感じることができる。

6-2. “ネタ要員”として割り切るならアリ？

それでもまれに“思いもよらない珍回答”をくれるから、会話を楽しみたいだけのカジュアルユーザーにとっては面白い存在かもしれない。

仕事で使うには危険すぎるが、友達同士の雑談ネタくらいならアリかも。

ただ、現在の段階では「まともにタスクをこなしてほしい」と期待できるモデルではない。

7. 検索エンジン系AIの事情

7-1. Perplexity Pro

「速度と結果のバランスが絶妙に良い」「検索エンジン汚染の影響が比較的マシ」という評価。

実際、従来のウェブ検索を何度も手動で繰り返して情報を整理する手間を考えると、PerplexityのようにAIによる要約＆絞り込みが自動で行われるのはかなり便利。

Google検索を生で使う場面は**「すでに欲しい情報が具体的にわかっている」**ケースに限られるようになりつつあるという。

7-2. Deep ResearchとsearchGPT

Deep Research
ハルシネーションが激しいようで、信頼性が低い。“どこからその情報持ってきた？”と思うような出典不明データを混入してくることがある。
searchGPT
GPT系のモデルと検索エンジンの組み合わせだが、検索結果がノイズにまみれていると、そのまま不正確な情報がAI回答に反映されがち。
「検索汚染されまくったソース＋アホの子gpt-4o」という組み合わせ。

要は、ネット上のゴミデータを拾ってしまう危険性が常にあるわけで、そこをうまく処理できないなら人間の手間が増えてしまう。

Perplexityはそこのバランスが比較的いいため、「現時点ではこれ一択」という評価に落ち着いているのだろう。

8. マルチAIオーケストレーション術

8-1. LLMを並行稼働させるメリット

「LLMを一種類だけ使えば十分じゃないか？」と思う人もいるかもしれないが、実際は複数使うと相互補完が起きて効率が何倍にもなる。

なぜかというと、一つのモデルが苦手とするところを他のモデルがカバーしてくれるからだ。

たとえば大賢者(o1-pro)に大量の質問を投げ込みながら、同時にGemini 2.0 Experimental Advancedで別の角度からアイデアを拾い、さらにそれらの回答をClaude Sonnetに要約させる

――というフローを回すと、

質の高い深い考察
速いレスポンス
すっきりしたドキュメント化
が同時に叶う。

8-2. モデル間の要約とフィードバックで精度UP

さらに、「AI同士を会話させる」ような使い方も面白い。

正確にはユーザーがそれを“取り持つ”形になるが、イメージとしては**「モデルAが出した回答を、モデルBに要約させる」**という感じ。

ステップ1: o1が叩き出した膨大なテキストをSonnetに貼り付けて、「端的な要点に絞ってまとめて」と指示。
ステップ2: gemini-2.0-expにそのまとめを渡して、「この内容で別の角度からアイデア出して」とリクエスト。
ステップ3: まとまった結果を再度Sonnetに戻して最終校正。

こうした**“オーケストレーション”**の中で、微妙な重複やハルシネーションが削ぎ落とされ、より完成度の高いアウトプットに仕上がる。

9. 具体的な活用例：こんなふうに使い分ける

ここでは、複数AIの併用が特に効果的だと感じるシーンを3つ紹介しよう。

9-1. コーディングするとき

シンプルなモジュールを作る程度ならClaude Sonnetやo1で十分。
「Reactで○○という機能を実装してみたいんだけど、基本構造を作って」「ついでにテストコードも書いて」と頼むと、あらかたの下書きが返ってくる。

だが、大規模なコード生成は今のAIだとミスや矛盾が起きやすいので、そこまでの期待はしないほうがいい。

代わりに**「小さな単位で頼む→返ってきたコードを人間が検証→合体」**というアプローチが基本。

SonnetはReactやMermaidなどのフロントやドキュメント系が得意だから、そのへんのプロトタイピングはサクッと済ませる。

並行して、**o1-proに「設計段階からの根本的なアーキテクチャ」**について深く質問しておくのもいい。

こちらはレスポンスに時間がかかるので、「投げてから別の作業をしているうちに回答が来る」スタイルがちょうどいいはず。

9-2. ブログや記事を執筆するとき

文章を書く作業でも、「リサーチ」「下書きの構成」「校正」という工程に分割するだけでAIの使い分けがはかどる。

リサーチ
Perplexity Proでさくっと関連トピックを調べ、キーワードや概念の概要を抑える。
必要があれば、gemini-2.0-expに「リサーチ結果を踏まえて何か面白い視点はある？」と投げてもいい。
下書きの構成
o1やSonnetに文章構造の提案をさせると、わりと使えるアタリが出てくる。
「見出しはこんなふうにわけたら？」とか、「読者が知りたい具体例はこのポイントかもしれない」とか、外部視点で検討できるのが助かる。
校正
書き終わった文章を賢者（Sonnet）に貼り付けて、「ここの文法がおかしい」「論旨が飛んでる」といった指摘をもらう。
必要に応じて書き直しをした後、念のため検索エンジン汚染による変な情報が入ってないか自分でも確認して仕上げる。

9-3. ウェブ画面や図の試作をするとき

SonnetのArtifacts機能やMermaid記法対応が便利、というのはすでに触れたとおり。

「とりあえずこんなUIイメージで、遷移フローはこう、データはこう」とテキストで指示すると、さらっと図で説明してくれる。

それを見て「ここはUX的にイマイチだな」と思ったら修正案を依頼し、気に入ったらコードも吐き出してもらう。

一方で、Gemini 2.0 Experimental Advancedにも同じように指示してみるとまた違った出力が得られることがある。

ちょっと別のアプローチで画面設計が提案されることもあるから、複数モデルに並行で頼む→要約・比較→ベストな案を選ぶという流れが自然になってきた。

10. 今後の展望とモデル進化への期待

対話型AIの世界は、わずか半年～1年のスパンで劇的に様変わりしている。

Tier1に位置づけられているo1やGemini 2.0も、今後のアップデートでさらに性能が跳ね上がる可能性があるし、同じくAnthropic側も**Claude 4 Sonnet（仮称）**をリリースするのでは？とウワサされている。

現在「アホの子」扱いされているgpt-4o-miniや、Fランと呼ばれるGemini 1.5 proだって、いつどこで「超大幅アップグレード」が来ないとも限らない。

そもそも大規模言語モデルという仕組み自体がまだまだ成熟しきっていないから、1年後にはまったく違う勢力図になっている可能性もあるわけだ。

つまり、この“独自ランク付け”も流動的なものだ。

興味があるなら、自分自身で試してみてその“肌感”を確かめるのが一番だと思う。

11. まとめ：全方位からアイデアを得るための“複数AI使い”

大賢者（o1 / Gemini 2.0）は深い思考や広範なアイデア収集に便利だが、レスポンスが遅かったり月額が高かったりする
賢者（Claude Sonnet）は日本語文書の校正、フロントまわりの試作、要約作業などで圧倒的に使いやすい
学生さん（gpt-4o）やFラン（Gemini 1.5 pro）、アホの子（gpt-4o-mini）は正直パワー不足だけど、補助的には使えなくもない
検索系AIならPerplexity Proが無難なチョイス
複数のモデルを並行で使い、回答を要約・再構成させる“オーケストレーション”が生産性を大きく高める

「自分はこんな作業がしたい」とか「〇〇分野の知見を深めたい」みたいに明確な目的がある人は、大賢者プランに投資する価値が十分にあるはず。

一方で、「そこまで込み入ったことはしないから賢者レベルでOK」という人はClaude Sonnetを使いつつ、検索はPerplexity Proに任せる、くらいでもいいだろう。

とにかく言えるのは、**「一つのAIですべてをまかなおうとせず、上手に組み合わせよう」**ということ。

AI同士の使い分けで浮いた時間を、さらに新しい発想や戦略づくりに回せれば、今までにないスピード感で結果を出せるようになるんじゃないかと思う。

AI界隈は今まさに“カオス”だし、半年後にはまた勢力図がガラッと変わっているかもしれない。

2025年1月末ころにリリースが噂されているOpenAIの「o3 mini」がまた爆弾を落としそうな感じだし。

でも、その変化を臨機応変に楽しみながら、“大賢者”や“賢者”を自由に操れるようになっておけば、仕事や創作での生産性は爆発的に伸びるはずだ。

いろんなモデルを試して、自分ならではのオーケストレーションを確立しよう。

きっと、今までの「人間だけでカチャカチャ考える働き方」には戻れなくなるはずだ。

（おわり）

※この記事の内容はすべて執筆時点での個人的な体験と意見に基づくもの。

各モデルやサービスは日進月歩でアップデートされるため、最新の情報や印象は自分でチェックするのが一番。

今はダメダメでも、次のバージョンで突然“化ける”ことも大いにあり得る。

とはいえ、現状での活用法としては、この記事のように複数のAIを組み合わせるのが一番効率がいいと感じている。

■追伸：ビジネスを自動化するための無料講座

「ネット集客と販売を自動化するなら, 最低限これだけは知っておきたい」という内容を1冊の教科書としてまとめました。

また, 最近のAIの台頭を受けて, これをどう捉え, どう使うかといった内容も加筆しています。

クリックして無料で自動化の教科書を受け取る→

投稿者プロフィール

そうた常識を焼き払い, AI時代の生き方を再定義する

【経歴】
・オンラインビジネス歴
2011年9月よりブログ運営やSNSマーケティング、YouTubeなど、さまざまなジャンルを横断的に経験。コピーライティング、コミュニティマネジメント、海外スタートアップのプロモーションなど、多岐にわたる業務に携わってきました。

・チームでの大型プロジェクト参画
個人だけでなく、ジョイントベンチャー（JV）という形で複数名の専門家と協力し、月商数十億円規模のプロモーションプロジェクトにディレクターやコピーライターとして参加。多種多様なマーケットで培った経験を活かし、売上と集客を最大化する戦略を構築してきました。

・直近の活動領域
「ビジネスの自動化」をメインテーマにしつつ、近年社会を変えつつあるAIも積極的に取り入れ、情報をキャッチアップしています。OpenAI社のPROプランに加入しています。

・指導経験など
生徒の実績は月商400〜500万円。これまでに約300名ほどの方に密な指導を行い、「自分のビジネスを軌道に乗せる」「収益を安定化させる」ための仕組みづくりをサポートしてきました。

【提供できる価値】
・AI活用, コピーライティング, マーケティング戦略
近年注目されるAIを使ったマーケティングや、自動化の仕組みづくりを得意としています。特にコピーライティングは、プロモーションの要となるため、集客や売上アップに直結しやすい領域です。

・オンラインスクールによる体系的な学習
「リストマーケティング」による自動化を中心に、オンラインビジネスを包括的に学べるカリキュラムを提供。基礎から応用まで一貫して学ぶことができ、個別サポートやコミュニティを通じて躓きやすいポイントもしっかりフォローします。

・手厚いサポートと多岐にわたるコンテンツ
ゼロからビジネスを立ち上げる方、すでに収益化している事業を拡大したい方、それぞれに合わせた柔軟な支援が可能です。マーケティング戦略の立案からコピーの添削、商品設計のアドバイスまで、多角的にサポートします。

【理念】
バイト、会社員、フリーランス、経営者など、あらゆる働き方を自分自身が経験した結果、「群れるより1人で稼ぐほうがストレスが少ない」と感じ、自由度の高いスタイルを追求しています。

集客・販売・サービス提供をすべて仕組み化（自動化）することで、時間と労力を効率化し、自分らしい働き方や生き方を実現することを目指しています。

【次のような場合に】
「自由なライフスタイルを手に入れたい」
「ネットビジネスに興味があるが、何から始めればいいか分からない」
「すでにビジネスを始めているが、思うように成果が出ない」

上記のようなお悩みや目標をお持ちの方に、最適なアドバイスと行動プランをお届けします。

【その他・趣味など】
趣味は読書や映画、旅行などで、Netflixやゲームを楽しみながら新しいアイデアを得るのが日課です。フランクなコミュニケーションを大切にしていますので、ぜひお気軽にご相談ください。