% cd ..

AI翻訳モデル比較: 往復翻訳スコアで見る Gemini ファミリーの実力

はじめに

前回の記事で紹介した往復翻訳の仕組みを使って、実際に複数の翻訳モデルを比較してみました。

このブログの記事3本を、Google Gemini ファミリー4モデル + Claude + 手動翻訳でそれぞれ翻訳し、往復翻訳スコア(cosine similarity)を算出した中間報告です。

対象モデル

モデル特徴無料枠 RPD
gemini-2.5-flashメインモデル。バランス型20
gemini-2.5-flash-lite2.5 の軽量版20
gemini-3-flash-preview次世代モデル(プレビュー)20
gemini-3.1-flash-lite-preview3.1 の軽量版(プレビュー)500
claude-opus-4Anthropic の最上位モデル(既存英訳の evaluate)-
manual手動翻訳(既存英訳の evaluate)-

「translate」モードは、指定モデルが自分で訳して自分で戻す方式。「evaluate」モードは、既存の英訳(Claude や手動で作成済み)を Gemini で再和訳してスコアを算出する方式です。この違いは後述します。

モデル別スコア一覧

Embedding モデルは全て gemini-embedding-001(768次元)に統一しています。

hello-world(短文・188文字)

順位モデルスコア
1gemini-3-flash-preview0.9836
2gemini-3.1-flash-lite-preview0.9823
3gemini-2.5-flash0.9795
4manual (evaluate)0.9712
5gemini-2.5-flash-lite0.9701

nextjs-vercel(技術記事・2,530文字)

順位モデルスコア
1gemini-3-flash-preview0.9915
2gemini-2.5-flash-lite0.9902
3gemini-2.5-flash0.9893
4gemini-3.1-flash-lite-preview0.9886
5claude-opus-4 (evaluate)0.9785

back-translation(翻訳解説記事・3,141文字)

順位モデルスコア
1gemini-2.5-flash-lite0.9870
2gemini-2.5-flash0.9851
3gemini-3.1-flash-lite-preview0.9838
4claude-opus-4 (evaluate)0.9834
5gemini-3-flash-preview0.9791

考察: 記事によって順位が入れ替わる

一番面白いのは、記事によってモデルの順位が変わることです。

  • gemini-3-flash-preview は技術記事(nextjs-vercel)で 0.9915 と最高スコアを出しましたが、翻訳解説記事(back-translation)では 0.9791 で最下位でした。
  • gemini-2.5-flash-lite は翻訳解説記事で 0.9870 のトップですが、短文(hello-world)では 0.9701 で最下位。
  • gemini-2.5-flash は全記事で安定して上位(2〜3位)に入っている「安定型」。

つまり「このモデルが最強」とは一概に言えません。記事の内容(技術的な文章 vs 日常的な文章 vs 短文)によって、得意なモデルが変わるようです。

記事別の傾向仮説

記事の特徴強かったモデル推測
技術記事(用語が明確)gemini-3-flash-preview技術用語の一対一対応が得意?
解説記事(論理展開が長い)gemini-2.5-flash-lite文脈を保持した平易な翻訳が得意?
短文(情報量が少ない)gemini-3-flash-preview少ない文脈でも的確に訳せる?

まだ3記事しかないので仮説の域を出ませんが、記事が増えれば「映画レビューは A モデル、技術記事は B モデル」のように使い分けられるかもしれません。

translate モードと evaluate モードのスコア差

少し注意が必要なのが、translate モードと evaluate モードではスコアの性質が異なる点です。

  • translate モード: 同じモデルが「翻訳」と「再和訳」の両方を担当する。自分の訳し方のクセが往復で打ち消し合うため、スコアが高めに出やすい
  • evaluate モード: 既存の英訳(Claude や手動で書いたもの)を Gemini が再和訳する。翻訳者と再和訳者が異なるため、スコアが低めに出る傾向がある

例えば、claude-opus-4 の evaluate スコア(0.9834, 0.9785)は、Gemini の translate スコアと単純比較すると低く見えますが、これは Claude の翻訳が「劣っている」ことを必ずしも意味しません。異なるモデル間の往復では、表現の選び方の違いがスコアに影響します。

公平な比較をするなら、全モデルを translate モード(自分で訳して自分で戻す)で揃えるか、全モデルを evaluate モード(同じ再和訳モデルで戻す)で揃えるのが理想です。

Embedding モデル比較: gemini-embedding-001 vs 002

翻訳モデルだけでなく、スコアを算出する「物差し」側も比較してみました。Google は現在2つの embedding モデルを提供しています。

Embedding モデル次元数(縮小後)RPD
gemini-embedding-0017681,000
gemini-embedding-2-preview7681,000

同じ翻訳モデル × 同じ記事の組み合わせで、embedding モデルだけを変えたスコアを比較します。

スコア比較表

記事翻訳モデルemb-1emb-2差分
hello-worldgemini-2.5-flash0.97950.9531-0.026
hello-worldgemini-2.5-flash-lite0.97010.9698-0.000
hello-worldgemini-3-flash-preview0.98360.9818-0.002
hello-worldgemini-3.1-flash-lite-preview0.98230.9711-0.011
nextjs-vercelgemini-2.5-flash0.98930.9646-0.025
nextjs-vercelgemini-2.5-flash-lite0.99020.9457-0.045
nextjs-vercelgemini-3-flash-preview0.99150.9667-0.025
nextjs-vercelgemini-3.1-flash-lite-preview0.98860.9595-0.029
back-translationgemini-2.5-flash0.98510.9498-0.035
back-translationgemini-2.5-flash-lite0.98700.9376-0.049
back-translationgemini-3-flash-preview0.97910.9511-0.028
back-translationgemini-3.1-flash-lite-preview0.98380.9312-0.053

傾向

  • emb-2 のスコアは全体的に 0.00〜0.05 低い。これは翻訳品質の差ではなく、embedding モデルのベクトル空間の特性の違いです
  • emb-2 の方がテキスト間の微妙な違いに敏感(ベクトル空間がより広がっている)と考えられます
  • ただし、モデル間の相対順位はおおむね一致。emb-1 で高スコアだったモデルは emb-2 でも高スコアの傾向がある
  • 差分のばらつきが大きいのが興味深い点。gemini-3-flash-preview × hello-world は差分 -0.002 とほぼ同じですが、gemini-3.1-flash-lite-preview × back-translation は -0.053 と大きく開きます。記事の長さやモデルとの相性によって、embedding モデルの特性差の出方が変わるようです

どちらを「物差し」にすべきか

現時点では gemini-embedding-001 を引き続きメインの物差しとして使う方針です。理由は:

  1. 既存データとの互換性(emb-1 で蓄積したスコアと比較可能)
  2. 相対順位が変わらないなら、絶対値が高い方が直感的にわかりやすい
  3. emb-2 はまだ preview 版で、API 仕様が変わる可能性がある

ただし、emb-2 の方が「より厳密な物差し」である可能性もあるので、引き続き両方のデータを蓄積していく予定です。

まとめと今後

わかったこと

  1. 「最強の翻訳モデル」は存在しない — 記事の内容によって得意なモデルが変わる
  2. gemini-2.5-flash は安定型 — どの記事でも上位に入る。メインモデルとして妥当
  3. Embedding モデルの違いはスコアの絶対値に影響するが、相対順位は保たれる
  4. translate と evaluate のスコアは単純比較できない — モードを揃える必要がある

今後やりたいこと

  • 記事数を増やして傾向を確認 — 3記事ではまだサンプル不足。ジャンル別の傾向が見えるか
  • Groq(Llama 3)、DeepSeek の追加 — 無料で使える他社モデルとの比較
  • 翻訳品質ダッシュボードの構築 — スコアをグラフで可視化して、誰でも見られるようにする
  • ジャンル別のモデル自動選択 — 記事のタグに応じて最適なモデルを自動で選ぶ仕組み

この記事のデータは 2026-04-04 時点のものです。記事やモデルが増えれば結果も変わるため、定期的に更新していく予定です。

往復翻訳の仕組みについてはこちらの記事、ブログの技術スタックについてはこちらの記事で紹介しています。