AI翻訳モデル比較: 往復翻訳スコアで見る Gemini ファミリーの実力
はじめに
前回の記事で紹介した往復翻訳の仕組みを使って、実際に複数の翻訳モデルを比較してみました。
このブログの記事3本を、Google Gemini ファミリー4モデル + Claude + 手動翻訳でそれぞれ翻訳し、往復翻訳スコア(cosine similarity)を算出した中間報告です。
対象モデル
| モデル | 特徴 | 無料枠 RPD |
|---|---|---|
| gemini-2.5-flash | メインモデル。バランス型 | 20 |
| gemini-2.5-flash-lite | 2.5 の軽量版 | 20 |
| gemini-3-flash-preview | 次世代モデル(プレビュー) | 20 |
| gemini-3.1-flash-lite-preview | 3.1 の軽量版(プレビュー) | 500 |
| claude-opus-4 | Anthropic の最上位モデル(既存英訳の evaluate) | - |
| manual | 手動翻訳(既存英訳の evaluate) | - |
「translate」モードは、指定モデルが自分で訳して自分で戻す方式。「evaluate」モードは、既存の英訳(Claude や手動で作成済み)を Gemini で再和訳してスコアを算出する方式です。この違いは後述します。
モデル別スコア一覧
Embedding モデルは全て gemini-embedding-001(768次元)に統一しています。
hello-world(短文・188文字)
| 順位 | モデル | スコア |
|---|---|---|
| 1 | gemini-3-flash-preview | 0.9836 |
| 2 | gemini-3.1-flash-lite-preview | 0.9823 |
| 3 | gemini-2.5-flash | 0.9795 |
| 4 | manual (evaluate) | 0.9712 |
| 5 | gemini-2.5-flash-lite | 0.9701 |
nextjs-vercel(技術記事・2,530文字)
| 順位 | モデル | スコア |
|---|---|---|
| 1 | gemini-3-flash-preview | 0.9915 |
| 2 | gemini-2.5-flash-lite | 0.9902 |
| 3 | gemini-2.5-flash | 0.9893 |
| 4 | gemini-3.1-flash-lite-preview | 0.9886 |
| 5 | claude-opus-4 (evaluate) | 0.9785 |
back-translation(翻訳解説記事・3,141文字)
| 順位 | モデル | スコア |
|---|---|---|
| 1 | gemini-2.5-flash-lite | 0.9870 |
| 2 | gemini-2.5-flash | 0.9851 |
| 3 | gemini-3.1-flash-lite-preview | 0.9838 |
| 4 | claude-opus-4 (evaluate) | 0.9834 |
| 5 | gemini-3-flash-preview | 0.9791 |
考察: 記事によって順位が入れ替わる
一番面白いのは、記事によってモデルの順位が変わることです。
- gemini-3-flash-preview は技術記事(nextjs-vercel)で 0.9915 と最高スコアを出しましたが、翻訳解説記事(back-translation)では 0.9791 で最下位でした。
- gemini-2.5-flash-lite は翻訳解説記事で 0.9870 のトップですが、短文(hello-world)では 0.9701 で最下位。
- gemini-2.5-flash は全記事で安定して上位(2〜3位)に入っている「安定型」。
つまり「このモデルが最強」とは一概に言えません。記事の内容(技術的な文章 vs 日常的な文章 vs 短文)によって、得意なモデルが変わるようです。
記事別の傾向仮説
| 記事の特徴 | 強かったモデル | 推測 |
|---|---|---|
| 技術記事(用語が明確) | gemini-3-flash-preview | 技術用語の一対一対応が得意? |
| 解説記事(論理展開が長い) | gemini-2.5-flash-lite | 文脈を保持した平易な翻訳が得意? |
| 短文(情報量が少ない) | gemini-3-flash-preview | 少ない文脈でも的確に訳せる? |
まだ3記事しかないので仮説の域を出ませんが、記事が増えれば「映画レビューは A モデル、技術記事は B モデル」のように使い分けられるかもしれません。
translate モードと evaluate モードのスコア差
少し注意が必要なのが、translate モードと evaluate モードではスコアの性質が異なる点です。
- translate モード: 同じモデルが「翻訳」と「再和訳」の両方を担当する。自分の訳し方のクセが往復で打ち消し合うため、スコアが高めに出やすい
- evaluate モード: 既存の英訳(Claude や手動で書いたもの)を Gemini が再和訳する。翻訳者と再和訳者が異なるため、スコアが低めに出る傾向がある
例えば、claude-opus-4 の evaluate スコア(0.9834, 0.9785)は、Gemini の translate スコアと単純比較すると低く見えますが、これは Claude の翻訳が「劣っている」ことを必ずしも意味しません。異なるモデル間の往復では、表現の選び方の違いがスコアに影響します。
公平な比較をするなら、全モデルを translate モード(自分で訳して自分で戻す)で揃えるか、全モデルを evaluate モード(同じ再和訳モデルで戻す)で揃えるのが理想です。
Embedding モデル比較: gemini-embedding-001 vs 002
翻訳モデルだけでなく、スコアを算出する「物差し」側も比較してみました。Google は現在2つの embedding モデルを提供しています。
| Embedding モデル | 次元数(縮小後) | RPD |
|---|---|---|
| gemini-embedding-001 | 768 | 1,000 |
| gemini-embedding-2-preview | 768 | 1,000 |
同じ翻訳モデル × 同じ記事の組み合わせで、embedding モデルだけを変えたスコアを比較します。
スコア比較表
| 記事 | 翻訳モデル | emb-1 | emb-2 | 差分 |
|---|---|---|---|---|
| hello-world | gemini-2.5-flash | 0.9795 | 0.9531 | -0.026 |
| hello-world | gemini-2.5-flash-lite | 0.9701 | 0.9698 | -0.000 |
| hello-world | gemini-3-flash-preview | 0.9836 | 0.9818 | -0.002 |
| hello-world | gemini-3.1-flash-lite-preview | 0.9823 | 0.9711 | -0.011 |
| nextjs-vercel | gemini-2.5-flash | 0.9893 | 0.9646 | -0.025 |
| nextjs-vercel | gemini-2.5-flash-lite | 0.9902 | 0.9457 | -0.045 |
| nextjs-vercel | gemini-3-flash-preview | 0.9915 | 0.9667 | -0.025 |
| nextjs-vercel | gemini-3.1-flash-lite-preview | 0.9886 | 0.9595 | -0.029 |
| back-translation | gemini-2.5-flash | 0.9851 | 0.9498 | -0.035 |
| back-translation | gemini-2.5-flash-lite | 0.9870 | 0.9376 | -0.049 |
| back-translation | gemini-3-flash-preview | 0.9791 | 0.9511 | -0.028 |
| back-translation | gemini-3.1-flash-lite-preview | 0.9838 | 0.9312 | -0.053 |
傾向
- emb-2 のスコアは全体的に 0.00〜0.05 低い。これは翻訳品質の差ではなく、embedding モデルのベクトル空間の特性の違いです
- emb-2 の方がテキスト間の微妙な違いに敏感(ベクトル空間がより広がっている)と考えられます
- ただし、モデル間の相対順位はおおむね一致。emb-1 で高スコアだったモデルは emb-2 でも高スコアの傾向がある
- 差分のばらつきが大きいのが興味深い点。gemini-3-flash-preview × hello-world は差分 -0.002 とほぼ同じですが、gemini-3.1-flash-lite-preview × back-translation は -0.053 と大きく開きます。記事の長さやモデルとの相性によって、embedding モデルの特性差の出方が変わるようです
どちらを「物差し」にすべきか
現時点では gemini-embedding-001 を引き続きメインの物差しとして使う方針です。理由は:
- 既存データとの互換性(emb-1 で蓄積したスコアと比較可能)
- 相対順位が変わらないなら、絶対値が高い方が直感的にわかりやすい
- emb-2 はまだ preview 版で、API 仕様が変わる可能性がある
ただし、emb-2 の方が「より厳密な物差し」である可能性もあるので、引き続き両方のデータを蓄積していく予定です。
まとめと今後
わかったこと
- 「最強の翻訳モデル」は存在しない — 記事の内容によって得意なモデルが変わる
- gemini-2.5-flash は安定型 — どの記事でも上位に入る。メインモデルとして妥当
- Embedding モデルの違いはスコアの絶対値に影響するが、相対順位は保たれる
- translate と evaluate のスコアは単純比較できない — モードを揃える必要がある
今後やりたいこと
- 記事数を増やして傾向を確認 — 3記事ではまだサンプル不足。ジャンル別の傾向が見えるか
- Groq(Llama 3)、DeepSeek の追加 — 無料で使える他社モデルとの比較
- 翻訳品質ダッシュボードの構築 — スコアをグラフで可視化して、誰でも見られるようにする
- ジャンル別のモデル自動選択 — 記事のタグに応じて最適なモデルを自動で選ぶ仕組み
この記事のデータは 2026-04-04 時点のものです。記事やモデルが増えれば結果も変わるため、定期的に更新していく予定です。