AI翻訳モデル比較: 往復翻訳スコアで見る Gemini ファミリーの実力

はじめに

前回の記事で紹介した往復翻訳の仕組みを使って、実際に複数の翻訳モデルを比較してみました。

このブログの記事3本を、Google Gemini ファミリー4モデル + Claude + 手動翻訳でそれぞれ翻訳し、往復翻訳スコア（cosine similarity）を算出した中間報告です。

対象モデル

モデル	特徴	無料枠 RPD
gemini-2.5-flash	メインモデル。バランス型	20
gemini-2.5-flash-lite	2.5 の軽量版	20
gemini-3-flash-preview	次世代モデル（プレビュー）	20
gemini-3.1-flash-lite-preview	3.1 の軽量版（プレビュー）	500
claude-opus-4	Anthropic の最上位モデル（既存英訳の evaluate）	-
manual	手動翻訳（既存英訳の evaluate）	-

「translate」モードは、指定モデルが自分で訳して自分で戻す方式。「evaluate」モードは、既存の英訳（Claude や手動で作成済み）を Gemini で再和訳してスコアを算出する方式です。この違いは後述します。

モデル別スコア一覧

Embedding モデルは全て gemini-embedding-001（768次元）に統一しています。

hello-world（短文・188文字）

順位	モデル	スコア
1	gemini-3-flash-preview	0.9836
2	gemini-3.1-flash-lite-preview	0.9823
3	gemini-2.5-flash	0.9795
4	manual (evaluate)	0.9712
5	gemini-2.5-flash-lite	0.9701

nextjs-vercel（技術記事・2,530文字）

順位	モデル	スコア
1	gemini-3-flash-preview	0.9915
2	gemini-2.5-flash-lite	0.9902
3	gemini-2.5-flash	0.9893
4	gemini-3.1-flash-lite-preview	0.9886
5	claude-opus-4 (evaluate)	0.9785

back-translation（翻訳解説記事・3,141文字）

順位	モデル	スコア
1	gemini-2.5-flash-lite	0.9870
2	gemini-2.5-flash	0.9851
3	gemini-3.1-flash-lite-preview	0.9838
4	claude-opus-4 (evaluate)	0.9834
5	gemini-3-flash-preview	0.9791

考察: 記事によって順位が入れ替わる

一番面白いのは、記事によってモデルの順位が変わることです。

gemini-3-flash-preview は技術記事（nextjs-vercel）で 0.9915 と最高スコアを出しましたが、翻訳解説記事（back-translation）では 0.9791 で最下位でした。
gemini-2.5-flash-lite は翻訳解説記事で 0.9870 のトップですが、短文（hello-world）では 0.9701 で最下位。
gemini-2.5-flash は全記事で安定して上位（2〜3位）に入っている「安定型」。

つまり「このモデルが最強」とは一概に言えません。記事の内容（技術的な文章 vs 日常的な文章 vs 短文）によって、得意なモデルが変わるようです。

記事別の傾向仮説

記事の特徴	強かったモデル	推測
技術記事（用語が明確）	gemini-3-flash-preview	技術用語の一対一対応が得意？
解説記事（論理展開が長い）	gemini-2.5-flash-lite	文脈を保持した平易な翻訳が得意？
短文（情報量が少ない）	gemini-3-flash-preview	少ない文脈でも的確に訳せる？

まだ3記事しかないので仮説の域を出ませんが、記事が増えれば「映画レビューは A モデル、技術記事は B モデル」のように使い分けられるかもしれません。

translate モードと evaluate モードのスコア差

少し注意が必要なのが、translate モードと evaluate モードではスコアの性質が異なる点です。

translate モード: 同じモデルが「翻訳」と「再和訳」の両方を担当する。自分の訳し方のクセが往復で打ち消し合うため、スコアが高めに出やすい
evaluate モード: 既存の英訳（Claude や手動で書いたもの）を Gemini が再和訳する。翻訳者と再和訳者が異なるため、スコアが低めに出る傾向がある

例えば、claude-opus-4 の evaluate スコア（0.9834, 0.9785）は、Gemini の translate スコアと単純比較すると低く見えますが、これは Claude の翻訳が「劣っている」ことを必ずしも意味しません。異なるモデル間の往復では、表現の選び方の違いがスコアに影響します。

公平な比較をするなら、全モデルを translate モード（自分で訳して自分で戻す）で揃えるか、全モデルを evaluate モード（同じ再和訳モデルで戻す）で揃えるのが理想です。

Embedding モデル比較: gemini-embedding-001 vs 002

翻訳モデルだけでなく、スコアを算出する「物差し」側も比較してみました。Google は現在2つの embedding モデルを提供しています。

Embedding モデル	次元数（縮小後）	RPD
gemini-embedding-001	768	1,000
gemini-embedding-2-preview	768	1,000

同じ翻訳モデル × 同じ記事の組み合わせで、embedding モデルだけを変えたスコアを比較します。

スコア比較表

記事	翻訳モデル	emb-1	emb-2	差分
hello-world	gemini-2.5-flash	0.9795	0.9531	-0.026
hello-world	gemini-2.5-flash-lite	0.9701	0.9698	-0.000
hello-world	gemini-3-flash-preview	0.9836	0.9818	-0.002
hello-world	gemini-3.1-flash-lite-preview	0.9823	0.9711	-0.011
nextjs-vercel	gemini-2.5-flash	0.9893	0.9646	-0.025
nextjs-vercel	gemini-2.5-flash-lite	0.9902	0.9457	-0.045
nextjs-vercel	gemini-3-flash-preview	0.9915	0.9667	-0.025
nextjs-vercel	gemini-3.1-flash-lite-preview	0.9886	0.9595	-0.029
back-translation	gemini-2.5-flash	0.9851	0.9498	-0.035
back-translation	gemini-2.5-flash-lite	0.9870	0.9376	-0.049
back-translation	gemini-3-flash-preview	0.9791	0.9511	-0.028
back-translation	gemini-3.1-flash-lite-preview	0.9838	0.9312	-0.053

傾向

emb-2 のスコアは全体的に 0.00〜0.05 低い。これは翻訳品質の差ではなく、embedding モデルのベクトル空間の特性の違いです
emb-2 の方がテキスト間の微妙な違いに敏感（ベクトル空間がより広がっている）と考えられます
ただし、モデル間の相対順位はおおむね一致。emb-1 で高スコアだったモデルは emb-2 でも高スコアの傾向がある
差分のばらつきが大きいのが興味深い点。gemini-3-flash-preview × hello-world は差分 -0.002 とほぼ同じですが、gemini-3.1-flash-lite-preview × back-translation は -0.053 と大きく開きます。記事の長さやモデルとの相性によって、embedding モデルの特性差の出方が変わるようです

どちらを「物差し」にすべきか

現時点では gemini-embedding-001 を引き続きメインの物差しとして使う方針です。理由は:

既存データとの互換性（emb-1 で蓄積したスコアと比較可能）
相対順位が変わらないなら、絶対値が高い方が直感的にわかりやすい
emb-2 はまだ preview 版で、API 仕様が変わる可能性がある

ただし、emb-2 の方が「より厳密な物差し」である可能性もあるので、引き続き両方のデータを蓄積していく予定です。

まとめと今後

わかったこと

「最強の翻訳モデル」は存在しない — 記事の内容によって得意なモデルが変わる
gemini-2.5-flash は安定型 — どの記事でも上位に入る。メインモデルとして妥当
Embedding モデルの違いはスコアの絶対値に影響するが、相対順位は保たれる
translate と evaluate のスコアは単純比較できない — モードを揃える必要がある

今後やりたいこと

記事数を増やして傾向を確認 — 3記事ではまだサンプル不足。ジャンル別の傾向が見えるか
Groq（Llama 3）、DeepSeek の追加 — 無料で使える他社モデルとの比較
翻訳品質ダッシュボードの構築 — スコアをグラフで可視化して、誰でも見られるようにする
ジャンル別のモデル自動選択 — 記事のタグに応じて最適なモデルを自動で選ぶ仕組み

この記事のデータは 2026-04-04 時点のものです。記事やモデルが増えれば結果も変わるため、定期的に更新していく予定です。

往復翻訳の仕組みについてはこちらの記事、ブログの技術スタックについてはこちらの記事で紹介しています。