Googleは、テキスト生成に異例のアプローチを用い、このクラスの従来型AIモデルと比較して最大4倍高速に動作可能な実験的言語モデルDiffusionGemmaのリリースを発表した。このプロジェクトはオープンソースライセンスApache 2.0の下で配布され、研究者や開発者を対象としている。
ChatGPTなどを含む最新AIの大半は、単語を1語ずつ順次生成してテキストを作成する。DiffusionGemmaにおいて、Googleは異なる道を選んだ。このモデルは単語ではなく、ランダムなトークンのセットを用いてテキストブロックを生成する。その後、モデルは数回のパスをかけて、得られた判読不可能なテキストを通常の状態にまで仕上げる。この原理は、最初にノイズの多いキャンバスを作成し、それを段階的に改善する画像生成AIの仕組みにやや似ている。
DiffusionGemmaの実用的価値は、動作速度が大幅に高い点にある。Googleのデータによると、このモデルはサーバー向けアクセラレーターNVIDIA H100で毎秒1000トークン以上、GeForce RTX 5090クラスのビデオカードで毎秒700トークン以上を出力できる。モデルは260億のパラメータを扱うが、Mixture of Experts(MoE)アーキテクチャにより、実際に同時使用されるのは38億のみである。このニューラルネットワークの動作には、最低18GBのビデオメモリが必要となる。
Googleは、回答の品質においてDiffusionGemmaは通常のテキストモデルGemma 4にまだ劣るものの、推論速度ははるかに高いと指摘している。精度がまだ十分に高くないため、DiffusionGemmaは現在実験段階にある。
このプロジェクトの主な目的は、将来のAIモデルにとって拡散アプローチが有望であることを示すことだ。Googleは将来的に、推論速度が生成品質と同様に重要なパラメータになると考えている。
2026-06-11 19:29:41
著者: Vitalii Babkin
ソース URL