⚡ AIが文章を「描く」時代へ?|DiffusionGemmaが示すローカルAIの次のかたち

アイ
目次
読者が自分ごとに感じる結論フック
2026年6月、Google DeepMindが「DiffusionGemma」という、ちょっと変わったAIモデルを公開したんだよね。正直おもしろい。
何が変わってるかというと、文章をつくる「仕組み」そのものが今までと違うの。しかもこれ、特別なデータセンターじゃなくて、ゲーム用のグラフィックボードが入ったパソコンで、それなりに速く動く。
つまり、クラウドに何も送らずに、自分の手元のマシンだけでサクッと文章を生成できる未来が、ちょっと近づいたってこと。プライバシーが守られて、利用料もかからなくて、しかも反応が速い。これって、わたしたち普通のユーザーにとってわりと大きい話だと思う。
むずかしそうだけど要するに、「AIを自分のパソコンで、無料で、待たされずに使う」という選択肢が、また一歩進んだんだよね。
しかもこのモデル、Apache 2.0という自由なライセンスでHugging Faceに公開されてる。だれでもダウンロードして使える、いわゆる「オープンモデル」なの。Googleみたいな大手が、最先端の研究成果をこうやって誰にでも開いてくれるのは、わたしたちユーザーからすると素直にありがたい流れだと思う。
そう考える3つの理由
理由①:拡散という「別方式」が文章生成にやってきた
まず一番おもしろいのが、DiffusionGemmaが文章をつくる方法。これが従来のAIとぜんぜん違うの。
今までの文章AI(ChatGPTやふつうのGemmaも含む)は、「自己回帰」っていう方式で動いてる。これは要するに、左から右へ、単語を一個ずつ順番に予想して並べていくやり方。「今日は」の次は「いい」、その次は「天気」…みたいに、前の言葉を見ながら一語ずつ足していくイメージだね。ちなみにここで言う「トークン」っていうのは、AIが文章を扱うときの最小の単位(だいたい単語のかけらくらい)のことだよ。
一方でDiffusionGemmaは「拡散(diffusion)」という方式を使ってる。これはもともと画像生成AIで有名になった考え方なんだよね。ノイズだらけのぼやけた状態から、だんだんノイズを取り除いて(denoising)くっきりした絵を浮かび上がらせる、あの仕組み。それを文章でやろうとしてるの。
具体的には、256トークンぶんのブロックをまるごと用意して、それを一気に、並行して何度も磨き上げていく。一語ずつではなく、文章全体を同時にいじりながら整えていくイメージだね。しかも前後どちらの文脈も同時に見る「双方向」のやり方だから、後ろの言葉を踏まえて前を直す、なんてこともできる。
この「一気に並列で生成する」というのが速度に効いてくるの。Googleの発表によると、DiffusionGemmaはH100というデータセンター用GPUで毎秒1,000トークン超、しかもゲーミング向けのRTX 5090でも毎秒700トークン超という速さを出してる(Google公式ブログ)。
なぜ並列だと速くなるのか、もう少しかみくだくね。自己回帰方式だと、一語を決めないと次の一語に進めない。前の答えが出るのを待って、また次、また次…という「順番待ち」がずっと続くの。文章が長くなるほど、その待ち時間が積み重なって遅くなる。一方で拡散方式は、ブロック全体をまとめて何度も磨くから、一語ごとの順番待ちが減る。だから長い文章になるほど、この方式の速さが効いてくるんだよね。
もちろん、いいことばかりじゃないのも事実。全体を同時に磨くやり方は、文章のつじつまを一発できれいに合わせるのがむずかしかったり、磨く回数を増やすほど計算が重くなったりする。だから「速いけど調整が要る」方式でもあるの。それでもGoogleがこれを実際に動くモデルとして出してきたのは、拡散方式の手応えがそれなりにあったってことだと思う。
わたしの見方だと、これは「文章をつくる」という行為のイメージが、一文字ずつ書く「タイピング」から、全体をいっぺんに「描く」ことに近づいた感じ。だから記事タイトルにも「描く」って入れたんだよね。発想として、ほんと新鮮だと思う。
画像生成AIが数年でものすごく進化したのを思い出すと、同じ拡散の発想が文章でも育っていったらどうなるんだろう、ってワクワクするよね。まだ生まれたての方式だからこそ、これからの伸びしろが大きいと思ってる。
理由②:ゲーミングGPUで無料ローカル動作する意味
次に大事なのが、「どこで動かせるか」という話。ここがわたしたちの生活にいちばん近いところだと思う。
DiffusionGemmaは、パラメータ数でいうと26B(260億)の「MoE」モデル。MoEというのは「Mixture of Experts(専門家の混合)」の略で、要するにモデルの中にたくさんの小さな専門家がいて、質問ごとに必要な専門家だけを呼び出す仕組みのこと。だから全部で26Bあっても、実際に一回の推論で動くのは3.8Bぶんだけ。全員を毎回フル稼働させないから、軽くて速いんだよね。
さらに「量子化」という処理を組み合わせると、必要なVRAM(グラフィックボードに載っているメモリ)が約18GBまで圧縮される。量子化っていうのは、モデルの中の数値をざっくり丸めて軽くするテクニックのこと。多少のせいかくさを犠牲にして、サイズと速度をかせぐ手法だね。
18GBというラインがけっこう絶妙で、ハイエンドのゲーミングGPUなら手が届く範囲なの。だからGoogleも「RTX 5090で毎秒700トークン超」とわざわざ示してる(Google公式ブログ)。データセンターじゃなくて、ゲーマーの机の上にあるようなマシンを想定してるってことだよね。
しかもこのモデル、Apache 2.0というライセンスでHugging Faceに公開されてる。Apache 2.0っていうのは、かなりゆるくて商用利用もOKな自由なライセンス。だれでもダウンロードして、自分のマシンで動かして、サービスに組み込んでもいい。つまり「オープンモデル」なんだよね。
これが何を意味するかというと、クラウドのAPIに毎回お金を払って、自分の入力データを外部に送る、という今の当たり前が崩れる可能性があるってこと。手元で動けば、利用料はかからないし(電気代は別だけど)、入力した文章がどこかのサーバーに送られる心配もない。プライバシーの面でも安心だよね。
このローカル動作のうれしさって、地味だけどけっこう深いの。たとえば仕事の機密メモや、人に見られたくない下書きをAIに整えてもらいたいとき。クラウドのサービスだと「これ送って大丈夫かな」って一瞬ためらうよね。でも手元のマシンで完結するなら、そのモヤモヤがまるごと消える。ネットがつながってない場所でも使えるし、サービスの値上げや終了に振り回されることもない。自分のAIを自分で持つ、という感覚に近いんだよね。
それに「オープン」であることの価値も大きいと思う。中身が公開されているから、開発者が自由に改造したり、別の用途に合わせて調整したりできる。誰か一社が握っている閉じたAPIだけに頼る世界と比べて、選択肢の幅がぜんぜん違うの。DiffusionGemmaみたいに速くて軽いオープンモデルが増えるほど、AIが特定の大企業の独占物じゃなくなっていく。これって、けっこう健全な方向だと思う。
わたしとしては、「速い・無料・手元で完結」という3点が同時にそろう方向にAIが進んでるのが、いちばんワクワクするポイント。とくに反応の速さは、対話的に使うとき(チャットでパッと返事がほしいとき)に体感がぜんぜん違うはずだから。
毎秒700トークンって、ちょっとピンと来ないかもしれないけど、体感としてはほぼ待ち時間ゼロ。日本語の文章なら、長めの段落が一瞬で出てくるくらいの速さなの。AIに何か頼んで、くるくる読み込み中…を待つあのストレスがなくなると考えると、地味だけど毎日のうれしさはけっこう大きいと思うんだよね。
理由③:精度は低い、つまり「用途を選ぶ実験段階」
ただ、いいことばかりじゃないんだよね。ここはちゃんと書いておきたい。
DiffusionGemmaは速さと引き換えに、精度をけっこう犠牲にしてる。Google自身が、このモデルは標準のGemma 4と比べて、MMLU(はばひろい知識を問うベンチマーク)やコーディングの評価で「下回る」とはっきり認めてるの(Google公式ブログ)。
つまり、難しい推論問題をきっちり解いたり、正確なプログラムを書いたり、という用途では、まだ従来の自己回帰モデルのほうが信頼できる。速いからといって万能ではないんだよね。
実際Googleも、これを「実験的(experimental)」なモデルだと位置づけてる。本命の高精度モデルを置き換えるものではなくて、「速さが命の場面」「対話的に使うローカルのワークフロー」向けの選択肢、という打ち出し方なの。むずかしそうだけど要するに、「正確さよりスピードと手軽さがほしい場面のための道具」だと考えるとしっくりくる。
これはわたし的にはむしろ誠実だなと思った。ベンチマークで一番を取れないモデルを、「弱点もあるけど別の強みがある実験」として正直に出してくるのは、健全な進め方だよね。拡散方式の文章生成はまだ若い技術だから、ここから精度が伸びていく余地もたっぷりある。
だから使いどころとしては、たとえばメモの下書き、アイデア出し、その場でサッと欲しい返答、リアルタイムのアシスト機能みたいな、「多少ラフでもいいから速くてローカルで完結してほしい」用途がハマると思う。逆に、契約書のチェックや本番コードの生成みたいに正確さが命の場面では、今はまだ無理しないほうがいい。
ここで一つ気をつけたいのは、「実験段階だから様子見しよう」と全部スルーするのも、ちょっともったいないってこと。新しい方式って、早めに触っておくと、できることとできないことの肌感覚がつかめるんだよね。オープンで無料なんだから、興味があるなら手元で試して「あ、これくらいの用途なら全然いける」「ここはまだ厳しいな」と自分で確かめるのが一番だと思う。リスクなく試せるのが、オープンモデルのいいところだからね。
考えてみると、画像生成AIの拡散モデルも、最初は手の指が6本になったり、変な絵をいっぱい出してたよね。でも数年でびっくりするくらい上手くなった。文章の拡散方式も、たぶん今はその「指が6本」みたいな段階なんだと思う。だから今の精度だけを見て「使えない」と切り捨てるのはもったいない、というのがわたしの感覚。
それと、精度が「低い」といっても、用途によっては全然問題にならないことも多いんだよね。たとえば思いついたことをとりあえず文章にしてもらう、要点をざっくりまとめる、入力補助として候補を出す、みたいな場面では、完璧さより速さと手軽さのほうが効いてくる。難しい試験問題を解かせるわけじゃないなら、MMLUのスコアが多少低くても困らないことは意外と多いの。
大事なのは「どの道具を、どの場面で使うか」を自分で選べるようになること。速さがほしいときはDiffusionGemmaみたいな拡散型、正確さがほしいときは従来の自己回帰型、というふうに。一つのモデルに全部やらせるんじゃなくて、適材適所で組み合わせる発想がこれから当たり前になっていくと思うんだよね。
技術って、こういう「方式の選択肢が増える」段階を経て成熟していくものだよね。速い拡散型と、正確な自己回帰型。場面に応じて使い分けられるようになるなら、それは普通に進歩だと思う。
まとめ:速さと正確さのあいだで、AIの選択肢が増えていく
DiffusionGemmaがおもしろいのは、「文章を一語ずつ書く」のが当たり前だったAIの世界に、「全体をいっぺんに描く」拡散という別ルートを持ち込んだこと。しかもそれを、ゲーミングGPUで動くオープンモデルとして、無料で誰にでも開放したこと。速さ・プライバシー・コストの面で、わたしたちの手元にAIが近づく流れを、また一歩進めたと思う。
いっぽうで、精度は標準のGemma 4に届いていなくて、Google自身が実験段階だと認めてる。だからこれは「速いけど用途を選ぶ道具」。万能の置き換えではなく、速さと正確さのあいだで選択肢が一つ増えた、という受け止め方がちょうどいいんだよね。
それでも、こういう新しい方式が実際に動いて公開されること自体に意味があると思う。ここから精度が育てば、「速い・無料・手元で完結」がもっと当たり前になる未来も見えてくる。わたしは、その方向に進むAIをけっこう楽しみにしてるよ。
関連記事: AI業界の最新動向まとめ
ソース: