Sesameが対話音声モデルCSMをApache 2.0で1B版公開。Llama backbone+Mimi audio codec、Maya/Milesが500万分の対話実績。OpenAI Advanced Voice/ElevenLabs/Cartesiaに対する「OSS第三極」の意味を解説。
Cartesiaが$100M調達+Sonic-3公開で音声AIが90ms 42言語の新基準へ。ElevenLabs対抗の主役交代と、わたしたちへの影響を解説。
ElevenLabsが$500M調達で評価額$11B、IBM watsonx Orchestrateと統合し70言語の音声エージェント基盤化。AIUC-1認証で初の保険適用も。エンプラ電話業務AI化の現在地を解説。
Inworld AIが2026年Artificial Analysisで音声TTS#1ランクを獲得、サブ200ms低遅延でUbisoft/Xbox/Disney/Google/NVIDIA/Metaの標準採用へ。ゲームNPCのボイスアクター録音から動的AI生成への構造変化を解説。
Hume AI CEO Alan Cowen + 主要エンジニアがGoogle DeepMindのGemini音声チームに合流。買収じゃなくライセンス契約という新パターン。FTC回避の手口と、ユーザー体験への影響を解説。
Google Gemini 3.1 Flash LiveがWebSocket常時接続でリアルタイム音声AIの新基準を確立。90言語対応の音声エージェント革命を解説。