AI Today
ホーム > カテゴリ > Voice AI

Voice AI

考察記事

sesamevoice-aiオープンソースcsmconversational-ai

🎙️ 音声AIにOSSの選択肢ができた|SesameのCSM Apache 2.0公開がもたらす対話音声の民主化

Sesameが対話音声モデルCSMをApache 2.0で1B版公開。Llama backbone+Mimi audio codec、Maya/Milesが500万分の対話実績。OpenAI Advanced Voice/ElevenLabs/Cartesiaに対する「OSS第三極」の意味を解説。

cartesiavoice-aisonic-3elevenlabstts

🎙️ AI音声、もう人間と区別つかないかも|Cartesia Sonic-3が42言語90msで業界標準を塗り替えた話

Cartesiaが$100M調達+Sonic-3公開で音声AIが90ms 42言語の新基準へ。ElevenLabs対抗の主役交代と、わたしたちへの影響を解説。

elevenlabsvoice-aiibm-watsonx企業向けAI

🎙️ ElevenLabs $11B+IBM統合|音声AIがエンプラ標準になった日

ElevenLabsが$500M調達で評価額$11B、IBM watsonx Orchestrateと統合し70言語の音声エージェント基盤化。AIUC-1認証で初の保険適用も。エンプラ電話業務AI化の現在地を解説。

inworldvoice-aigamingnpc

🎮 Inworld AI #1音声TTS|AAAゲームのNPC音声がついにAIに置き換わる

Inworld AIが2026年Artificial Analysisで音声TTS#1ランクを獲得、サブ200ms低遅延でUbisoft/Xbox/Disney/Google/NVIDIA/Metaの標準採用へ。ゲームNPCのボイスアクター録音から動的AI生成への構造変化を解説。

hume-aiGoogledeepmindvoice-aiGeminiacqui-hire

🎙️ Hume AIのコアチームがGoogle移籍って、Geminiの声がどれくらい人間っぽくなる?|ライセンス型acqui-hireの構造

Hume AI CEO Alan Cowen + 主要エンジニアがGoogle DeepMindのGemini音声チームに合流。買収じゃなくライセンス契約という新パターン。FTC回避の手口と、ユーザー体験への影響を解説。

GoogleGeminivoice-aireal-timeagent

🎙️ Gemini Flash Liveで音声AIが変わる|リアルタイム会話の新時代が始まった

Google Gemini 3.1 Flash LiveがWebSocket常時接続でリアルタイム音声AIの新基準を確立。90言語対応の音声エージェント革命を解説。