Eleven v3: 話すだけじゃない、演じるんだ。

史上最も表現力豊かでリアルなAI音声モデル。Eleven v3は感情、割り込み、ニュアンスを理解し、70以上の言語で人間のようなパフォーマンスを実現します。

公式紹介

英語や中国語からシンハラ語やキルギス語まで、ネイティブのような音声で世界の視聴者に届けます。

割り込みや重なり合う発話を含む、自然な複数話者の会話を作成します。

[laughs]や[whispers]などのオーディオタグを使用して、AIのパフォーマンスを正確に指示します。

単一のテキストブロックから、一貫性のある複数役割の対話を自動的に生成します。

生き生きとした感情、トーン、効果音を注入します。簡単なオーディオタグで、声を[ささやき]から[叫び]に移行させ、[笑い]や思慮深い[ため息]さえも追加できます。真に没入感のあるオーディオ体験を創造します。

「彼女は部屋に入り、[ささやき声で] '秘密があります' と言った。そして、興奮を抑えきれずに [笑い] '勝ちました！' と言った。」

話者A: 「ローンチについて聞きましたか？」
話者B: 「v3のローンチ？もちろん！ちょうど今--」
話者A: 「これまでで最もリアルなモデルだそうです！」

ぎこちない、順番待ちのAI音声はもう忘れましょう。V3は、話者が割り込んだり、同時に話したり、リアルタイムで反応したりできる流動的な対話を生成し、人間の対話の自然な流れを完璧に模倣します。

この強力な新モードは、単一のテキストブロック内の異なる役割やトーンを自動的に検出し、それらをシームレスな対話に織り込みます。複雑なタギングやスクリプトは不要です。オーディオドラマ、ゲームキャラクター、ダイナミックな広告の読み上げに最適です。

スクリプトを貼り付けるだけで、AIがキャラクターをキャスティングし、シーンを監督し、完全に音声化された対話を生成します。

機能	Eleven v3 (Alpha)	Eleven Multilingual v2
主な焦点	ドラマチックな表現とパフォーマンス、感情の幅	リアルで安定した一貫性のある品質
言語	70+	29
表現力の制御	オーディオタグ（例：[laughs]）による全範囲の感情	基本的な制御（例：休止）
対話生成	ネイティブの複数話者＆テキストから対話へのAPI	可能だが、自然さに欠け、専用モードなし
最適用途	オーディオブック、キャラクターボイス、創造性の高いコンテンツ	長文ナレーション、企業ビデオ、多言語プロジェクト

Eleven v3のAPIが間もなく登場し、アプリケーション、ツール、クリエイティブプロジェクトで世界最先端の音声モデルへのプログラムアクセスを解放します。