您現在的位置是:焦點 >>正文
阿里兩款千問語音新模型齊發:動物也能“原聲”說人話了!
焦點58人已圍觀
簡介12月24日消息,阿里今日升級語音模型家族Qwen3-TTS,發布音色創造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC兩款全新模型。在生成效果上,全新模型的表現顯著超越GPT-4o。Qw ...
12月24日消息,原聲阿里今日升級語音模型家族Qwen3-TTS,阿里發布音色創造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC兩款全新模型。兩款
在生成效果上,千問全新模型的語音表現顯著超越GPT-4o。
Qwen3-TTS新模型可實現DIY聲音設計和像素級音色模仿,新模型齊甚至讓動物“原生”開口說人話。發動
其音色自然、物也效果穩定、人話生成高效,原聲可大大加速語音大模型在有聲小說、阿里AI漫劇、兩款影視配音等多專業領域落地。千問
其中,語音音色創造模型支持通過自然語言描述生成定制化的新模型齊音色形象,具有極強的可控生成能力。
在指令遵循評測InstructTTS-Eval中,Qwen3-TTS綜合表現顯著優于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同類模型。
在強調表達一致性與沉浸感的角色扮演測試中,模型整體效果超過Gemini-2.5-pro-preview-tts。
音色克隆模型則專注于“音色模仿”,僅需3秒的語音樣本,即可精準復刻原始聲線。
在MiniMax TTS Multilingual Test Set測試集中,Qwen3-TTS-VC顯示出其在多語言語音準確性與穩定性方面的優勢。
它的平均詞錯誤率(WER)指標上表現突出,整體結果全面優于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。
此外,Qwen3-TTS-VC 還可自動生成英文、德語、意大利語、葡萄牙語、西班牙語、日語、韓語、法語、俄語等9種語音。
值得注意的是,它連動物音色也能復刻,只需錄入家中寵物的原始聲音,就能用模型讓它“開口說人話”。
目前,兩款模型均在阿里云百煉平臺上架Flash版本API,響應速度極快,可完全滿足工業級語音合成需求。
千問語音生成模型系列Qwen3-TTS仍在不斷升級,目前可支持50種音色,10大主流語言和閩南語、吳語、粵語、四川話、北京話、南京話、天津話、陜西話等8大方言,可真實還原地方口音特色與語言神韻。
Tags:
相關文章
高端PC廠商CEO直呼內存短缺20年僅見!還將延續數年
焦點12月25日消息,近日,美國頂級定制電腦品牌Maingear的CEO Wallace Santos稱,當前的內存短缺是其職業生涯20多年來從未見過的極端狀況,且這一問題恐將演變為一場“跨年 ...
【焦點】
閱讀更多AI 接管一切 人還有用嗎 陳天橋:人將從“燃料”升級為“設計師”
焦點隨著 AI 越來越強大,很多職場人開始焦慮:我們會被取代嗎?盛大集團、天橋腦科學研究院創始人陳天橋在他的最新撰文《管理學的黃昏與智能的黎明》中,給出了一個充滿人文關懷且極具前瞻性的答案。他認為,人類確 ...
【焦點】
閱讀更多榮耀手機打通蘋果生態:已支持與iPhone通知共享
焦點12月10日消息,據榮耀MagicOS產品總監“靠譜貴哥”透露,榮耀手機與iPhone的通知共享已經在多機型上線,雙持用戶可實現跨設備消息提醒。目前已經支持短信、電話、微信、Q ...
【焦點】
閱讀更多