12月24日消息,節(jié)省近G計(jì)算交互阿里通義百聆家族近日開源新一代語音交互模型Fun-Audio-Chat-8B。通義
新模型兼具高智商和高情商,百聆具備出色的開源共情能力,與之對(duì)話,新代仿佛與懂你的語音人聊天。
在OpenAudioBench、模型VoiceBench、節(jié)省近G計(jì)算交互UltraEval-Audio、通義MMAU、百聆MMSU、開源SpeechFunctionCall等權(quán)威基準(zhǔn)測評(píng)中,新代Fun-Audio-Chat-8B斬獲SOTA,語音超過同量級(jí)開源模型。模型
目前,節(jié)省近G計(jì)算交互百聆家族成員包括“會(huì)說話”的語音轉(zhuǎn)文字模型Fun-ASR、“聽得懂”的文字轉(zhuǎn)語音模型Fun-CosyVoice3。
最新開源的模型Fun-Audio-Chat-8B主打語音對(duì)語音功能——“能聽會(huì)說”。
用戶可與模型音頻對(duì)話,適用于語音聊天、情感陪伴、智能設(shè)備和語音客服等多種場景。
無任何情緒標(biāo)簽或提示詞情況下,它能通過語義、語氣、語速、停頓、重音等細(xì)微信號(hào),感知對(duì)方的情緒狀態(tài),并給出恰到好處的關(guān)切、安慰或鼓勵(lì)式回應(yīng)。
此外,用戶可嘗試角色扮演,量身定制語音的情緒、說話風(fēng)格、語速、高低音和音量等。
而模型能保持“原有智商”,主要得益于兩個(gè)創(chuàng)新的音頻模型訓(xùn)練模式。
一是采用 Core-Cocktail兩階段訓(xùn)練策略,先快速學(xué)新本事,再把“新本事”和“老底子”融合起來,為了避免學(xué)新東西把原來的能力忘掉(災(zāi)難性遺忘),第一階段訓(xùn)練得到的模型和原始的純文本大模型參數(shù)合并后,再進(jìn)行微調(diào)。
二是與人類偏好對(duì)齊。通過多階段和多任務(wù)的后訓(xùn)練設(shè)計(jì),模型在真實(shí)對(duì)話場景中能更好地理解用戶語音內(nèi)容與情緒線索,作出更自然、更符合人類期望的回應(yīng)。
值得注意的是,新模型通過壓縮-自回歸-解壓縮的雙分辨率端到端設(shè)計(jì),音頻幀率降到業(yè)界最低的5Hz,在保證語音質(zhì)量的同時(shí)節(jié)省近50% GPU計(jì)算。
目前,用戶可在魔搭社區(qū)、HuggingFace和GitHub下載模型自行體驗(yàn)。
頂: 7踩: 9589
節(jié)省近50%GPU計(jì)算!通義百聆開源新一代語音交互模型
人參與 | 時(shí)間:2025-12-26 08:55:57
評(píng)論專區(qū)
相關(guān)文章
- 國臺(tái)辦就公安機(jī)關(guān)依法征集2名臺(tái)灣居民違法犯罪線索答問
- 二手豪車3年打5折 年輕人盯上了:十幾萬就能開上保時(shí)捷
- 劉國梁再獲國際乒聯(lián)第一副主席任命
- 延期也值得等:《GTA6》將在未來20年超越所有其他游戲!
- 美司法部:新發(fā)現(xiàn)超百萬份可能與愛潑斯坦案相關(guān)文件
- 國產(chǎn)大飛機(jī)出海 C919中東首秀
- 戶外博主徒手攀巖不慎墜亡 遺體被無人機(jī)運(yùn)下山
- 戶外博主徒手攀巖不慎墜亡 遺體被無人機(jī)運(yùn)下山
- 提前7天 比亞迪方程豹完成2025年銷量目標(biāo)!
- AMD 在 FAD 2025 公布消費(fèi)級(jí) GPU 技術(shù)路線圖





