9月24日,2025年云棲大會開幕,阿里巴巴發(fā)布通義全模態(tài)預訓練大模型Qwen3-Omni系列模型。通過引入多種架構升級和技術迭代,Qwen3-Omni系列的模型表現(xiàn)和效率大幅提升。在36個音視頻基準測試中,22項達到SOTA水平,其中32項取得開源模型最佳效果。語音識別、音頻理解與語音對話能力可比肩Gemini 2.5-Pro。
作為全模態(tài)模型,Qwen3-Omni能夠?qū)崿F(xiàn)全模態(tài)輸入和全模態(tài)輸出。類似于人類嬰兒一出生就全方位感知世界,Qwen3-Omni一開始就加入了“聽”“說”“寫”多模態(tài)混合訓練。在預訓練過程中,Qwen3-Omni采用了混合單模態(tài)和跨模態(tài)數(shù)據(jù)。此前,模型在混合訓練后,各個功能會相互掣肘甚至降智,比如音頻理解能力提升,文字理解能力反而降低了。但Qwen3-Omni在實現(xiàn)強勁音頻與音視頻能力的同時,單模態(tài)文本與圖像性能均保持穩(wěn)定,這是業(yè)內(nèi)首次實現(xiàn)這一訓練效果。
Qwen3-Omni的優(yōu)異表現(xiàn)源于多種架構升級。Qwen2.5-Omni采用了雙核架構Thinker-Talker,讓大模型擁有了人類的“大腦”和“發(fā)聲器”。Qwen3-Omni的Thinker-Talker架構進一步加強,結合AuT預訓練構建強通用表征,配合多碼本設計,響應延遲壓縮至最低。相較于半年前推出的Qwen2.5-Omni,Qwen3-Omni的交互速度更快,純模型端到端音頻對話延遲低至211ms,視頻對話延遲低至507ms;支持的語言更多,包括19種語言音頻輸入、10種語言輸出。
作為一款“會說話”的模型,Qwen3-Omni應用場景廣泛,未來可部署于車載、智能眼鏡和手機等。用戶還可設定個性化角色、調(diào)整對話風格,打造專屬的個人IP。相較于傳統(tǒng)的錄音轉(zhuǎn)文字軟件,Qwen3-Omni能夠處理長達30分鐘的音頻文件,無需切割音頻,即可精準識別語音、深度理解內(nèi)容。
目前,Qwen3-Omni系列已開源三款模型:Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和Qwen3-Omni-30B-A3B-Captioner,值得關注的是,擅長音頻描述的模型Qwen3-Omni-30B-A3B-Captioner為全球首次開源的通用音頻caption模型,可以清晰描述用戶輸入音頻的特征,填補了開源社區(qū)空白。
Qwen3-Omni現(xiàn)已在Hugging Face和ModelScope上開放,用戶可訪問Qwen Chat免費體驗Qwen3-Omni-Flash。

友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2025 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業(yè)務經(jīng)營許可證060344號主辦單位:《中國高新技術產(chǎn)業(yè)導報》社有限責任公司