阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni

VR三千世界 · 發(fā)表于 2025-9-23 10:00

9 月 23 日消息，阿里云正式發(fā)布并開源 Qwen3-Omni、Qwen3-TTS 和 Qwen-Image-Edit-2509。其中，Qwen3-Omni 被稱為業(yè)界首個(gè) 端到端全模態(tài) AI 模型，具備處理文本、圖像、音頻和視頻的能力，標(biāo)志著多模態(tài)大模型進(jìn)入全新階段。

Qwen3-Omni：首個(gè)原生全模態(tài) AI 開源模型

阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni

作為阿里云的核心亮點(diǎn)，Qwen3-Omni 具備以下特性：

跨模態(tài)頂級(jí)表現(xiàn)：結(jié)合文本預(yù)訓(xùn)練與混合多模態(tài)訓(xùn)練，保持文本和圖像性能領(lǐng)先，同時(shí)大幅提升音頻與視頻能力。在 36 項(xiàng)音頻/視頻基準(zhǔn)測(cè)試中，22 項(xiàng)達(dá)到最新水平，32 項(xiàng)在開源模型中處于領(lǐng)先。

多語(yǔ)言支持：覆蓋 119 種文本語(yǔ)言、19 種語(yǔ)音輸入語(yǔ)言、10 種語(yǔ)音輸出語(yǔ)言，包括中文、英語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、俄語(yǔ)等。

創(chuàng)新架構(gòu)：基于 MoE（專家混合）的“思考者–表達(dá)者”設(shè)計(jì)，結(jié)合 AuT 預(yù)訓(xùn)練和多碼本架構(gòu)，延遲更低。

實(shí)時(shí)音頻/視頻交互：支持低延遲流式對(duì)話，實(shí)現(xiàn)自然輪流發(fā)言和即時(shí)語(yǔ)音、文本響應(yīng)。

精細(xì)音頻描述：開源了 Qwen3-Omni-30B-A3B-Captioner，填補(bǔ)了開源社區(qū)音頻描述領(lǐng)域的空白。

憑借這些能力，Qwen3-Omni 被認(rèn)為在 ASR、語(yǔ)音對(duì)話、多模態(tài)理解等方面已能與 Gemini 2.5 Pro 對(duì)標(biāo)。

Qwen3-TTS：多語(yǔ)言多音色文本轉(zhuǎn)語(yǔ)音

與此同時(shí)，阿里云還發(fā)布了 Qwen3-TTS，支持 17 種音色和 10 種語(yǔ)言，不僅涵蓋普通話、英語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)、俄語(yǔ)等，還覆蓋閩南語(yǔ)、粵語(yǔ)、吳語(yǔ)、四川話等多種方言。

其升級(jí)版 Qwen3-TTS-Flash 在語(yǔ)音穩(wěn)定性與音色相似度上超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs，成為新的開源 TTS 標(biāo)桿。

Qwen-Image-Edit-2509：圖像編輯一致性提升

在圖像領(lǐng)域，阿里云同步推出了 Qwen-Image-Edit-2509。相較于 8 月版本，該模型在多圖像與單圖像一致性上均有明顯提升：

多圖像編輯：支持人像與人像、人像與產(chǎn)品、人像與場(chǎng)景的組合編輯；

人像一致性優(yōu)化：更好保留面部身份，適應(yīng)不同風(fēng)格與姿勢(shì)；

產(chǎn)品與文字編輯增強(qiáng)：不僅能修改文字，還能調(diào)整字體、顏色和材質(zhì)；

原生支持 ControlNet：包括深度圖、邊緣圖和關(guān)鍵點(diǎn)圖。

隨著阿里云持續(xù)迭代 Qwen 系列模型，未來(lái) AI 技術(shù)在文本生成、語(yǔ)音交互、圖像處理、視頻理解等方面的應(yīng)用將更加廣泛。如果你對(duì)多模態(tài) AI、語(yǔ)音合成或圖像編輯感興趣，不妨深入了解并嘗試這些最新開源工具。

啵咯波咯噠 · 發(fā)表于 2025-9-23 10:03

阿里現(xiàn)在真是ai界的開源皇帝了，牛哇牛哇

› 綜合交流 / 資源分享區(qū) › 綜合交流大區(qū)

阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni ...

阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni

相關(guān)帖子

站長(zhǎng)推薦 /1