|
|
9 月 23 日消息,阿里云正式發(fā)布并開源 Qwen3-Omni、Qwen3-TTS 和 Qwen-Image-Edit-2509。其中,Qwen3-Omni 被稱為業(yè)界首個(gè) 端到端全模態(tài) AI 模型,具備處理文本、圖像、音頻和視頻的能力,標(biāo)志著多模態(tài)大模型進(jìn)入全新階段。
Qwen3-Omni:首個(gè)原生全模態(tài) AI 開源模型
68747470733a2f2f7169616e77656e2d7265732e6f73732d636e2d6265696a696e672e616c697975.jpg (470.95 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni
2025-9-23 09:59 上傳
作為阿里云的核心亮點(diǎn),Qwen3-Omni 具備以下特性:
跨模態(tài)頂級(jí)表現(xiàn):結(jié)合文本預(yù)訓(xùn)練與混合多模態(tài)訓(xùn)練,保持文本和圖像性能領(lǐng)先,同時(shí)大幅提升音頻與視頻能力。在 36 項(xiàng)音頻/視頻基準(zhǔn)測(cè)試中,22 項(xiàng)達(dá)到最新水平,32 項(xiàng)在開源模型中處于領(lǐng)先。
多語(yǔ)言支持:覆蓋 119 種文本語(yǔ)言、19 種語(yǔ)音輸入語(yǔ)言、10 種語(yǔ)音輸出語(yǔ)言,包括中文、英語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、俄語(yǔ)等。
創(chuàng)新架構(gòu):基于 MoE(專家混合)的“思考者–表達(dá)者”設(shè)計(jì),結(jié)合 AuT 預(yù)訓(xùn)練和多碼本架構(gòu),延遲更低。
實(shí)時(shí)音頻/視頻交互:支持低延遲流式對(duì)話,實(shí)現(xiàn)自然輪流發(fā)言和即時(shí)語(yǔ)音、文本響應(yīng)。
精細(xì)音頻描述:開源了 Qwen3-Omni-30B-A3B-Captioner,填補(bǔ)了開源社區(qū)音頻描述領(lǐng)域的空白。
憑借這些能力,Qwen3-Omni 被認(rèn)為在 ASR、語(yǔ)音對(duì)話、多模態(tài)理解等方面已能與 Gemini 2.5 Pro 對(duì)標(biāo)。
Qwen3-TTS:多語(yǔ)言多音色文本轉(zhuǎn)語(yǔ)音
8248f98b-2c2d-4ff5-a8eb-06493b4dc5b1.jpg (238.71 KB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni
2025-9-23 09:59 上傳
與此同時(shí),阿里云還發(fā)布了 Qwen3-TTS,支持 17 種音色 和 10 種語(yǔ)言,不僅涵蓋普通話、英語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)、俄語(yǔ)等,還覆蓋閩南語(yǔ)、粵語(yǔ)、吳語(yǔ)、四川話等多種方言。
其升級(jí)版 Qwen3-TTS-Flash 在語(yǔ)音穩(wěn)定性與音色相似度上超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,成為新的開源 TTS 標(biāo)桿。
Qwen-Image-Edit-2509:圖像編輯一致性提升
edit2509_top.jpg (1.4 MB, 下載次數(shù): 7)
下載附件
保存到相冊(cè)
阿里通義開源發(fā)布全球首個(gè)端到端全模態(tài)AI模型Qwen3-Omni
2025-9-23 09:58 上傳
在圖像領(lǐng)域,阿里云同步推出了 Qwen-Image-Edit-2509。相較于 8 月版本,該模型在多圖像與單圖像一致性上均有明顯提升:
多圖像編輯:支持人像與人像、人像與產(chǎn)品、人像與場(chǎng)景的組合編輯;
人像一致性優(yōu)化:更好保留面部身份,適應(yīng)不同風(fēng)格與姿勢(shì);
產(chǎn)品與文字編輯增強(qiáng):不僅能修改文字,還能調(diào)整字體、顏色和材質(zhì);
原生支持 ControlNet:包括深度圖、邊緣圖和關(guān)鍵點(diǎn)圖。
隨著阿里云持續(xù)迭代 Qwen 系列模型,未來(lái) AI 技術(shù)在文本生成、語(yǔ)音交互、圖像處理、視頻理解等方面的應(yīng)用將更加廣泛。如果你對(duì)多模態(tài) AI、語(yǔ)音合成或圖像編輯感興趣,不妨深入了解并嘗試這些最新開源工具。
|
上一篇: 文件批量重命名工具推薦:zRenamer v1.6.2 批量改名更高效下一篇: znds解綁手機(jī)號(hào)
|