首頁(yè) 正文

最強(qiáng)視覺(jué)理解模型Qwen3-VL發(fā)布，32項(xiàng)評(píng)測(cè)超過(guò)Gemini2.5-Pro和GPT5

2025-09-24 16:46:40: 來(lái)源：中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)　作者：張偉
分享到：

9月24日的2025云棲大會(huì)上，阿里開(kāi)源新一代視覺(jué)理解模型Qwen3-VL。該模型在視覺(jué)感知和多模態(tài)推理方面實(shí)現(xiàn)重大突破，在32項(xiàng)核心能力測(cè)評(píng)中超過(guò)Gemini2.5-Pro和GPT-5。同時(shí)，Qwen3-VL大幅提升了視覺(jué)Agent、視覺(jué)編程和空間感知等關(guān)鍵能力，不但可調(diào)用摳圖、搜索等工具完成“帶圖推理”，也可以憑借一張?jiān)O(shè)計(jì)草圖或一段小游戲視頻直接“視覺(jué)編程”，“所見(jiàn)即所得”地復(fù)刻圖表、網(wǎng)頁(yè)和復(fù)雜程序。

本次開(kāi)源的是旗艦版Qwen3-VL-235B-A22B，有開(kāi)源指令（Instruct）模型和推理（Thinking）模型兩大版本。Qwen3-VL展現(xiàn)了在復(fù)雜視覺(jué)任務(wù)中的強(qiáng)大泛化能力與綜合性能，在邏輯謎題、通用視覺(jué)問(wèn)答、多語(yǔ)言文本識(shí)別與圖表文檔解析、二維與三維目標(biāo)定位、具身與空間感知、視頻理解等32項(xiàng)具體測(cè)評(píng)中，指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5等閉源模型，同時(shí)刷新了開(kāi)源多模態(tài)模型的最佳成績(jī)。推理版Qwen3-VL多模態(tài)思考能力顯著增強(qiáng)，在 MathVision、MMMU、MathVista 等權(quán)威評(píng)測(cè)中達(dá)到領(lǐng)先水平。

Qwen3-VL擁有極強(qiáng)的視覺(jué)智能體和視覺(jué)Coding能力，幾乎刷新所有相關(guān)評(píng)測(cè)的最佳性能。Qwen3-VL 不僅能看懂圖片，還能像人一樣操作手機(jī)和電腦，自動(dòng)完成許多日常任務(wù)，例如打開(kāi)應(yīng)用、點(diǎn)擊按鈕、填寫(xiě)信息等，實(shí)現(xiàn)智能化的交互與自動(dòng)化操作。輸入一張圖片，Qwen3-VL可自行調(diào)用Agent工具放大圖片細(xì)節(jié)，通過(guò)更仔細(xì)的觀察分析，推理出更好的答案；看到一張?jiān)O(shè)計(jì)圖，Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼，“所見(jiàn)即所得”地完成視覺(jué)編程，真正推動(dòng)大模型從“識(shí)別”邁向“推理與執(zhí)行”。

Qwen3-VL可支持?jǐn)U展百萬(wàn)tokens上下文，視頻理解時(shí)長(zhǎng)擴(kuò)展到2小時(shí)以上。這意味著，無(wú)論是幾百頁(yè)的技術(shù)文檔、整本教材，還是長(zhǎng)達(dá)數(shù)小時(shí)的會(huì)議錄像或教學(xué)視頻，都能完整輸入、全程記憶、精準(zhǔn)檢索。Qwen3-VL還能根據(jù)時(shí)間戳精確定位“什么時(shí)候發(fā)生了什么”，比如“第15分鐘穿紅衣服的人做了什么”“球從哪個(gè)方向飛入畫(huà)面”等，都能準(zhǔn)確回答。

大模型的空間理解能力是實(shí)現(xiàn)具身智能的基礎(chǔ)，Qwen3-VL 專門(mén)增強(qiáng)了3D檢測(cè)（grounding）能力，可以更好地感知空間。當(dāng)前，機(jī)器人想要輕松抓住桌上的一個(gè)蘋(píng)果，并不容易。憑借Qwen3-VL強(qiáng)大的3D檢測(cè)能力，未來(lái)可讓機(jī)器人更好地判斷物體方位、視角變化和遮擋關(guān)系，從而準(zhǔn)確判斷蘋(píng)果的位置與自身距離，實(shí)現(xiàn)精準(zhǔn)抓取。

據(jù)了解，千問(wèn)視覺(jué)理解模型已實(shí)現(xiàn)廣泛落地，比如國(guó)家天文臺(tái)聯(lián)合阿里云發(fā)布的全球首個(gè)太陽(yáng)大模型“金烏”，正是基于 Qwen-VL 等模型以超過(guò)90萬(wàn)張?zhí)?yáng)衛(wèi)星圖像為樣本完成微調(diào)訓(xùn)練。未來(lái)，Qwen3-VL模型還將開(kāi)源更多尺寸版本。即日起，用戶可在通義千問(wèn)QwenChat上免費(fèi)體驗(yàn)Qwen3-VL，也可通過(guò)阿里云百煉平臺(tái)調(diào)用API服務(wù)。

編輯：韓夢(mèng)晨

相關(guān)閱讀：

版權(quán)與免責(zé)聲明:
①凡本站注明稿件來(lái)源為：中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)、中國(guó)高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權(quán)均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本網(wǎng)授權(quán)使用作品的，被授權(quán)人應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來(lái)源：中國(guó)高新網(wǎng)、中高新傳媒或者中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
② 任何單位或個(gè)人認(rèn)為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權(quán)益，應(yīng)該及時(shí)向本網(wǎng)站書(shū)面反饋，并提供身份證明，權(quán)屬證明及詳細(xì)侵權(quán)情況證明，本網(wǎng)站在收到上述文件后，將會(huì)盡快移除被控侵權(quán)的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權(quán)和其他問(wèn)題需要與本網(wǎng)聯(lián)系的，請(qǐng)?jiān)谠撌掠砂l(fā)生之日起30日內(nèi)進(jìn)行。電話：010-68667266 電子郵件：dbrmt#chih.org　(請(qǐng)將“#”換為“@”)

曰本a级毛片无卡免费视频va,偷窥国产亚洲女爱视频在线,黄色网站一级小妹,日韩无在线视频免费连接,18以上免费视频在线观看,日本a级视频在线播放,亚洲免费人体视频美女