下載 beanfun! 一起SHOW!
組隊開SHOW,拼排位拿獎勵!
logo
留言
LINE
FB
複製
阿里雲推出具備圖文理解能力的兩款開源《Qwen-VL》及《Qwen-VL-Chat》大規模視覺語言模型
ZEEK玩家誌
更新於 2 年前

阿里雲宣布推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat,支援中英文圖文輸入,並具備多模態訊息理解能力,目前已在其開源社區魔搭(ModelScope)及AI協作平台Hugging Face上架,促進開源生態發展。Qwen-VL和Qwen-VL-Chat是支援中英文語言的視覺語言模型,以阿里雲之前開源的通義千問70億參數模型Qwen-7B為基礎語言模型研發,除具備中英文圖文識別、描述和問答對話能力,更新增視覺定位和圖像文字理解能力。

Qwen-VL及基於這一模型微調的對話模型Qwen-VL-Chat可用於知識問答、圖像標題生成、圖像問答、文件問答、細粒度視覺定位等多種場景。例如用戶可拍下醫院樓層導覽圖,問Qwen-VL Chat:「外科在哪層?」、「耳鼻喉科去哪層?」,Qwen-VL會根據圖片訊息給出文字回覆。

為進一步助力AI技術普惠,全球學術、研究及商業機構均可免費獲取上述模型的代碼、模型權重和文件。對於商業應用需求,月活躍用戶少於1億的公司可免費使用模型,用戶數超過該量級的企業可向阿里雲申請許可證。

▲Qwen-VL-Chat聊天示範。

Qwen-VL和Qwen-VL-Chat以Qwen-7B為基座語言模型,在模型架構上引入視覺編碼器,使得模型支援視覺訊號輸入,並透過設計訓練過程,讓模型具備對視覺訊號的細粒度感知和理解能力。Qwen-VL支援的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支援224分辨率。在Qwen-VL的基礎上,通義千問團隊使用對齊機制,打造基於LLM的視覺AI助手Qwen-VL-Chat,可讓開發者快速搭建具備多模態能力的對話應用。

在四大類多模態任務(Zero-shot Caption / VQA / DocVQA / Grounding)的標準英文測評中,Qwen-VL取得同等尺寸開源VL模型中的最好效果。為了測試模型的多模態對話能力,通義千問團隊構建一套基於GPT-4算分機制的測試集「試金石」,對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。

文章轉載自阿里足跡

延伸閱讀:
不只電競玩家就連一般音樂愛用者都可以入手的《Logitech G PRO X 2 LIGHTSPEED耳機麥克風》
自由的羽翼 Hyundai Tucson L Turbo Hybrid GLTH-C 渦輪油電試駕
UNIQLO前進漫博會展售動漫聯名UT!必收獨家限量「鏈鋸人 x 河村康輔」UTme!
G-SHOCK之父伊部菊雄睽違五年再訪台歡慶40周年!解密測試錶款「強悍耐衝擊」

你可能也會喜歡
還想看更多你喜愛的文章嗎?
© 2025 Gamania Group
下載 beanfun! 一起SHOW!
組隊開SHOW,拼排位拿獎勵!
留言
轉傳
複製
beanfun! 採用網站分析技術為您帶來更優質的使用體驗,若您點選 "我同意" 或繼續瀏覽本網站,即表示您同意我們使用第三方 Cookie,欲瞭解更多資訊請見 隱私權政策。
下載beanfun!
瘋狂生活從 beanfun! 開始~
掃描 QR Code 立即下載
APP Store 或 Google Play 搜尋 beanfun! 下載
APP Store 搜尋 beanfun! 下載
Google Play 搜尋 beanfun! 下載
溫馨提醒您:於行動裝置安裝防護軟體
可提升裝置使用安全性
下載beanfun! 豐富你的內容
安裝應用程式,享有更多文章、小說和精彩的互動!
取消