掃碼手機(jī)端閱讀
歡迎關(guān)注
經(jīng)濟(jì)網(wǎng)小程序
掃碼訂閱
微信掃碼分享
掃碼手機(jī)端閱讀
歡迎關(guān)注
經(jīng)濟(jì)網(wǎng)小程序
掃碼訂閱
微信掃碼分享
8月30日,阿里通義千問宣布開源第二代視覺語言模型Qwen2-VL,推出2B、7B兩個(gè)尺寸及其量化版本模型。Qwen2-VL在多個(gè)權(quán)威測評中創(chuàng)造了同等規(guī)模開源模型的優(yōu)異成績,能夠識別不同分辨率和長寬比的圖片,能夠理解20分鐘以上長視頻,還具備自主操作手機(jī)和機(jī)器人的視覺智能體能力。
2023年8月,通義千問開源第一代視覺語言理解模型Qwen-VL,成為開源社區(qū)最受歡迎的多模態(tài)模型之一。短短一年內(nèi),模型下載量突破1000萬次。目前,多模態(tài)模型在手機(jī)、車端等各類視覺識別場景的落地正在加速,開發(fā)者和應(yīng)用企業(yè)也格外關(guān)注Qwen-VL的升級迭代。
而相比上代模型,Qwen2-VL的基礎(chǔ)性能全面提升。可以讀懂不同分辨率和不同長寬比的圖片,在DocVQA、RealWorldQA、MTVQA等基準(zhǔn)測試創(chuàng)下全球領(lǐng)先的表現(xiàn);可以理解20分鐘以上長視頻,支持基于視頻的問答、對話和內(nèi)容創(chuàng)作等應(yīng)用;具備強(qiáng)大的視覺智能體能力,可自主操作手機(jī)和機(jī)器人,借助復(fù)雜推理和決策的能力,Qwen2-VL可以集成到手機(jī)、機(jī)器人等設(shè)備,根據(jù)視覺環(huán)境和文字指令進(jìn)行自動(dòng)操作;能理解圖像視頻中的多語言文本,包括中文、英文,大多數(shù)歐洲語言,日語、韓語、阿拉伯語、越南語等。
通義千問團(tuán)隊(duì)從六個(gè)方面評估了模型能力,包括綜合的大學(xué)題目、數(shù)學(xué)能力、文檔表格多語言文字圖像的理解、通用場景問答、視頻理解、Agent能力。Qwen2-VL-7B以其“經(jīng)濟(jì)型”參數(shù)規(guī)模實(shí)現(xiàn)了極具競爭力的性能表現(xiàn);Qwen2-VL-2B則可支持移動(dòng)端的豐富應(yīng)用,同樣具備完整圖像視頻多語言的理解能力,在視頻文檔和通用場景問答方面,相比同規(guī)模模型優(yōu)勢顯著。
Qwen2-VL延續(xù)了ViT加Qwen2的串聯(lián)結(jié)構(gòu),三個(gè)尺寸的模型都采用了600M規(guī)模大小的ViT,支持圖像和視頻統(tǒng)一輸入。研發(fā)團(tuán)隊(duì)還在架構(gòu)上作了兩大改進(jìn),一是實(shí)現(xiàn)了對原生動(dòng)態(tài)分辨率的全面支持,不同于上代模型,Qwen2-VL能夠處理任意分辨率的圖像輸入,這一設(shè)計(jì)模擬了人類視覺感知的自然方式,賦予模型處理任意尺寸圖像的強(qiáng)大能力;二是使用了多模態(tài)旋轉(zhuǎn)位置嵌入(M-ROPE)方法,傳統(tǒng)的旋轉(zhuǎn)位置嵌入只能捕捉一維序列的位置信息,M-ROPE使得大規(guī)模語言模型能夠同時(shí)捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息,賦予了語言模型強(qiáng)大的多模態(tài)處理和推理能力,能讓模型更好地理解和建模復(fù)雜的多模態(tài)數(shù)據(jù)。
目前,通義千問團(tuán)隊(duì)以Apache2.0協(xié)議開源了Qwen2-VL-2B和Qwen2-VL-7B,開源代碼已集成到HuggingFace Transformers、vLLM和其他第三方框架中。開發(fā)者可以通過HuggingFace和魔搭ModelScope下載使用模型,也可通過通義官網(wǎng)、通義APP的主對話頁面使用模型。
編輯:孫冰