IT之家 6 月 27 日消息,阿里云通義千問(wèn)剛剛發(fā)文,宣布推出最新的 Qwen VLo—— 一個(gè)多模態(tài)統(tǒng)一理解與生成模型,用戶可以通過(guò) Qwen Chat(chat.qwen.ai)進(jìn)行體驗(yàn)。
這一全新升級(jí)的模型不僅能夠“看懂”世界,更能基于理解進(jìn)行高質(zhì)量的再創(chuàng)造,真正實(shí)現(xiàn)了從感知到生成的跨越。

據(jù)介紹,Qwen VLo 能夠以一種漸進(jìn)式生成方式,從左到右、從上到下逐步清晰地構(gòu)建整幅圖片。
在生成過(guò)程中,模型會(huì)對(duì)預(yù)測(cè)的內(nèi)容不斷調(diào)整和優(yōu)化,從而確保最終結(jié)果更加和諧一致。這種生成機(jī)制不僅提升了視覺(jué)效果,還為用戶帶來(lái)了更靈活、更可控的創(chuàng)作體驗(yàn)。
官方表示,Qwen VLo 采用動(dòng)態(tài)分辨率訓(xùn)練,支持動(dòng)態(tài)分辨率生成。無(wú)論是輸入端還是輸出端,模型都支持任意分辨率和長(zhǎng)寬比的圖像生成。
這意味著用戶不再受限于固定的格式,可以根據(jù)實(shí)際需求生成適配不同場(chǎng)景的圖像內(nèi)容,無(wú)論是海報(bào)、插圖、網(wǎng)頁(yè) Banner 還是社交媒體封面,都能輕松應(yīng)對(duì)。
此外,Qwen VLo 還創(chuàng)新性地引入了一種全新的生成機(jī)制:從上到下、從左到右逐步清晰的生成過(guò)程。這一機(jī)制不僅提升了生成效率,還特別適用于需要精細(xì)控制的長(zhǎng)段落文字生成任務(wù)。例如,在生成帶有大量文本的廣告設(shè)計(jì)或漫畫(huà)分鏡時(shí),Qwen VLo 逐步生成慢慢修改。這種漸進(jìn)式的生成方式讓用戶可以實(shí)時(shí)觀察生成過(guò)程,并根據(jù)需要進(jìn)行調(diào)整,從而獲得最佳的創(chuàng)作效果。
阿里云官方提醒,Qwen VLo 還屬于預(yù)覽階段,還有很多不足的地方,在生成的過(guò)程可能存在不符合事實(shí)、不完全和原圖一致的問(wèn)題,開(kāi)發(fā)團(tuán)隊(duì)還在持續(xù)迭代。
Qwen VLo 在原始多模態(tài)理解與生成能力上進(jìn)行了全面升級(jí),顯著增強(qiáng)了對(duì)圖像內(nèi)容的理解深度,并在此基礎(chǔ)上實(shí)現(xiàn)了更加準(zhǔn)確和一致的生成效果。
以下是 Qwen VLo 的核心亮點(diǎn):
01 更精準(zhǔn)的內(nèi)容理解與再創(chuàng)造
以往的多模態(tài)模型在生成過(guò)程中容易出現(xiàn)語(yǔ)義不一致的問(wèn)題,例如將汽車誤生成其他類型的物體,或者無(wú)法保留原圖的關(guān)鍵結(jié)構(gòu)特征。而 Qwen VLo 通過(guò)更強(qiáng)大的細(xì)節(jié)捕捉能力,能夠在生成過(guò)程中保持高度的語(yǔ)義一致性。例如,當(dāng)用戶輸入一張汽車的照片并要求“更換顏色”時(shí),Qwen VLo 不僅能準(zhǔn)確識(shí)別車型,還能保留其原有的結(jié)構(gòu)特征,同時(shí)完成色彩風(fēng)格的自然轉(zhuǎn)換,讓生成結(jié)果既符合預(yù)期又不失真實(shí)感。
02 支持開(kāi)放指令編輯修改生成
用戶可以通過(guò)自然語(yǔ)言提出各種創(chuàng)意性指令,如“將這張畫(huà)風(fēng)改為梵高風(fēng)格”、“讓這張照片看起來(lái)像 19 世紀(jì)的老照片”或“給這張圖片添加一個(gè)晴朗的天空”。Qwen VLo 能夠靈活響應(yīng)這些開(kāi)放性指令,并生成符合用戶預(yù)期的結(jié)果。無(wú)論是藝術(shù)風(fēng)格遷移、場(chǎng)景重構(gòu)還是細(xì)節(jié)修飾,模型都能輕松應(yīng)對(duì)。甚至一些傳統(tǒng)的視覺(jué)感知人物如預(yù)測(cè)深度圖、分割圖、檢測(cè)圖以及邊緣信息等也可以通過(guò)編輯指令輕松完成。更進(jìn)一步,像很多更復(fù)雜的指令,比如一條指令中同時(shí)包含修改物體、修改文字、更換背景,模型也能輕松完成。
03 多語(yǔ)言指令支持
Qwen VLo 支持包括中文、英文在內(nèi)的多種語(yǔ)言指令,打破了語(yǔ)言壁壘,為全球用戶提供了統(tǒng)一且便捷的交互體驗(yàn)。無(wú)論您使用哪種語(yǔ)言,只需簡(jiǎn)單描述您的需求,模型便能快速理解并輸出理想結(jié)果。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。