《科創(chuàng)板日?qǐng)?bào)》4月10日訊(編輯 鄭遠(yuǎn)方)短短一周不到,視覺領(lǐng)域接連迎來新模型“炸場(chǎng)”,圖像識(shí)別門檻大幅降低——
(資料圖片僅供參考)
這場(chǎng)AI熱潮中鮮見動(dòng)靜的Meta終于出手,推出Segment Anything工具,可準(zhǔn)確識(shí)別圖像中的對(duì)象,模型和數(shù)據(jù)全部開源;
國(guó)內(nèi)智源研究院視覺團(tuán)隊(duì)也提出了通用分割模型SegGPT(Segment Everything in Context),這也是首個(gè)利用視覺上下文完成各種分割任務(wù)的通用視覺模型。
其中,Meta的項(xiàng)目包括模型Segment Anything Model(SAM)、數(shù)據(jù)集Segment Anything 1-Billion mask dataset(SA-1B),公司稱后者是有史以來最大的分割數(shù)據(jù)集。
引起業(yè)內(nèi)轟動(dòng)的便是這一SAM模型:
1. 正如名字“Segment Anything”一樣,該模型可以用于分割圖像中的一切對(duì)象,包括訓(xùn)練數(shù)據(jù)中沒有的內(nèi)容;
2. 交互方面,SAM可使用點(diǎn)擊、框選、文字等各種輸入提示(prompt),指定要在圖像中分割的內(nèi)容,這也意味著,用于自然語(yǔ)言處理的Prompt模式也開始被應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域。
3. 對(duì)于視頻中物體,SAM也能準(zhǔn)確識(shí)別并快速標(biāo)記物品的種類、名字、大小,并自動(dòng)用ID為這些物品進(jìn)行記錄和分類。
英偉達(dá)人工智能科學(xué)家Jim Fan將Meta的這項(xiàng)研究稱作計(jì)算機(jī)視覺領(lǐng)域的“GPT-3時(shí)刻”之一——其分割方法可以通用,可對(duì)不熟悉的物體和圖像進(jìn)行零樣本泛化,初步驗(yàn)證了多模態(tài)技術(shù)路徑及其泛化能力。
進(jìn)一步來說,SAM可以靈活集成于更大的AI系統(tǒng)。例如,理解網(wǎng)頁(yè)的視覺和文本內(nèi)容;在AR/VR領(lǐng)域,將頭顯用戶視線作為提示來選擇對(duì)象,然后將其“提升”到3D中;對(duì)于內(nèi)容創(chuàng)作者,SAM可提取圖像區(qū)域以進(jìn)行拼貼或視頻編輯;SAM還可通過定位動(dòng)物或物體在視頻中進(jìn)行研究和跟蹤。
另一方面,智源研究院視覺團(tuán)隊(duì)的SegGPT模型則更偏重于批量化標(biāo)注分割能力。無論是在圖像還是視頻環(huán)境,用戶在畫面上標(biāo)注識(shí)別一類物體,即可批量化識(shí)別分割出其他所有同類物體。
例如,若在一張圖像中標(biāo)注彩虹,便可將其他圖像中的彩虹也一同批量識(shí)別分割出來。
西部證券指出,Meta此次推出SAM,預(yù)示著大模型在多模態(tài)發(fā)展方面更進(jìn)一步,布局計(jì)算機(jī)視覺/視頻的廠商有望持續(xù)受;還有券商補(bǔ)充稱,SAM模型突破了機(jī)器視覺底層技術(shù)。
國(guó)盛證券預(yù)計(jì),預(yù)計(jì)1-5年內(nèi),多模態(tài)發(fā)展將帶來AI泛化能力提升,通用視覺、通用機(jī)械臂、通用物流搬運(yùn)機(jī)器人、行業(yè)服務(wù)機(jī)器人、真正的智能家居會(huì)進(jìn)入生活;5-10年內(nèi),結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。
據(jù)《科創(chuàng)板日?qǐng)?bào)》不完全統(tǒng)計(jì),A股中有望受益于多模態(tài)發(fā)展的公司有: