《科創板日報》7月7日訊(記者 黃心怡),在2023世界人工智能大會上,阿里云宣布AI繪畫創作大模型通義萬相開啟定向邀測,這意味著通義大模型首次開放了文生圖功能,在過去純語言處理的基礎上,增加了多模態能力。
此前,國內僅有百度文心一言、360智腦等少數幾家企業開放了AI作圖功能。
《科創板日報》記者第一時間拿到了通義萬相的內測碼。從官網來看,目前已上線文生圖、相似圖像生成、圖像風格遷移三種功能。
(資料圖片)
在基礎文生圖功能中,可根據文字內容生成水彩、扁平插畫、二次元、油畫、中國畫、3D卡通和素描等風格圖像。
由于對中文詞匯理解的不足,AI作畫曾一度鬧出過不少笑話。《科創板日報》記者在通義萬相網站,對這些容易出錯的AI作圖進行了測試。
提問:畫一個紅燒獅子頭
提問:畫一個胸有成竹的男人
提問:畫一幅畫,媽媽抱著寶寶、寶寶在哭泣,寶寶6個月左右
相比文心一言,通義萬相一次能給出四張圖片。除了第一張圖的“媽媽”明顯出錯,其他三張還算符合要求。
提問:畫一張車水馬龍的圖
提問:生成一張云計算的配圖
通義萬相理解了“云計算”這一科技詞匯的含義。此前的測試中,360智腦對于云計算圖片的生成曾出現過錯誤。
360智腦此前生成的云計算圖片接著,《科創板日報》記者讓通義萬相生成一張“小狗在草地上奔跑”,并生成油畫、卡通等不同風格。
油畫
3D卡通
在相似圖片生成功能中,用戶上傳任意圖片后,可生成內容、風格相似的AI畫作。
記者上傳了一張風景照,嘗試讓通義萬相生成相似的圖像。
在會后的采訪中,阿里云智能集團首席技術官周靖人表示,“生成圖片的細節是不是能夠更加地逼真,更加地注重到很多細微差別,甚至對于模型的語義的理解,也是極為重要的。我們不僅解決這個方面的問題,甚至支持多語言,英文、中文等都是可以能夠對應理解相關語義,生成相應的圖片。”
《科創板日報》記者輸入英文來生成圖片談及后續的產品規劃時,周靖人稱,整個產品還不斷地迭代,不單通過語義生成圖片,更重要的是能夠控制怎么生成圖片,這也是接下來要提供的重要能力。
降低模型服務的成本也是阿里云較為關注的方向。
“我們在幫助模型的提供商不斷降低模型服務的成本,包括怎么做模型量化,服務的時候是不是可以有大小模型的協同,甚至模型服務的新架構等等。今后幾個月大家會聽到新技術的發布,把模型服務的成本降低。”
對于國內外大模型的差距,周靖人坦言,仍需要奮頭直追。
“我們看到的業界情況,各種創業公司的模型,其實離OpenAI等頂級模型之間依然存在一些差距。這個競爭不僅僅是模型、算法,還包括背后云的能力、數據體系的能力,還有邏輯思維相關一系列能力的不斷迭代和發展。在這個階段,我們還有長足的距離需要去追趕。
周靖人進一步補充道,“大模型領域你追我趕的過程剛剛開始,大家還是要有一些耐心,整個技術的發展需要時間。我們對整個行業還是非常期待,但真正要做到全球領先,還需要很多的工作,不斷地嘗試和努力。”