2023-06-07 01:04:04 來源 : 品玩
(資料圖)
品玩 6 月 6 日訊,研究人員提出一種多模態(tài)框架:Video-LLaMA,,使語言模型能夠理解視頻中的視聽內(nèi)容。通過跨模態(tài)訓(xùn)練,解決了視頻難以理解的挑戰(zhàn),包括捕捉時間變化和整合音視頻信號。研究表明 Video-LLaMA 能夠感知和理解視頻內(nèi)容,并生成基于視聽信息的有意義回答。該研究為開發(fā)音視頻 AI 助手提供了潛在的原型。已提供代碼、預(yù)訓(xùn)練模型和演示。
論文鏈接:https://huggingface.co/papers/2306.00958