526互联
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
Video-LLaVA
北京大学 | Video-LLaVA视觉语言大模型:统一输入,同时处理图片和视频数据
前言 北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中,该模型展现出了出色的性能,在多个评估榜单中名列前茅,尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注如何将LLM的输入统一起 ......
Video-LLaVA
模型
同时
视觉
语言
更新时间 2023-11-30
共1篇 :1/1页
首页
上一页
1
下一页
尾页