一、LLM模型的兴起
自然语言处理领域在近年来获得了长足进展。特别是随着大规模神经网络架构和海量文本数据的发展,一系列语言模型(Language Models, LMs)逐步确立,极大地提高了文本理解和生成的质量。典型的LLM(Large Language Models)包括OpenAI的GPT系列、Google的BERT及后继模型等。这些模型均基于Transformer等注意力机制,通过预训练获得强大的语言理解能力。在下游任务的微调中,它们显著超越了此前各类方法,刷新了多个NLP任务的最优表现。
GPT-3等模型的发布掀起了新的热潮,证明了LLM模型具有极高的泛化能力和迁移学习能力。它们也被证实具有一定的逻辑推理与数学运算能力。LLM为文本生成、问答系统、文档理解与总结等带来了革命性的飞跃。它们快速渗透到语音、视觉等其他领域,成为一个广泛的统领性范式。
二、视频理解面临的挑战
在自然语言处理取得突破的同时,研究者也开始关注其他多模态问题,如图像、视频理解。相比文本而言,视频包含了更丰富的多源信息,既有时序动态变化,也包含了丰富的视觉信号。因此视频理解被认为是AI的一个重要目标。
然而由于信息的复杂性,视频理解也面临更大的挑战。理解视频需要分析图像内容及其时序变化,这对模型的表达能力提出了更高要求。许多模型在单张图像的理解上表现不俗,但一旦序列化为视频,就会暴露巨大的计算量需求,导致实用性大减。当前阶段的视频QA数据集也存在分布简单等问题。这成为视频理解领域发展的主要瓶颈。
三、LVM框架的提出
针对视频理解面临的困难,研究者开始思考如何构建专门的视频理解模型。LVM(Large Video Models)框架应运而生。LVM希望基于LLM的成功经验,通过建立规模更大的模型和数据集,来推动视频理解的技术突破。
贾佳亚团队近期发布的多模态大模型LLaMA-VID,实现了对超长视频如电影的高质量理解,为LVM奠定了坚实基础。LLaMA-VID采用了创新的双token设计:一个上下文编码token聚合与问题相关的视觉线索,一个图像内容编码token表示图像内在内容。这种简洁高效的表达方式,使得每帧只需要2个token,大大减轻了计算负担,也保证了视觉信息的完整表示。
LLaMA-VID能准确回答3小时科幻电影中的细节,并产生高质量的影评,性能超过多种方法。这预示着视频理解的新局面,证明了LVM框架的可行性。LVM或许能像LLM那样,开启一个崭新的研究范式。
四、LVM的支持系统
除了简洁高效的框架设计,LLaMA-VID的成功也离不开算法和数据层面的支撑。在模型发布前,贾佳亚团队积累了大量背景工作:
1)发布了多模态推理模型LISA,专注视觉问答中的推理过程,为问题分解与融合提供了范式。
2)构建了大规模长文本数据集LongAlpaca-12k,其中包含9k个电影问答样本,为长视频QA奠定了数据集基础。
3)预训练了长文本语言模型LongAlpaca,参数规模达700亿,大幅扩展了处理长度。并给出了通用的超长文本生成框架LongLoRA,支持不同模型的扩展。
上述成果为LLaMA-VID构建了完整的算法和数据支撑体系。目前LVM仍需处理更复杂的视频并提高结构化理解的质量,这需要进一步扩充数据集规模。但LLaMA-VID无疑证明了视频理解的可能性,为LVM框架确立了正确的发展方向。
五、展望
简洁高效的双token设计使LLaMA-VID成功应用于超长电影,但对更广泛视频的理解仍需努力。未来的LVM模型需要解决如下问题:
1)支持更长时间和更复杂视频的理解,如纪录片、课程视频等,这需要数据量和模型参数的大幅提升。
2)增强视频内容的结构化表示与理解,如场景、事件的识别与串联,这需要引入其他监督信息进行优化。
3)支持视频的预测、推理和生成,如自动摘要、问答、剪辑、编剧等,这需要模型对时间维度信息的深度建模。
随着算法和算力的发展,LVM模型有望成为一个强有力的统领性范式。它继承了LLM的思想也面临更艰巨的挑战。但初步结果令人鼓舞,威力巨大的LVM也许能推动认知智能和决策支持系统的进一步发展。从文本理解到复杂视频建模,未来AI的道路任重而道远。
暂无评论内容