理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

互联网2025-06-10

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

免责声明

本文登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请联系QQ:211544606

PROPEL with Singlife突破千名理财顾问 里

共享服务中心乘势而上,持续增强一体化平台能力,助力理财顾问公司发展新加坡 -Media OutRe

温州国际阀门展:打造全球阀门产业新高地

2026温州国际阀门展览会展期:2026年4月24-26日展址:温州国际会展中心 创新突破 &mid

Teledyne e2v完成16GB 宇航级DDR4存储器的

法国格勒诺布尔 -Media OutReach Newswire- 2025年10月20日 - Teledyne e2v Semiconductors

戴比尔斯集团于伦敦弗里兹大师展重磅呈献"V

以多维感官艺术,溯源天然钻石塑造跨越时空的璀璨传奇英国 伦敦 -Media OutReach Newswire-

琴书五十载 活水润古今——探寻全球文明对

“问渠那得清如许?为有源头活水来。”“等闲识得东风面,万紫千红总是春。”朱熹的这些诗

《陆游与宁德》文集发布

新华社客户端福州10月19日电(李昊)10月18日晚,由宁德市蕉城区委、蕉城区人民政府、中国

“以赛促产”——“中国白·德化瓷”第21届

新华财经福州10月17日电(胡海明)10月17日,“中国白·德化瓷”第21届全国设计

“以赛促产”——“中国白·德化瓷”第21届

新华财经福州10月17日电(胡海明)10月17日,“中国白·德化瓷”第21届全国设计

第六届德化瓷博会:全球陶瓷品牌汇聚 开启

新华财经福州10月17日电(李昊)10月17日至20日,第六届德化陶瓷博览会(以下简称 “瓷博会

中国人寿财险平度市支公司:“科技防控+专

近期,暴雨内涝与病虫害等多重风险叠加出现,能否筑牢农业风险防线,直接关系到大葱、白菜