理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

互联网2025-06-10

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

免责声明

本文登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请联系QQ:211544606

中国内地最大规模胸痛中心大会首次选址香港

2026年香港迎来多项重量级医学会议香港 -Media OutReach Newswire- 2026年4月9日 -香港作为

春日出行一键解锁,捷尼赛思G80奔赴每一程

春日的美好,在于随心而动的奔赴,在于不被烦琐牵绊的轻松,一次说走就走的野餐,一场漫无

SC 启动品牌升级,全面迈向多元业务布局时

构建三大业务引擎驱动增长目标2030年非住宅业务利润占比超30%基于稳健的已售未结转收入,20

《2026珠宝赠礼调研报告》发布:强劲需求延

悦己与真爱双轮驱动,可追溯性与增值服务构筑消费信心基石香港 -Media OutReach Newswire-

恒隆地产“66成就无限”周年庆典第二阶段精

全国项目联动在地创意 以特色体验深化社区连接香港和中国上海 -Media OutReach Newswire-

盛大庆祝“山里”首登《黑珍珠餐厅指南》

连同两大甜品师精雕花果主题下午茶,「澳門銀河」4月美馔精彩纷呈澳门特别行政区 -Media Ou

Money20/20亚洲峰会升级2026年议程,推出“

行业领袖、监管机构及创新者齐聚曼谷,共启数字资产与传统银行合作新纪元泰国曼谷 -Media O

体验馆娃娃工厂哪家靠谱

、高端首选(铂金硅胶 + 体验馆一站式):佛山融创生物(Rongdoll)最适合:中高端体验馆、

香港会计师公会举办"全国两会精神分享会202

汇聚人大代表政协委员深入解读国家发展新方向与香港机遇香港 -Media OutReach Newswire- 20

李锦记庆祝2026"亚洲50最佳餐厅"颁奖典礼首

中国香港 -Media OutReach Newswire- 2026年4月2日 - 全球酱料及调味料品牌李锦记酱料(&qu