近日,通信工程学院智能信息计算团队的研究成果《Temporal Calibrating and Distilling for Scene-Text Aware Text-Video Retrieval》被人工智能领域国际顶级会议The 40th AAAI Conference on Artificial Intelligence (AAAI 2026)正式录用。AAAI是人工智能领域CCF A类会议,代表该领域国际最高研究水平。第一作者为24级博士研究生赵祉钤,指导老师为颜成钢教授和李亮研究员(中国科学院计算技术研究所)。该项研究由杭州电子科技大学和中国科学院计算技术研究所合作完成。

当前主流的文本-视频检索技术大多只关注视频中的单一视觉内容(如物体与场景),而忽视了广泛存在于现实世界中的异质「场景文本」(scene text)。这些文本信息往往蕴含更细粒度的语义线索,有助于跨模态检索。然而,如何高效利用场景文本一直面临两大难题:一是场景文本的时间密度过高,与稀疏的视频帧难以同步,阻碍整体视频理解;二是冗余的场景文本与无关的视频帧干扰了有效时序线索的学习,影响检索表现。

为此,论文提出了一种用于文本视频检索的时序场景文本校准与蒸馏(TCD)网络。具体而言,论文首先设计了一个Window-OCR Captioner,将密集的场景文本聚合为 OCR caption,以促进特征交互;接着,构建异质语义校准模块,利用场景文本作为自监督信号,实现窗口级OCR Caption与帧级视频特征的时序对齐;进一步地,论文引入上下文引导的时间线索蒸馏模块,以学习场景文本与视频模态之间互补且相关的细节,从而获得更具判别性的时间线索来进行检索。大量实验结果表明,TCD在三个与场景文本相关的基准上均取得了当前最优性能,并且现有方法在配备论文提出的Window-OCR Captioner模块之后获得了平均13.4%的性能提升,进一步说明了方法的有效性。

杭州电子科技大学“智能信息处理实验室”(HDU IIPLab)主任为颜成钢教授。实验室现有在职教师50余名,含5位国家级人才及多位省级人才。现有硕博生200余名,毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为学校交叉创新团队,拥有自由开放的学术氛围和国际前沿的研究方向。实验室采用与海内外知名高校、研究所(清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等)联合培养制,长期致力于智能信息处理方面的研究,主要研究方向包括:机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。
图文:赵祉钤
一审:赵 强
二审:邱一波
三审:孙闽红
