据外媒报道,在中国科学院合肥物质科学研究院刘勇教授的带领下,研究人员提出新框架,即基于视频片段的知识转移和关系上下文挖掘(Clip-based Knowledge Transfer and Relational Context Mining,CKT-RCM),以解决计算机视觉中的长尾分布问题。他们开发了网络框架CKT-RCM。基于预训练的视觉语言模型CLIP,CKT-RCM有助于PSG过程中的关系推理。它集成了交叉注意力机制来提取关系上下文,确保关系预测中价值和质量之间的平衡。这项研究有助于机器人和自动驾驶车辆对场景的理解和感知。