多媒体内容安全
简介
随着通信技术的迅猛发展,图像、视频、音频和文本等多媒体数字内容呈现爆炸式增长的态势,并且这些内容正渗透进我们生活的方方面面。然而,网络多媒体内容中存在着大量不良信息,比如暴力、色情、毒品、隐私侵犯、非法交易、假冒伪劣等,这些有害信息可能会引起社会的剧烈动荡。因此,识别网络上的有害信息、确保多媒体内容安全对社会和平稳定发展至关重要。自动地识别出有害多媒体内容十分具有挑战性,因为这要求计算机不仅能够看懂图片和视频,还要能够充分地理解音频和文本。多年来,VSLab以多媒体内容安全为核心开展了广泛而深入的研究,并开发了多项先进的技术,包括有害图像/视频检测、异常检测以及人脸伪造检测等。
专题

人脸伪造检测
随着渲染技术和深度学习的发展,逼真数字图像内容的改动和生成技术取得了突破。计算机生成(CG)图像与摄影(PG)图像之间越来越难以区分。其中深度伪造换脸技术主要借助生成对抗网络拟合真实人脸图像的分布,将一张源图像中的人脸换为指定目标的身份,并且保持姿态、表情等属性不变,达到了以假乱真的程度。合成图像的肆意传播可能会对公众产生误导,因此非常有必要研究相应的算法鉴别图像是否是虚假合成品。CG图像鉴伪任务即主要致力于区分CG和PG图像。特别地,假脸鉴别专门针对人脸场景。相关论文

Learning to predict salient faces: a novel visual-audio saliency model [ECCV2020]
视频流已经占据了互联网流量的很大一部分,其中大多数包含人脸。因此,在包含多人脸的视频中预测显著性很有必要,这可以为许多基于内容的应用程序提供注意提示。但是,大多数多人脸显著性预测工作仅考虑视觉信息而忽略了音频,这与自然场景不符。多项行为研究已经确定,声音会影响人类的注意力,尤其是在多人脸视频的交替演讲场景中。在本文中,我们通过在可视音频条件下建立大型的多人脸视频眼动追踪数据库(MVVA)来彻底研究此类影响。受调查结果启发,我们提出了一种新颖的多模态视频显著性模型,该模型由视觉,听觉和面部三个分支组成。视觉分支将RGB帧作为输入,并将其编码为视觉特征图。音频和面部分支分别编码音频信号和多个裁剪的面部。引入了融合模块以整合来自三种模态的信息,并生成最终的显著图。实验结果表明,所提出的方法优于11个最新的显著性预测工作,且它的执行方式更接近人类的多模态关注模式。
Web objectionable video recognition based on deep multi instance learning with representative prototypes selection [TCSVT2020]
为了保护未成年人免于访问网络中不良视频,有效的不良视频识别算法对于Web过滤是必需的。近来,多实例学习已被引入用于不良视频识别,并取得了令人印象深刻的结果。但是,手工设计的特征以及冗余和嘈杂的帧已经成为降低不良视频识别性能的主要因素。在本文中,我们提出了一种新颖的具有代表性的原型选择算法,该算法嵌入了深度多实例表示学习。该方法为多模态多实例特征学习设计了一种改进的卷积神经网络,并设计了一种基于稀疏和低秩约束的自表达词典学习模型,以从实例的每个子空间中选择具有代表性的原型。然后,通过将袋子映射到选定的原型来构造袋子级别的特征。在三个不良视频集上进行的实验表明,我们的方法可以有效地识别不良视频。
Deep constrained siamese hash coding network and load-balanced locality-sensitive hashing for near duplicate image detection [TIP2018]
我们使用分层哈希编码学习神经网络和负载平衡的局部敏感哈希(LSH)索引,构造了一种新的有效的近邻重复图像检测方法。 我们提出了结合深度特征学习的深度约束暹罗哈希编码神经网络。 我们的神经网络能够提取有效特征以进行近邻重复的图像检测。 提取的特征用于构建基于LSH的索引。 我们提出了一种负载平衡的LSH方法,在哈希过程中生成负载平衡的存储桶。 负载平衡的LSH大大减少了查询时间。 基于提出的负载均衡LSH,我们设计了一种有效且可行的算法,用于近邻重复图像检测。 在三个基准数据集上进行的广泛实验证明了我们的深度暹罗哈希编码网络和负载平衡LSH的有效性。
Anomaly detection using local kernel density estimation and context-based regression [TKDE2018]
当前基于局部密度的异常检测方法的局限性在于,对于大型复杂数据集,局部密度估计和邻域密度估计不够准确,并且检测性能取决于邻域的大小参数。在本文中,我们提出了一种新的核函数来估计样本的局部密度,并提出了加权邻域密度估计以增加对邻域大小变化的鲁棒性。我们进一步提出了一种局部核回归估计器和一种分层策略,用于组合来自多个尺度邻域的信息以细化样本的异常因子。通过将对象中的显著像素视为背景区域的异常,我们将一般异常检测方法应用于图像显著性检测。视觉特征空间中的局部密度估计和图像中基于核的显著性分数传播使得能够将相似的显著性值分配给同质的对象区域。在几个基准数据集上的实验结果表明,我们的异常检测方法总体上优于几种最新的异常检测方法。通过与几种最新的显著性检测方法进行比较,验证了我们图像显著性检测方法的有效性。
Multimodal web aesthetics assessment based on structural SVM and multitask fusion learning [TMM2016]
网页的整体视觉属性(例如美学)显著影响用户体验。美观且布局合理的网页极大地方便了用户访问并增强了浏览体验。本文提出了一种新的方法来学习网页(视觉)美感的评估模型。首先,提取已知会严重影响网页美学的网页多峰特征(结构,局部视觉,全局视觉和功能)以构建特征向量。其次,分析了用户之间的美学差异,并从页面的多用户评级中获得了新颖的美学表示。针对新的美学表现,提出了一种结构学习算法。第三,由于网页的功能目的也影响感知的美观度,因此我们使用功能特征将网页分为不同类型,并引入了软多任务融合学习策略来训练具有功能目的的页面评估模型。实验结果证明了我们方法的有效性:1)结构,局部和全局视觉功能的组合优于现有的最新Web美学功能; 2)提出的结构学习算法在新的美学表现形式上取得了良好的效果; 3)提出的软多任务融合学习策略提高了美学评估模型的性能。