近日,我校软件学院首届“天工创新班”2021级软件工程专业本科生孙盛珂,在专业导师赵占山教授指导下撰写的科研论文《CLR-GAN: Improving GANs Stability and Quality via Consistent Latent Representation and Reconstruction》已正式被计算机视觉顶级会议《European Conference on Computer Vision》接收。这是“天工创新班”软件工程专业本科生首次以第一作者身份在计算机视觉三大顶会上发表论文,标志着学院拔尖创新人才培养取得明显成效。
ECCV,全称为European Conference on Computer Vision,即欧洲计算机视觉国际会议,是计算机视觉领域中最顶级的会议之一。与ICCV(International Conference on Computer Vision)和CVPR(Conference on Computer Vision and Pattern Recognition)并称为计算机视觉领域的“三大顶会”。ECCV每两年举行一次,会议内容广泛覆盖了计算机视觉的所有子领域,包括但不限于图像识别、物体检测、场景理解、视觉跟踪、三维重建、深度学习在视觉中的应用等。ECCV强调高质量的研究成果,对论文的评审标准非常严格,通常在全球范围内录用率不超过20%,这些论文大多来自美国、欧洲以及其他地区的顶尖实验室和研究所。会议不仅包含口头报告(Oral)、海报展示(Poster),还有实际的演示(Demo),旨在促进理论与实践的结合,推动计算机视觉技术的进步与发展。
生成模型是计算机视觉领域的重要组成部分,广泛应用于图像生成、视频编辑、风格迁移乃至药物发现等多个领域。特别是生成对抗网络(GANs),因其生成逼真图像的卓越能力而受到广泛关注。然而,由于生成器和判别器之间的竞争不公平,所以生成对抗网络的训练存在不稳定的问题。针对这一问题,论文提出了一种新的GAN训练视角,即“一致的潜在表示与重构”(CLR-GAN),旨在让训练过程更公平,从而获得更稳定、高质量的图像生成结果。CLR-GAN的核心理念是将生成器和判别器视作逆过程。具体而言,判别器除了判断图像真伪之外,还需承担一项额外任务,即恢复一个预设的潜在代码;与此同时,生成器也要具备从真实输入中进行重构的能力。这样,在生成器的潜在空间和判别器的输出特征之间建立了联系,使得两者在训练时能被置于更平等的位置上。通过引入一致的潜在表示损失,量化并最小化生成器和判别器潜在空间之间的距离,进一步增强了训练的稳定性。实验结果显示,CLR-GAN在不同数据集(如CIFAR10和AFHQ-Cat)和多种架构上的应用,都能够显著提升图像质量,在FID分数上分别提高了31.22%和39.5%。此外,论文还展示了CLR-GAN得到的预训练的特征提取器在CIFAR-10分类任务上具有优秀的表现,表明所提方法不仅能改善图像生成,还能有机会作为有效的无监督训练策略,对于生成式模型在表征学习上的应用也有一定的启发作用。
CLR-GAN训练范式示意图