中科大&微软提出立体神经风格迁移模型 可用于3D视频风格化

微软,人工智能
立体3D正在成为一种大众消费媒体,例如3D电影、电视以及游戏。现在,随着头戴式3D显示器(例如AR/VR眼镜)和双镜头智能手机的发展,立体3D越来越受关注,并激发了许多有趣的研究工作,例如立体修复[36,27]、视频稳定[15],以及全景[39]。在这些研究中,创建立体3D内容总是令人感兴趣的。
 
近年来,在自然图像上再现名画风格的风格转换技术成为内容创作的一个热门话题。例如,最近的电影「至爱梵高」是第一部完全由训练有素的艺术家制作的动画电影。受卷积神经网络(CNN)能力的启发,Gatys等人的开创性工作[13]提出了一种将指定作品的风格自动转换为任何图像的通用解决方案。[21,19,34,12,11]提出了许多后续工作,以改进或扩展该项目。这些技术还被应用于许多成功的工业应用(例如,Prisma[1],Ostagram[2]和Microsoft Pix[3])。
 
然而,据作者介绍,目前还没有将风格转换应用于立体图像或视频的技术。在这篇论文中,作者通过首次提出立体神经风格转换算法来应对这种新兴3D内容的需求。他们首先独立地仔细检验了现有的风格转换方法在左视图和右视图上的简单应用。
 
他们发现往往这些方法很难在两个视图上产生几何一致的风格化纹理。结果就是,它会引起有问题的深度感知,并且造成观看者的3D疲劳(如图1所示)。因此我们需要生成和和两个视图一致的风格化纹理。此外,还需要一个快速的解决方案,尤其是在实际的实时3D显示中(例如AR/VR眼镜)。最后但不是最不重要的一点,作为进一步扩展的立体视频中的风格转换应当同时满足时间的连贯性。
 
本文提出了第一个用于快速立体风格转换的前馈网络。除了广泛使用的风格损失函数[13,19]之外,作者还引入了一个附加的视差一致性损失,用它来惩罚风格化结果在非遮挡区域的偏差。具体而言,在给定双向视差和遮挡掩膜的情况下,可以建立左视图和右视图之间的对应关系,并且惩罚了两个视图中都可见的重叠区域的风格不一致。
 
作者首先在基于优化的解决方案[13]中验证了这个新的损失项。如图1所示,通过在优化过程中联合考虑风格化和视差一致性,该方法可以为两个视图生成更加一致的风格化结果。然后作者进一步将这种新的视差损失结合在了为立体风格化所设计的前馈深度网络中。
 
本文提出的网络由两个子网络组成。一个是风格化子网络StyleNet,它使用了和[19]中一样的架构。另一个是视差子网络DispOccNet,它可以估计出输入立体图像对的双向视差图和遮挡掩膜。这两个子网络被集成在特征级别的中间域中。它们首先分别接受各自任务的独立训练,然后作为一个整体接受联合训练。
 
该新视差子网络具有两个优点:
 
1)与使用缓慢全局优化技术的一些最先进的立体匹配算法[33,22]相比,它能够实现实时处理;
 
2)它是第一个同时估计双向视差和遮挡掩模的端到端网络,而其它方法[26,38]在每个前向过程中仅估计单个双向视差图,并且需要后处理步骤来获得遮挡掩模。文章的5.2部分展示了这种双向设计优于单向设计的原因。
 
该网络还可以很容易地通过集成[10]中的子网络扩展到立体3D视频中。这样,最终的风格化结果不仅可以保持每个时间步的水平空间一致性,而且可以保持相邻时间步之间的时间连贯性。这项工作可能会启发电影创作者考虑自动地将3D电影或电视转变为名画风格。
 
实验结果表明,该方法无论在数量上还是在质量上都优于这个领域中的基准结果。总体而言,本文主要贡献由以下四部分组成:
 
通过将新的视差一致约束结合到原始的风格损失函数中,本文提出了第一个立体风格转换算法。
 
本文提出了第一个用于快速立体风格转换的前馈网络,它把风格化、双向视差和遮挡掩码结合成了一个端到端系统。
 
本文提出的视差子网络是第一个可以同时估计双向视差图和遮挡掩码的端到端网络。
 
考虑到视差一致性和时间连贯性,本文通过集成一个附加的子网络把该方法扩展到了立体视频的风格转换上。
 
本文的剩余部分将首先总结一些相关的工作。在该方法中,研究者使用了基于基线优化的方法验证了新提出的视差约束,然后介绍了快速立体风格转换的前馈网络,并将
 
4.立体风格转换网络
 
本文提出了一个快速立体风格转换的前馈网络。整个网络由两个子网络组成:一个是与现有的风格化网络[10,11,12,16]相似的风格化网络StyleNet,另一个是同时估计双向视差图和遮挡掩码的DispOccNet。这两个子网络被集成在一个特征级中间域中,使左视图和右视图完全对称。
 
StyleNet:作者使用了[19]最早提出的,并在其他工作中[10,11,12,16]得到广泛应用的默认风格网络结构。该架构基本上类似图像自动编码器,它由若干个指定步幅的卷积层(将图像编码到特征空间中)、五个残差模块和少数指定步幅的卷积层(将特征解码为图像)组成。在该实现中,遵循了与[10]相同的设置,其中第三个残差块(包括第三个残差块)之前的层被视为编码器,而剩余层被视为解码器。
 
DispOccNet:最近,Mayer等人引入了称为DispNet的端到端卷积网络,它被用于视差估计[26]。然而,它只能预测每个前向的单向视差图DI(l→r)。在本文中,作者使用类似的网络结构,但在扩展部分中为每个分辨率(1/64,...1/2)增加了三个分支。这三个分支用于回归视差Dr和双向遮挡掩码Ml和Mr。
 
论文:Stereoscopic Neural Style Transfer(立体神经风格转换器)
 
论文链接:https://arxiv.org/abs/1802.10591
 
摘要:本文首次尝试实现立体神经风格转换,以应对3D电影或AR/VR的新需求。我们首先仔细检验了将现有的分别应用于立体图像的左视图和右视图的单目风格转换方法,表明在最终的风格化结果中不能很好地保持原始的视差一致性,这给观看者造成了3D疲劳。为了解决这个问题,我们通过在非遮挡区域中加强双向视差约束,向广泛采用的风格损失函数中加入了一个新的视差损失。为了得到实用的实时性解决方案,我们提出了第一个前馈网络:它联合训练一个风格化子网络和一个视差子网络,并将它们集成在一个特征级的中间域中。我们的视差子网络也是用于同时估计双向视差和遮挡掩码的首个端到端网络。最后,综合考虑时间连贯性和视差一致性,我们将该网络有效地扩展到立体视频上。实验结果表明,该方法无论在数量上还是质量上都明显优于基准算法。
smarthome
我们关注自动驾驶领域的价值发现和趋势,如果你希望寻求报道,欢迎随时和我们联系。