将模糊图片复原,小图片放大,谷歌的新AI照片升级技术
在Google AI 博客上发表的一篇题为“使用扩散模型生成高保真图像”(并被DPR发现)的帖子中,谷歌公司大脑团队的研究人员分享了他们在图像超分辨率方面取得的新突破。在图像超分辨率中,训练机器学习模型将低分辨率照片变成详细的高分辨率照片,其潜在应用范围从恢复旧的家庭照片到改善医学成像。
谷歌一直在探索一个名为“扩散模型”的概念,该概念于 2015 年首次提出,但直到最近,它才击败称为“深度生成模型”的深度学习方法系列。该公司发现,当要求人类进行判断时,其采用这种新方法的结果击败了现有技术。第一种方法称为SR3,或通过重复细化的超分辨率。以下是技术说明:
“SR3 是一种超分辨率扩散模型,它将低分辨率图像作为输入,并从纯噪声中构建相应的高分辨率图像,”谷歌写道。“该模型接受了图像损坏过程的训练,在该过程中,噪声会逐渐添加到高分辨率图像中,直到只剩下纯噪声为止。
“然后它学会了逆转这个过程,从纯噪声开始,并通过输入低分辨率图像的引导逐步去除噪声以达到目标分布。”
使用 SR3 升级之前(左)和之后(右)
已发现 SR3 在放大肖像和自然图像方面效果很好。当用于对人脸进行 8 倍放大时,它的“混淆率”接近 50%,而现有方法仅达到 34%,表明结果确实是照片般逼真。谷歌看到 SR3 在放大照片方面的效果,该公司又进一步采用了第二种方法,称为CDM,一种类条件扩散模型。
“CDM 是一种基于 ImageNet 数据训练的类条件扩散模型,用于生成高分辨率的自然图像,”谷歌写道。“由于 ImageNet 是一个困难的高熵数据集,我们将 CDM 构建为多个扩散模型的级联。这种级联方法涉及将多个空间分辨率的多个生成模型链接在一起:一个以低分辨率生成数据的扩散模型,然后是一系列 SR3 超分辨率扩散模型,逐渐将生成的图像的分辨率提高到最高分辨率。 ”
谷歌发布了一组示例,展示了级联放大的低分辨率照片。一张 32×32 的照片可以增强到 64×64,然后是 256×256。一张 64×64 的照片可以放大到 256×256,然后是 1024×1024。
正如您所看到的,结果令人印象深刻,尽管存在一些错误(例如眼镜框架中的间隙),但最终照片可能会被大多数观众第一眼视为真实的原始照片。“通过 SR3 和 CDM,我们已经将扩散模型的性能推到了超分辨率和类条件 ImageNet 生成基准的最先进水平,”谷歌研究人员写道。“我们很高兴能够进一步测试扩散模型对各种生成建模问题的限制。” 本文翻译来自B站;原文地址:
https://petapixel.com/2021/08/30/googles-new-ai-photo-upscaling-tech-is-jaw-dropping
全部评论