返回列表
您当前的位置:合肥教育培训学校 > 语言培训 > 热门课程 >

10 年研究积累,推动图像合成进入「PS」时代

发表于:2023-01-24 11:21:38

今年大火的图像合成方向已走过十年。

2022 年已经接近尾声。深度学习模型在生成图像方面的表现愈发出色,显然,未来该模型还将继续发展。今天的局面是如何一步步发展而来的呢?这得追溯到十年前,也就是当今所说的 "AI 之夏 " 的起源。下文以时间轴的形式追溯了一些里程碑,从论文、架构、模型、数据集到实验。

Hacker News 评论中有人指出,Hinton 等人的深度信念网早在 2006 年就被用于生成合成 MNIST 数字,参见深度信念网的快速学习算法 。

Durk Kingma 让我注意到变分自动编码器 ( VAEs ) 稍微先于 GANs,参见自动编码变分贝叶斯和这些早期结果在野外标记面部数据集。

@Merzmensch 在推特上强调了 DeepDream 的重要性,它可以被视为一种原始生成方法,对于图像合成的艺术方面。参见 inception: 深入神经网络。

起源 ( 2012-2015 )

一旦知道深度神经网络将彻底改变图像分类,研究人员就开始朝着 " 相反 " 的方向探索:如果可以使用一些能有效分类的技术 ( 例如卷积层 ) 来制作图像呢?

10 年研究积累,推动图像合成进入「PS」时代

Hello world!这是 GAN 生成的人脸样本,来自 Goodfellow 等人 2014 年的论文。该模型是在 Toronto Faces 数据集上训练的,该数据集已从网络上删除。

2012 年 12 月:"AI 之夏 " 的开始。Hinton 等人撰写的《ImageNet Classification with Deep Convolutional Neural Networks》一文发布,他们第一次将深度卷积神经网络 ( CNN ) 、GPU 和来自互联网的大型数据集 ( ImageNet ) 结合在一起。

10 年研究积累,推动图像合成进入「PS」时代

论文链接:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

2014 年 12 月:Ian Goodfellow 等人发表了《Generative Adversarial Nets》。GAN 是 2012 年之后第一个致力于图像合成而非分析的现代神经网络架构。它引入了一种基于博弈论的独特学习方法,其中两个子网络 —— " 生成器 " 和 " 鉴别器 " 互相竞争。最终,只有 " 生成器 " 从系统中保留下来,用于图像合成。

10 年研究积累,推动图像合成进入「PS」时代

论文链接 https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

2015 年 11 月:《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》发表,描述了第一个实际可用的 GAN 体系结构 ( DCGAN ) ,并且首次提出了潜在空间操纵的问题 —— 概念是否映射到潜在空间方向?

10 年研究积累,推动图像合成进入「PS」时代

论文链接:https://arxiv.org/pdf/1511.06434.pdf

GAN 的五年(2015-2020)

10 年研究积累,推动图像合成进入「PS」时代

Mario Klingenmann 所作《路人回忆 I》,2018 年。培根式的脸是这一领域 AI 艺术的典型,生成模型的非摄影现实主义是艺术探索的焦点。

GAN 可以应用于各种图像处理任务,如风格迁移,图像修复,去噪和超分辨率。与此同时,GAN 的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品相继出现。2018 年发生了第一桩 " 人工智能艺术 " 丑闻 —— 三名法国学生借用一位美国 19 岁高中毕业学生开源的 AI 算法创作的画作在佳士得拍卖行拍得 43 万美元。与此同时, transformer 架构彻底改变了 NLP,并且在不久的将来对图像合成产生了重大影响。

2017 年 6 月:文章《Attention is all you need》发表。transformer 架构 ( 以 BERT 等预训练模型的形式 ) 彻底改变了自然语言处理 ( NLP ) 领域。

10 年研究积累,推动图像合成进入「PS」时代

论文链接:https://arxiv.org/pdf/1706.03762.pdf

2018 年 7 月:文章《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》发表。对于后来的 CLIP 和 DALL-E 这样的模型来说,这篇文章和其他多模态数据集将变得至关重要。

10 年研究积累,推动图像合成进入「PS」时代

论文链接:https://aclanthology.org/P18-1238.pdf

10 年研究积累,推动图像合成进入「PS」时代

该面孔来自 thispersondoesnotexist.com 网站。2010 年代后期 GAN 架构的质量主要是在对齐的人脸图像上进行评估,而对于更异构的数据集,其成功程度有限。因此,在学术 / 工业和艺术实验中,人物面孔仍是重要参照依据。