文本到图像的人工智能2022年出现了爆炸式增长。像Stable Diffusion和 OpenAI 的DALL-E 2这样的系统存在争议,包括 DeviantArt 和 Canva 在内的平台已经采用它们来支持创意工具、个性化品牌甚至构思新产品。
但这些系统的核心技术所具有的能力远不止是创造艺术。它被称为扩散,被一些勇敢的研究小组用来制作音乐、合成 DNA 序列,甚至发现新药。
那么到底什么是扩散,为什么它比以前的技术水平有了如此巨大的飞跃?随着这一年的结束,有必要了解一下传播的起源,以及它如何随着时间的推移发展成为今天的影响力。Diffusion 的故事还没有结束——每个月都会对技术进行改进——但最近一两年取得了显着的进步。
GAN 生成对抗网络您可能还记得几年前深度伪造应用程序的趋势——将人物肖像插入现有图像和视频中以创建目标内容中原始主题的逼真替代品的应用程序。使用人工智能,这些应用程序会将人的脸——或者在某些情况下,他们的整个身体——“插入”到一个场景中,通常足以让人乍一看就糊涂。
这些应用程序中的大多数都依赖于一种称为生成对抗网络(简称 GAN)的 AI 技术。
GAN 由两部分组成:从随机数据生成合成示例(例如图像)的生成器和试图区分合成示例和来自训练数据集的真实示例的鉴别器。(典型的 GAN 训练数据集由数以亿计的 GAN 预计最终捕获的事物的示例组成。)生成器和鉴别器都提高了各自的能力,直到鉴别器无法从合成示例中分辨出真实示例,效果优于机会预期的 50% 准确度。
但在实践中,GAN 由于其架构而存在许多缺点。同时训练生成器和鉴别器模型本质上是不稳定的;有时生成器会“崩溃”并输出许多看起来相似的样本。GAN 还需要大量数据和计算能力来运行和训练,这使得它们难以扩展。
Diffusion(扩散)的诞生扩散如何运作
扩散的灵感来自于物理学——在物理学中,某些东西从浓度较高的区域移动到浓度较低的区域的过程,就像方糖溶解在咖啡中一样。咖啡中的糖粒最初集中在液体的顶部,但逐渐分布。
扩散系统特别借鉴了非平衡热力学中的扩散,其中该过程会随着时间的推移增加系统的熵或随机性。考虑一种气体——它最终会通过随机运动均匀地扩散到整个空间。类似地,像图像这样的数据可以通过随机添加噪声来转化为均匀分布。
扩散系统通过添加噪音慢慢破坏数据结构,直到除了噪音什么都没有。
在物理学中,扩散是自发的且不可逆的——扩散到咖啡中的糖无法恢复为立方体形式。但是机器学习中的扩散系统旨在学习一种“反向扩散”过程来恢复被破坏的数据,从而获得从噪声中恢复数据的能力。
图片来源: OpenBioML
CLIP + Diffusion扩散系统已经存在了将近十年。但 OpenAI 的一项相对较新的创新称为 CLIP(“对比语言-图像预训练”的缩写),使它们在日常应用中更加实用。
CLIP 对数据(例如图像)进行分类,以根据在给定文本提示(例如“鲜花草坪上的狗的草图”)下进行分类的可能性为扩散过程的每个步骤“评分”。
一开始,数据的 CLIP 评分非常低,因为它主要是噪音。但随着扩散系统从噪音中重建数据,它慢慢地接近匹配提示。一个有用的类比是未雕刻的大理石——就像一位雕刻大师告诉新手在哪里雕刻,CLIP 将扩散系统引导到给出更高分数的图像。
OpenAI 引入了 CLIP 以及图像生成系统 DALL-E。从那时起,它就进入了 DALL-E 的继任者 DALL-E 2,以及 Stable Diffusion 等开源替代品。
CLIP + Diffusion 能做什么?那么 CLIP 引导的扩散模型能做什么呢?嗯,正如前面提到的,他们非常擅长创作艺术——从写实艺术到几乎任何艺术家风格的素描、素描和绘画。事实上,有证据表明他们有问题地反省了一些训练数据。
这并不是说扩散最终不会被更高效、性能更高的机器学习技术所取代,就像 GAN 与扩散一样。但这是大谈特谈的架构是有原因的;如果不是万能的,扩散就什么都不是。
使用引导扩散模型来创作新音乐Harmonai是一家获得 Stability AI 资金支持的组织,
Stability AI是 Stable Diffusion 背后的伦敦初创公司,它发布了一种基于扩散的模型,该模型可以通过对数百小时的现有歌曲进行训练来输出音乐片段。最近,开发人员 Seth Forsgren 和 Hayk Martiros 创建了一个名为
Riffusion的业余项目,该项目使用在音频的频谱图(视觉表示)上巧妙训练的扩散模型来生成小调。
将扩散技术应用于生物医学一些实验室正试图将扩散技术应用于生物医学,以期发现新的疾病治疗方法。正如《麻省理工学院技术评论》本月早些时候
报道的那样,初创公司 Generate Biomedicines 和华盛顿大学的一个团队训练了基于扩散的模型,以生成具有特定特性和功能的蛋白质设计。
这些模型以不同的方式工作。Generate Biomedicines通过解开构成蛋白质的氨基酸链来增加噪音,然后在研究人员指定的限制条件下将随机链放在一起形成新的蛋白质。另一方面,华盛顿大学的模型从一个混乱的结构开始,并使用有关蛋白质片段应如何组合在一起的信息,该信息由一个经过训练以预测蛋白质结构的独立人工智能系统提供。
他们已经取得了一些成功。华盛顿大学小组设计的模型能够找到一种可以附着在甲状旁腺激素上的蛋白质——甲状旁腺激素是一种控制血液中钙水平的激素——比现有药物效果更好。
与此同时,在
OpenBioML 上,Stability AI 支持将基于机器学习的方法引入生物化学,研究人员开发了一种称为 DNA 扩散的系统来生成细胞类型特异性调节 DNA 序列——影响细胞类型的核酸分子片段。生物体内特定基因的表达。如果一切按计划进行,DNA 扩散将根据文本指令生成调控 DNA 序列,例如“将基因激活到其在 X 细胞中的最大表达水平的序列”和“激活肝脏和心脏中基因的序列” ,但不在大脑中。”