新智元报导
编写:Aeneas 困死了
【新智元前言】近期,Stable Diffusion早已刮起一股浪潮。让我们一起看看《哈利·波特》的主人公进到《权力的游戏》中,就会变成什么样?
近期,Stable Diffusion正在网络上走红,谁用哪位艺术大师。
作为一种从文字到图像的AI软件,它之所以能够刮起这么大惊涛骇浪,是因为其可以从简单文字提醒形成知名人物的真实图像。
与传统竞争者Dall-E2对比,Stable Diffusion把形成图像速度提升了整整三倍。
毕业论文详细地址:https://arxiv.org/abs/2112.10752
哈利·波特变权游
使我们看一看,用Stable Diffusion把《哈利·波特》中的人物变为《权力的游戏》中的人物,是什么效果吧。
asri·沃特森(赫敏·格兰杰检验)
赫敏格兰杰进到权游世界后,挺像丹妮莉丝·坦格利安的。
评价:可塑性很强的女演员,特别适合《权力的游戏》系列产品。
丹尼尔·雷德克里夫(哈利·波特)
他看起来像是琼恩·雪若吗?仿佛并不太像。
非要说的话,会更像尼克维诺·塔利一些。
鲁珀特·格林特(罗恩·韦斯莱)
不知为什么,罗恩在照片里会这么显矮。
乍一看,他看起来像是拉姆齐·布拉德福德(去皮警示)。但是他的品牌形象一点都不像一个可在冰与火之歌中开天辟地、总指挥部中的人。
拉尔夫·费恩(邓布利多)
邓布利多化身维斯特洛大陆战士后,也挺像模像样的。美妙的是,他和Night King也挺兼容。
麦克尔·刚本(阿不思·邓布利多)
谁会想到,霍格沃兹的校领导进到权游后,简直就像是以这儿土生土长的人物角色。他看起来像洋葱骑士(Davos Seaworth)和沃尔德·雷耶(Walder Frey)的融合。
那样, 这一奇妙的模型,到底是怎么搞的呢?
10步陪你了解Stable Diffusion
说白了,Stable Diffusion根据是指扩散模型(Diffusion Model)。
在其中,蔓延是将小的、随机事件噪音反复地导入到图像中的一个过程(从左往右)。而扩散模型是把这一过程反转,将噪音逐位变为图像(从左往右)。
那样,扩散模型是怎样将噪声变为图像的啊?非常简单,练习一个神经元网络就可以。
现在也有噪音图像的编码序列=x_1, x_2, ... x_T。神经元网络根据学习一个函数f(x,t),对x开展「一点点」去噪,从而产生x在时间流程t-1时的样子。
想要将纯噪声变为超清图像,仅需数次应用f就可以!
所以,扩散模型的伤害事实上仅仅:f(f(f(....f(N, T), T-1), T-2) ..., 2, 1)。
在其中,N是纯噪声,T是蔓延流程的总数,神经元网络f则一般被完成为一个UNet。
实践上,在大型512 x 512图像上训练和测算扩散模型是很迟缓和昂贵。
因此,Stable Diffusion是在图像的_embedding_中进行计算出来的,而非直接从图像自身上。
因而,Stable Diffusion的工作中分成二步。
第一步:应用伺服电机将图像「x」转化成一个较低维度的潜空表现「z(x)」;
第二步:在z(x)上运作蔓延和去噪,且不是x。
潜在性室内空间表明z(x)的层面比图像x小的多。这使_latent_扩散模型比一般扩散模型迅速、更具感染力。
文本提醒在哪呢?
实际上,Stable Diffusion并不是像最初所讲学习一个函数f(x,t)来对x开展「一点点」的去噪。反而是学了一个函数f(x,t,y),在其中y是具体指导x去噪的context(前后文)。
例如,在上面这张图片中,y便是图像标签的「北极狐」。
当应用Stable Diffusion形成图像时,输入文字提醒便是y。
那样,模型又是怎样解决前后文y的呢?
y和时间步长t一起,能通过下列两种形式引入潜在性室内空间表明z(x)中:
1)简易串连
2)交叉式留意
而Stable Diffusion则一起使用这两种方式。
自然,前后文体制实际上是非常灵活的。
例如让y=一个图像子网掩码,或是y=一个情景切分,而不只是让y=一个图像标识。
通过在不同数据上锻炼的Stable Diffusion,就能做图像修复和词义图像生成了 。
(平面图)
在Stable Diffusion文章中,根据更改「前后文」的表征方法,创作者展现了图像修复和图像生成的状况。
说到这里,是不是觉得手心痒了?
模型彻底公布了!
你说巧不巧,8月22日精英团队发文称,1.4版本的Stable Diffusion模型宣布向大众对外开放。
精英团队表明,v1.4的推荐量权重值是470k,比发放给科研人员的v1.3的440k,多了好几个练习流程。
现阶段,模型仅适用英伟达显卡,最后占用的显卡内存为6.9Gb。
在之后的时间内,精英团队也将持续发布模型的升级版本,及其大量性能和质量有所改善的组合和构架。
以后,Stable Diffusion模型都将可以在AMD、苹果公司M1/M2和其它主板芯片组上运作。
不愿一个人去调试得话,也可以考虑HuggingFace的demo。
详细地址:https://huggingface.co/spaces/stabilityai/stable-diffusion
参考文献:
https://medium.com/mlearning-ai/ai-transforms-five-harry-potter-cast-into-game-of-thrones-characters-39e4af6b426e
https://stability.ai/blog/stable-diffusion-public-release