AI小课堂丨AI绘画中的高级模型,跟别人拉开差距的关键
14712 1
实名

通过了实名认证的内容创造者

发布于 2023-7-29 02:01:19

您需要 登录 才可以下载或查看,没有账号?注册

x


ff8366266bd667251befcce69b1cff1a.png





进阶模型概念


AI的本质其实跟人一样,通过人类给它输入学习的知识。这个过程就好比小学的时候老师讲了一个生词,学生往往会去翻看各种书籍、字典,找到它对应的含义并且大声地读出来。记住这个比喻,接下来它能帮助你理解一系列的进阶模型概念。
Chckpoint是最“大”的一个模型,就像一本厚厚的《新华字典》一样,记录的信息是非常大而全的。在它的支持下,你可以放心地通过提示词向你的AI描述各种奇奇怪怪的东西。

694234d8bb6b5a31e89fa88a9b5147b0.png

除了Checkpoint以外,Stable Diffuion或者利用扩散模型进行的图像生成中,还有其他几种更“专”、更“高级”的小模型,在作图过程中发挥着巨大的作用。这其中就包括我们下面要提到的Embeddings、LoRA和Hypermetwork,它们对于初学者而言最容易接触到的几种小模型形式。学会在WeBUI中运用这些不同类型的模型,你可以轻松实现针对特定人物的创作、画风的自由切换,甚至是角色设计三视图的绘制。


Embeddings(词嵌入)的概念及三种应用


先来说说Embeddings,直接翻译成中文叫做“词嵌入”。在C站等模型网上,使用标准进行筛选时,它们也会以另外一种形式被表述。就是这个Textual Inversion-“文本倒置”,如果你点进这些模型下载页面,你会发现这些模型文件非常非常小,小到可能只有几十KB。其实这就是Embeddings文件的精髓所在。



如果说Checkpoint是一本“大字典”那Embeddings就像上面的一片小”书签“,它能精确地为你指向个别字、词的含义。从而提供一个极其高效的索引。
除了能帮AI更好地画好字典里已有的东西以外,有时候也可以帮我们实现特定形象的呈现。例如,我们想让AI画一只“猫又”,字典里虽然没有直接记载“猫又”这种比较偏僻的概念。但它知道猫怎么画,知道人怎么画,也可能知道妖怪怎么画,那我们就在字典上记载这些概念的页面里分别夹上一片醒目的书签。AI在听到猫又这个词的时候,把里面的信息汇总在一起,就知道猫又是什么东西了。



如果你理解了这个概念,Embeddings模型这么小,其实也不足为奇了。因为它本身不包含内容,只是一个标记而已。Embeddings在深度学习领域的全称叫做“嵌入式向量”,向量在数学里就是一个带有方向、指向性的“量”。这一点和我们提及的它的作用是完全吻合的。
Embeddings可以为我们指向某种特定的形象,C站上就有很多基于特定动漫角色形象训练的Embeddings,我们选择一个尝试一下。顺便梳理使用Embeddings的基本方法,下载下来的embeddings文件后续一般和vae一样是PT的。它需要被放在Models文件夹旁边的同名文件夹里,在WeBUI中,Embeddings不需要特别调用,你只需要在提示词里用特定的“咒语”去召唤它。就能启动我们刚刚说的那个按书签翻字典的过程,一般它们的Model Card里都会标注,你只需要在提示词里输入Trigger Words里的词。



这里来做一组对照试验,我们先不带这个Embeddings的相关提示词,使用其他的提示词描述都是非常宽泛的。先这样出一张图,画出来的人很美,也很精致。此时,我们固定住随机种子,加入Embedddings的关键咒语。此时生成的关键特征已经被呈现到画面上了。









如果你想进一步让她变得更像模型一点,可以试试反推提示词,把模型上面的图丢到图生图里面,在图生图窗口的一侧,有一系列“反推提示词”的选项。这里可以识别图像已有的成分,再总结成AI的字典里有的东西,帮助你来描述AI的一些东西 。



DeepBooru和CLIP可以算是两种不同的图像识别算法,这里推荐用DB,因为它的速度和识别准确度更高一点。识别完你可以自己再筛选一下删掉、修改或者降低权重,保留准确的。完了以后再把它们加在提示词的后面,生成的形象就更加准确了。当然,想要做到和模型一模一样还是没办法做到的,毕竟Embeddings到头来也就是几十KB的小文件。只是让AI去按图索骥而已,针对角色形象而言,我们通常使用LoRa去做。但对于一些更为广泛、容错率更高的形象概念,Embeddings的表现会好很多。

AI不会画手?
Embeddings常常用于解决AI绘画过程中的一个痛点:AI不会画手。其实AI不光不会画手,对人体的结构也是没有完整的认知。它只知道人有两只手两只脚,有时候却不知道它们是怎么拼到一起的。
目前C站上排行前几个Embeddings都是为了解决这个问题而诞生的,它们整合了AI画错了的案例,用“书签”标记出来。如果你想让AI画“准确”的东西,只需要避开这些错误案例就行了。



我们来试试看,用这个badhandv4模型为例,按照一样的方式下载移动到指定路径中。同样,它需要用提示词来激活,但不同的是这个提示词需要放在“负面提示词”里。可以看到加上Embeddings后有了明显的区别。











LoRA(低秩适应模型)概念简析


接下来我们来讲讲LoRa,它的全称是Loe-Rank Adaptation Models(低秩适应模型),一般我们叫做LoRa。LoRa的作用在于帮助你向AI传递、描述某一个特征准确、主题清晰的形象。比如你可以跟AI说帮我画一个“猪猪侠”但AI肯定对这个是没什么概念的。我们可以通过很多个书签,让它凑出一个猪猪侠来,效果可能不太好。
我们回到那个翻字典的例子,如果说Embadding是轻薄便利的小书签,那LoRa就好像是中间夹着的彩页一样。直接在纸上写明白了,猪猪侠是什么,有什么特点。这样AI对于猪猪侠的认知理解一定是更加全面且准确的。因此它的大小会比Embadding大得多,但对于Checkpoint来说还是很小。
LoRa的一个主要应用是各种游戏、动漫角色的二次创作构建。因为训练LoRa需要针对一个对象的各方面的素材。
如果是人物,那就需要不同姿势、不同表情甚至是不同画风的东西,来帮助AI固定里面的特征点。一些热门的ACG角色往往拥有充分的素材可供训练。在保持刚刚所有的提示词、描述、种子都不变的情况下,把Embadding换成LoRa。LoRa的放置位置在Model文件夹下面的LoRa子文件夹。放进去以后记住你的文件名字,打上这个放提示词里就可以触发了。点击生成,效果是不是比刚刚的要好呢?









LoRa在使用的时候会有一些小问题,因为它的训练图源复杂,一般也会对画风构成进行影响。

Hypermetwork(超网络)概念简析


最后一种模型叫做Hypernetwork(超网络),听起来好像挺厉害的,实际上最终效果跟LoRa差不多。你可以用它让AI学习一些原来不存在与它的世界里的东西。如果说LoRa是传单,那Hypermetwork就是小卡片。但它们的区别是Hypermetwork一般用于改善生成图像的整体风格,也就是“画风”。
不过在网上,大部分研究者对Hypermetwork在图像生成方面的评价不是很好,至少不如LoRa和Embaddings那么好。其次,它的作用是可以被LoRa给替代的,因为现在很多LoRa在训练的时候也加入了画风塑造,尽管这样,在不同画风的塑造上,超网络仍然可以给你提供不少帮助。











在C站上,有不少Hypermetwork可以选择,例如雕塑风格、像素画、抽象画等。












总结


我们分别学习了三种AI绘画的高级模型,Embeddings模型小可以用来生成一些特定角色的特征,而LoRa用来生成具体的角色是最方便的,它里面涵盖的扩散模型比较丰富。最后一种Hypermetwork适合用来生成一些特定的风格图,这三种模型配合使用能让你的图跟别人的产生明显的差异化。不过这里还是推荐使用LoRa进行学习Hypermetwork用来辅助不同风格的图产出,我们分享就到这里了,下期再见。。。



d02915f1730a14000fefbcf3220db9e4.png

评分

参与人数 1元素币 +10 活跃度 +3 展开 理由
hsk1102 + 10 + 3 大爱

查看全部评分

腾讯、西山居、完美世界场景概念设计师,天褚胡宇创始人,游徒游戏场景专家顾问。
使用道具 <
xdxttt  发表于 2023-7-29 12:30:26  
2#
创意不错 !!
回复 收起回复
使用道具
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表