Stable Diffusion 用户指南-快速入门-JieYingAI捷鹰AI

修订记录

读者对象

本文档适用于以下人群：

想学习AI绘画，并作为自己生产力的人。

想了解 Stable Diffusion 普通学生或工作者。

今天正式入坑Stable Diffusion，可点击文末的原文，进行原文阅读，体验更佳。另外视频教程，正在加紧制作中。

背景信息▍现阶段市面上有哪些AI绘画产品？我们应该如何选择？

罗列一些主流的AI绘画产品，并简单介绍各个AI绘画产品的定位和特性，以便大家有个全局概念，进行抉择。

首先，根据国内和国外进行一个归类分组：

国外：Stable Diffusion（简称SD）、Midjourney、DALL-E 3、Firefly Image 2。

国内：百度文心一格、阿里通义万相、美图WHEE、360鸿图、海艺AI......

根据AI绘画的质量和口碑上进行一个归类分组：

第一梯队：Stable Diffusion（简称SD）、Midjourney。

第二梯队：DALL-E 3、Firefly Image 2。

第三梯队：百度文心一格、阿里通义万相、美图WHEE、360鸿图、海艺AI......

若你要入坑AI绘画且需求较高，并不是仅体验一下，那么推荐Stable Diffusion或Midjourney；若你为了新鲜感想去体验下那么推荐DALL-E 3、Firefly Image 2、百度文心一格、阿里通义万相。

▍Stable Diffusion 是什么？

Stable Diffusion（简称SD）是一种生成式人工智能，于2022年发布，主要用于根据文本描述生成详细图像，也可用于其他任务，如图像的修补、扩展和通过文本提示指导图像到图像的转换。除图像外，您还可以使用该模型创建视频和动画。

这是AI绘画第一次能在可以在消费级显卡上运行，任何人都可以下载模型并生成自己的图像。另外，SD高质量的成图以及强大的自由度（自定义、个性化）受到诸多网友的追捧。Stable

Diffusion XL 1.0 (SDXL 1.0) 是Stable Diffusion的一个更为高级和优化的版本，它在模型规模、图像质量、语言理解和模型架构等方面都有显著的改进。

▍Stable Diffusion 能做什么？

首先，大家在入坑SD前，务必要清楚现阶段的SD到底能做什么？能否满足自己的需求？

Stable Diffusion 功能包括文本转图像、图像转图像、图形插图、图像编辑和视频创作。

▍Stable Diffusion如何使用？

使用Stable Diffusion的方式一般有三种：一是部署在个人电脑上，二是部署在云端上，三是在某些平台在线使用。

▍Stable Diffusion VS Midjourney

众所周知，AI绘画领域的顶端有两大工具：Stable Diffusion和Midjourney，不少人会纠结于两者，不知道该选择哪一个才好。

Midjourney使用非常简单，基本无门槛，线上使用，对硬件要求低，但需要付费和科学上网。用户只需专注自己的Prompt[//]: # (提示词，在AI绘画中Prompt是指一段文本或图像+文本，用于描述你想要生成的图像的样子。)，就能出现精美的图片，而且复现其他人分享的Prompt也很容易。

Stable Diffusion开源，可以本地部署，无需联网，无需付费，尤其是可以训练专属于自己的模型，但硬件要求高，部署也较麻烦，学习成本高。用户不但要学习很多背景知识，而且要一定的动手能力。另外，即使你有对方的Prompt，也不容易复现。

以下是Midjourney和Stable Diffusion部分维度的对比。

就我而言，我更加推荐Stable Diffusion。

安装和部署Stable Diffusion

介绍如何安装和部署Stable Diffusion。我使用的是B站UP主@秋葉aaaki的整合包，我这里只介绍该整合包的安装和部署。

▍背景信息

1. 从软件层面上讲，安装部署Stable Diffusion的方式主要有两种：一是传统原生安装方法，二是整合包安装方法。

传统原生安装：即从零开始安装部署Stable Diffusion，需要我们先部署所需的Python，Git环境以及依赖，再安装Stable Diffusion。操作较繁琐和有一定的门槛，这适合有编程基础，有一定经验的人。整合包安装：即一步到位，整合包里就有所需的Python，Git环境以及依赖、以及预设置好的部分模型和插件。整合包的出现就是为了避免繁琐的步骤，这非常适合小白，无任何经验的人。我个人推荐B站UP主@秋葉aaaki的整合包。

2. 从硬件层面上讲，安装部署Stable Diffusion也有两种方式：一是部署在云电脑上，二是部署到个人电脑上。

云电脑：是一种基于云计算的虚拟桌面服务，它可以让用户在任何地方使用任何设备访问其桌面和应用程序。如Microsoft Azure、Amazon WorkSpaces、腾讯云、阿里云等。需要掌握云端部署知识和进行付费。

个人电脑：即个人使用的电脑，对其有一定的性能要求，如你想玩3A游戏，那么就需要有高性能的电脑，使用Stable Diffusion同理。以下是结合诸多文章总结出来的推荐配置，大同小异。

电脑系统：Windows10及以上/macOS Monterey (12.5)。

显卡：RTX3060及以上。

显存：8G及以上。

内存：16G及以上。

磁盘空间：500 SSD及以上

3. Stable Diffusion主要消耗电脑显卡（GPU）和显存，显卡性能越强出图的效率越高，显存越大图片分辨率就可以设置的越高。

显卡如何选择？根据国外一个测评文章：不同显卡在生成512x512分辨率的图像时的速度，单位是每秒生成的图像数（it/s），显存默认8G。显示了Nvidia的RTX 40系列显卡是最快的（绿色和灰色），其次是AMD的RX 7900系列（红色），再次是Nvidia的RTX 30系列（深绿色和黑色），最后是AMD的RX 6000系列和Intel的Arc系列（蓝色）。所以，我更加推荐Nvidia的显卡（N卡），最低也得是RTX 3050 8G。我个人是使用的是RTX 3060 12Ｇ。

若你不了解什么是显卡、内存等概念，可以观看此视频：

▍前提条件▍操作步骤

步骤一：右键解压Stable Diffusion安装包。

步骤二：双击Stable Diffusion安装包进入文件夹中，解压sd-webui-aki-v4.2。

步骤三：双击启动器运行依赖-dotnet-6.0.11，安装所需依赖。

步骤四：双击sd-webui-aki-v4.2进入该文件夹中，下拉找到A启动器并启动。

注：第一次启动，需要一些时间部署Python和Git环境，请耐心等待，后面启动就很快了。若未弹出WebUI界面，请将复制链接：:7860 到浏览器中即可。

若弹出Stable Diffusion WebUI界面，则表示启动成功。

——结束

3Stable Diffusion WebUI界面介绍▍背景信息

Stable Diffusion WebUI是什么？它和Stable Diffusion有什么关系？

WebUI，全称Website User Interface，网页用户界面，是指采用图形方式显示的程序/软件的操作界面。如知乎网页版就是一个网页用户界面。

Stable Diffusion WebUI就是控制Stable Diffusion程序的一个网页界面。与早期Stable Diffusion使用的命令窗口相比，除了降低用户的操作负担之外，对于新用户而言，图形界面在视觉上更易于接受，学习成本大幅下降，也让Stable Diffusion的大众化得以实现。

正因为Stable Diffusion开源的特性，@AUTOMATIC1111 大佬才能为其设计了WebUI，并公布在GitHub上，至今有100K星，近20K的分享。

▍Stable Diffusion WebUI介绍

1. Stable Diffusion WebUI界面主要分为三个区域：模型选择区、功能选择区、参数配置区。

2. 里面的参数非常多，第一次看到定会眼花缭乱，我对此进行了一次归类分组，这些参数主要分为两类：

一是为了告诉AI，用户的需求是什么，进而完成作图任务，称为基础参数。如提示词框、模型选择，迭代步数，采样器，图片尺寸等。

二是为了高效率地完成这个任务而存在的参数，称为额外参数，是非必要的参数。如垃圾桶，一键清除提示词、文件夹、打包下载、预设样式等。

那么，现在我们在看到某个参数时就知道它大致的作用是什么了。

Stable Diffusion 布局/参数介绍

接下来我将依次介绍Stable Diffusion文生图功能中的参数，指导用户快速了解和使用这些参数，以便更好地出图。

注：1. 这里的参数介绍只起到指导性作用，若想进一步了解各个参数的细节和原理，请阅读后续的文章。2. 由于这是整合包相比较原生的Stable Diffusion安装包，功能较多，且已经汉化了。

模型选择区

1. Stable Diffusion模型：下拉选择大模型，默认anyting-V5模型。请根据自身需求选择不同类型的模型，如现实主义风格的模型；动漫，二次元风格的模型。

2. 外挂VAE模型：下拉选择VAE模型，默认无。是可选操作，可以选择不同效果的VAE模型，对成图细节或颜色进行修复，同时选择VAE也可以起到节省电脑算力的作用。

3. CLIP终止层数（Clip Skip）：滑动确认或输入层数，层数范围为1~12层，默认层数为2。1层，成图更加精确；2层，成图更加平衡，即AI遵循提示词，也有一定自己的创意；3-12层，成图更加有创意。这里推荐2层。若你希望AI更加有自己的创意，还是请调节提示词引导系数（CFG Scale）参数，效果会更好。

注：选择模型时，需要提前下载模型并存储到对应的路径中。模型下载可前往：huggingface网站或Civital网站。Stable Diffusion模型存储位置是：*modelsStable-diffusion。VAE模型存储位置是：*modelsVAE。存储完后，点击“”即可。

功能配置区

1. 文生图（txt2img）：根据文本描述生成对应的图片。

2. 图生图（img2img）：根据图片、文本生成新的图片。如线稿上色，图片重绘。

3. 后期处理：对单张或多张图片进行放大，缩小处理。

4. PNG图片信息（PNG Info）：上传图片即可解析图片的提示词和参数配置信息。

5. 模型融合：将2或3个模型进行融合。最终模型权重是前两个模型按比例相加的结果。需要 A、B 两个模型。计算公式为 A * (1 - M) + B * M。

6. 训练（Train）：训练模型，可训练自定义的模型。

7. 系统信息：展示Stable Diffusion的服务器、版本、运行平台/状态、电脑内存等信息。

8. 附加网络（Addtional Networks）：同时使用多个Lora模型的插件/拓展。

9. 无边图像浏览：即图片浏览器，拓展功能。可以更好地浏览和管理生成的图片。

10. 模型转换：将模型进行转换，如更换名字，权重等。

11. 超级模型融合：是模型融合功能的升级版，支持更多参数配置。

12. 模型工具箱：即分析某个模型的具体信息，以报告书的形式展示。

13. WD1.4标签器：即上传图片，分析图片的提示词以及评估提示词的权重。

14. 设置（Settings）：设置Stable Diffusion工具，如图片存储路径，各个参数设置以及系统设置。

15. 拓展（Extensions）：管理拓展功能，包括更新，删除拓展。

注：蓝色表示的功能是拓展功能，是秋叶整合包，自带的拓展，可以在设置中进行删除。

参数配置区

简单介绍各个参数信息，分为基础参数、额外参数以及老版本的参数。

基础参数

1. 正向提示词（Prompt）：输入你希望图片中出现什么内容。仅支持英文输入。

2. 反向提示词（Negative prompt）：输入你不希望图片中出现什么内容，比如多手指。仅支持英文输入。

3. 迭代步数（Sampling Steps）：设置图片去噪的步数，步数越多画面越精细，出图时间也越长。步数范围1～150步，1～19步更加模糊，粗糙；20～40步，更加平衡；40～150步更加精细。其中并不是步数越多越好，为了避免过犹不及，这里推荐20～40步，更加平衡。

4. 采样方法（Sampler Method）：点击勾选采样方法。不同的采样方法，有不同效果，这里大家多次尝试即可。

5. 高分辨率修复（Hires. fix）：勾选即可将图片的分辨率放大。如从512512px到10241024。

请根据自身显卡性能，设置图片基础分辨率，请勿设置的过高，否则在勾选高分辨率修复后，会显示：Out Of Memory Error，爆显存了。

6. Refiner：待补充。

7. 尺寸（宽度、高度）：设置成图的尺寸。默认512512px。推荐的尺寸有：512768px、768512px、7681152。

8. 总批次数：指一次生成图片多少张，这里指陆续跑图。根据显卡性能，酌情设置，推荐1~4。

9. 单批数量：指一次同时生成几张图片，这里指同时跑图。显卡压力更大，不建议设置为2以上。

10. 提示词引导系数（CFG Scale）：AI遵循提示词的程度/成图与提示词相关度。数值越低更加精确，越高则更有创造力，这里推荐5~7更加平衡。

注：该参数类似于New Bing对话框中的选择对话样式，分为更有创造力、更平衡、更精确。提示词引导系数（CFG Scale）则是以具体的数值来供用户设置。

11. 随机种子数（Seed）：设置成图是否随机。文本框默认-1，表示随机产生不同的图片。点击“”将随机种子设置为-1；点击“♻️”将成图的种子数（即唯一编码），设置为随机种子数，在其他参数不变的情况下生成的图片相似99%；点击“⏹️”则是进行更多设置。

12. Tiled Diffusion：待补充。

13. Tiled VAE：待补充。

14. Additional Networks：待补充。

15. ControlNet：又称控制网，是拓展功能。它为用户在图像生成过程中提供了额外的控制。例如，你将某图像的姿态动作使用ControlNet进行处理和分析，可将其姿态作为一个输入，接着你在输入提示词后，启动ControlNet功能，那么新的成图就会有该姿态。

注：ControlNet的极大地丰富了控制Stable Diffusion的方法，促进了用户个性化和自定义设计。它可以通过ControlNets参数来处理条件输入，如边缘映射、分割映射和关键点，从而丰富了控制大型扩散模型的方法。

16. 脚本（Script）：一键测试提示词或各个参数变化对成图的影响。选项默认无，分为提示词矩阵、从文本框或文件载入提示词、X/Y/Z图表、controlnet m2m。

额外参数

1. 生成（Generate）：在设置好所需参数后，点击生成让AI开始生成图片。

2. ↙：点击即可从上次提示词或上次成图中读取所有参数。

此外用户可在C站一键复制某张图的生成数据，并粘贴到SD的提示词框中，再点击“↙”，即可一键完成参数设置，不过模型选择需要手动设置。

3. ：点击即可清空提示词内容。

4. ：点击即可显示/隐藏拓展模型。分为大模型和小模型，点击即可应用。点击模型左上角的图标，即可将当前成图替换成该模型的预览封面。

5. ：点击即可将所预设的样式插入当前提示词之后。

点击“”前，需先下拉选择预设样式。若没有预设样式，则需填写好提示词后，点击“”将当前提示词存储为预设样式。

6. ：点击即可将当前提示词存储为预设样式。

7. 成图展示区：展示最终图片的区域。点击图片可放大查看，点击“❎”即关闭放大查看图片。

8. ：点击即可查看所有成图的存储位置。

9. 保存（Save）：点击，出现图片下载控件。

10. 打包下载（Zip）：点击，将图片压缩，出现压缩包下载控件。

11. 发送到图生图（Send to img2img）：点击，将图片发送到图生图功能中。

12. 发送到重绘（Send to inpaint）：点击，将图片发送到图生图-局部重绘中。

13. 发送到后期处理（Send to extras）：点击，将图片发送到后期处理中。

14. 图片生成数据（Generation Data）：该区域展示图片的生成数据，包括提示词、参数配置、耗时等。可选中进行复制粘贴。

老版本参数（SD1.5.1）

1. 面部修复（Restore faces）：勾选即可修复成图脸部，这里较适合真人，不适合二次元和动漫人物。

2. 平铺图（Tiling）：勾选将成图变成平铺图。平铺图：指将一张图片多次重复排列，填满整个画布的效果。以下是平铺图的一种：

版权声明 1 本网站名称：捷鹰AI导航
2 本站永久网址：www.jieyingai.com
3 本站原创内容转载请注明出处，付费内容未经本站授权禁止转载二次发布
4 本站所有内容禁止用于任何非法用途！部分文章、素材、资源软件来自网络，仅供大家学习与参考。如有侵权，请联系站长QQ:1392478547进行删除处理
5 本站投稿禁止发布任何违法内容，如发现将立即封号处理，欢迎举报监督
6 本站附件资源、教程等内容如因时效原因失效或不可用，请联系留言或联系站长及时更新

THE END