在家运行稳定扩散的友好指南 • –

动手实践微软 Copilot+ AI PC 的推出带来了大量机器学习增强功能,包括内置于 MS Paint 中的图像生成器,可在本地运行并将您的涂鸦变成艺术品。

唯一的问题是,你需要一台崭新的 Copilot+ AI PC 来解锁这些功能。好吧,要解锁 Microsoft 共同创造 无论如何。如果您有一块比较现代的显卡,或者一块不错的集成显卡,那么您 (可能) 就拥有了在机器上本地试验 AI 图像生成所需的一切。

自近两年前首次亮相以来,Stability AI 的稳定扩散模型已成为本地图像生成的首选,这要归功于其极其紧凑的尺寸、相对宽松的许可证和易于访问的特性。与许多专有模型(如 Midjourney 或 OpenAI 的 Dall-e)不同,您可以下载该模型并自行运行。

正因为如此,过去几年出现了大量的应用程序和服务,旨在使得在各种硬件上更容易部署稳定扩散衍生模型。

在本教程中,我们将研究扩散模型的实际工作方式,并探索在您的机器上本地运行它们的更流行的应用程序之一。

先决条件:

Automatic1111 的稳定扩散 Web UI 可运行多种硬件,与我们其他一些动手 AI 教程软件相比,它也不是非常耗资源。以下是您需要的内容:

  • 对于本指南,您需要一台 Windows 或 Linux PC(我们使用的是 Ubuntu 24.04 和 Windows 11)或一台 Apple Silicon Mac。
  • 兼容的 Nvidia 或 AMD 显卡,至少具有 4GB vRAM。任何相当现代的 Nvidia 或大多数 7000 系列 Radeon 显卡(一些高端 6000 系列显卡也可以使用)都应该可以正常工作。我们测试了 Nvidia 的 Tesla P4、RTX 3060 12G、RTX 6000 Ada Generation 以及 AMD 的 RX 7900 XT
  • 适合您的特定 GPU 的最新图形驱动程序。

扩散模型基础

在我们开始部署和运行扩散模型之前,可能值得从高层次了解一下它们的实际工作原理。

简而言之,扩散模型经过训练可以接受随机噪声,并通过一系列去噪步骤,得到代表特定提示的可识别图像或音频样本。

训练这些模型的过程也相当简单,至少从概念上来说是这样。导入大量带标签的图像、图形或有时是音频样本(通常从互联网上截取),并对其施加越来越高的噪声水平。在数百万甚至数十亿个样本的过程中,模型经过训练可以逆转这一过程,从纯噪声变成可识别的图像。

在此过程中,数据及其标签都会转换为相关向量。这些向量在推理过程中起到指导作用。当被问及“小狗在草地上玩耍”时,模型将使用此信息指导去噪过程的每个步骤,以实现所需的结果。

需要明确的是,这是一个过于简单的说法,但它提供了扩散模型如何生成图像的基本概述。幕后还有很多事情要做,我们建议查看 Computerphile 的稳定扩散 解释者 如果您有兴趣了解有关此特定 AI 模型的更多信息。

开始使用 Automatic1111

可以说,在本地运行扩散模型最流行的工具是 Automatic1111 的稳定扩散 Web UI。

Automatic1111 的稳定扩散 WebUI 提供了丰富的工具来调整您的 AI 生成的图像 – 单击可放大任何图像

顾名思义,该应用程序提供了一个简单的自托管 Web GUI,用于创建 AI 生成的图像。它支持 Windows、Linux 和 macOS,可以在 Nvidia、AMD、Intel 和 Apple Silicon 上运行,但有一些注意事项,我们稍后会提到。

实际安装会有所不同,取决于您的操作系统和硬件,因此请随意跳转到与您的设置相关的部分。

笔记: 为了使本指南更容易使用,我们将其分为四个部分:

  • Linux 上的介绍与安装
  • 在 Windows 和 MacOS 上运行
  • 使用稳定扩散 Web UI
  • 整合与结论
  • 英特尔显卡支持

    在撰写本文时,Automatic1111 的稳定 Diffusion Web UI 本身不支持英特尔显卡。不过,有一个 OpenVINO 分支可以在 Windows 和 Linux 上实现。遗憾的是,我们无法测试此方法,因此您的结果可能会有所不同。您可以在该项目中找到更多信息 这里

    在 Linux 上安装 Automatic1111 — AMD 和 Nvidia

    首先,我们将在 Ubuntu 24.04 系统上安装并运行 Automatic1111 Stable Diffusion Web UI(从现在起我们将简称为 A1111)。这些说明适用于 AMD 和 Nvidia GPU。

    如果您碰巧运行的是不同版本的 Linux,我们建议您查看 A1111 GitHub 仓库 有关发行版特定部署的更多信息。

    在开始之前,我们需要安装一些依赖项,即 git 和 software-properties-common 包:

    sudo apt install git 软件属性-common -y

    我们还需要获取 Python 3.10。不管怎样,Ubuntu 24.04 的存储库中没有包含此版本,因此,我们必须添加 Deadsnakes PPA,然后才能获取所需的软件包。

    sudo 添加 apt 存储库 ppa:deadsnakes/ppa -y sudo apt 安装 python3.10-venv -y

    注意:在我们的测试中,我们发现 AMD GPU 需要一些额外的包才能工作,然后重新启动。

    #仅适用于 AMD GPU sudo apt install libamd-comgr2 libhsa-runtime64-1 librccl1 librocalution0 librocblas0 librocfft0 librocm-smi64-1 librocsolver0 librocsparse0 rocm-device-libs-17 rocm-smi rocminfo hipcc libhiprand1 libhiprtc-builtins5 radeontop #仅适用于 AMD GPU sudo usermod -aG render,video $USER #仅适用于 AMD GPU sudo reboot

    理清依赖关系后,我们现在可以使用 git 下载 A1111 Web UI。

    git clone && cd stable-diffusion-webui python3.10 -m venv venv

    最后,我们可以通过运行以下命令启动 Web UI。

    ./webui.sh

    该脚本将开始下载适合您特定系统的相关软件包,并拉下 Stable Diffusion 1.5 模型文件。

    #AMD GPUS OMLY echo “导出 HSA_OVERRIDE_GFX_VERSION=11.0.0” >> ~/stable-diffusion-webui/webui-user.sh

    如果您仍然遇到问题,请查看我们的“有用的标志”部分以获取更多提示。

    在下一部分中,我们将深入研究如何在 Windows 和 macOS 中运行 A1111。

    1719678573
    2024-06-29 15:40:00
    #在家运行稳定扩散的友好指南 #Register

    Leave a Reply

    Your email address will not be published. Required fields are marked *

    近期新闻​

    编辑精选​