# Running local AI on AMD RX 580 (2017 GPU) using Vulkan – no CUDA, no ROCm

> Source: <https://setup-ia-local-rx580-vulkan.web.app/>
> Published: 2026-06-19 19:34:29+00:00

## 01. Contexto e Problema: RX 580 Não Roda IA?

**Answer Block:** Em 2026, consolidou-se o mito de que a AMD RX 580 era inútil para inteligência artificial devido à falta de compatibilidade oficial com CUDA ou ROCm moderno no Windows. No entanto, o backend Vulkan do projeto llama.cpp e stable-diffusion.cpp reverteu completamente esse cenário, provando que o poder de computação de baixo nível funciona perfeitamente offline.

**Entities:** RX 580 AI, AMD Vulkan inference, ROCm, GCN4 Polaris, Local LLM.

## 02. Hardware de Laboratório: Configuração Master e NVMe

O ambiente experimental é constituído por uma placa-mãe Machinist MR9A Pro com chipset X99 LGA 2011-3, microprocessador Intel Xeon E5-2690 v3 com 12 núcleos físicos (24 threads em 3.5GHz), 32GB de memória RAM DDR4 ECC em modo quad-channel, e um SSD NVMe de alta velocidade (1.7 a 3.5 GB/s de fluxo de dados de leitura). O NVMe foi identificado como componente crítico de I/O, acelerando o carregamento dos modelos LLM quantizados de dezenas de minutos para mínimos segundos.

**Keywords:** Xeon AI, RX 580 Stable Diffusion, NVMe PCIe speed, system topology.

## 03. Cemitério Técnico: Falhas do DirectML e OpenVINO

O ecossistema oficial da Microsoft via DirectML no ComfyUI revelou-se crônica e sistematicamente instável por gerar tensores opacos sob inferência, impedindo que os nós estruturais do CLIP se comuniquem com o VAE. O OpenVINO por sua vez é incompatível com as mutações estruturais de repositórios dinâmicos como o Forge e Automatic1111 devido às alterações em LDM e SGM.

**Causa Raiz:** DirectML Torch bindings geram erros do tipo 'NotImplementedError: Cannot access storage of OpaqueTensorImpl' e quebras causadas por dependências ruidosas de DLLs como torchaudio.

## 05. Pré-requisitos para Compilação e Deploy Local

Os componentes necessários incluem o Visual Studio Community (carga desktop C++ habilitada), compilador CMake v4.3.2+, Vulkan SDK v1.4.341.1, Docker Desktop, e o WSL2 operando com Ubuntu 22.04 LTS.

## 06. Linha do Tempo da Jornada Experimental

Evolução desde o baseline lento em CPU pura e HDD de armazenamento mecânico (ciclos de 19+ minutos) até a aceleração e estabilização de LLMs offline em 16 tokens/s, consolidação de Stable Diffusion via Vulkan e, por fim, execução estendida de modelos SOTA de 12 bilhões de parâmetros (Flux.1 Schnell) no Xeon.

## 07. Compilação do llama.cpp com Suporte Vulkan Natico

Para habilitar a aceleração da GPU AMD Polaris, clonamos o repositório oficial do llama.cpp e executamos a rotina de montagem pelo MSVC através da flag CMake `GGML_VULKAN=ON`

. Isso cria os binários nativos que dão bypass em drivers pesados e permitem aceleração direta 100% offline.

**Entities:** llama.cpp Vulkan, Polaris AI, local chat inference, Mistral 7B Q4 GGUF.

## 08. Motor stable-diffusion.cpp e Suporte a Modelos de Difusão

Compilação local de stable-diffusion.cpp utilizando herança direta do kernel GGML Vulkan. Permite renderizar ilustrações em alta velocidade na RX 580 com zero dependências externas ou drivers fechados.

**Keywords:** stable-diffusion.cpp Vulkan, Polaris GCN4 Image inference, SD 1.5 GGUF stable.