NoKey · llm-local
GitHub
100% local · WebGPU · sem servidor

NoKey · llm-local

Um LLM real rodando dentro da sua aba. Sem API key, sem backend, sem mandar nada pra lugar nenhum. Quando carregar, funciona até offline.

Aviso honesto antes de carregar:

  • Download único de ~500 MB a 1 GB (fica em cache do navegador, da próxima vez é instantâneo).
  • Precisa de WebGPU (Chrome/Edge 113+, Safari 18+). Em celular fraco ou navegador antigo, não vai rolar.
  • Qualidade de modelo pequeno (1B–0.5B parâmetros). Não compete com GPT-4 / Claude em raciocínio complexo, código longo ou conhecimento de cauda longa. Compete bem em conversa, resumo, tradução simples e tarefas curtas.
  • Primeira resposta após o load pode levar alguns segundos pra "esquentar" a GPU.

Como funciona

1. Download dos pesos

O navegador baixa o modelo quantizado (q4) do CDN do MLC e cacheia no IndexedDB. Acontece uma vez por modelo.

2. Compilação WebGPU

Os shaders são compilados para a sua GPU via WebGPU. É o que faz a inferência ser rápida o suficiente pra streamar texto.

3. Inferência local

Cada token é gerado dentro da aba. Nada sai do seu computador. Funciona em modo avião depois do primeiro load.

Benchmark honesto: onde ganhamos × onde perdemos

Comparação qualitativa entre NoKey llm-local (Llama 3.2 1B / Qwen 0.5B no navegador) e APIs hospedadas como OpenAI GPT-4 e Anthropic Claude. Não estamos te enganando: cada um vence em coisas diferentes.

CritérioNoKey · llm-localOpenAI / Anthropic (API)Vence
Privacidade (dados nunca saem)Total — roda no navegadorDados vão pro servidor do provedorLocal
Custo por mensagemR$ 0 após o downloadPago por tokenLocal
Funciona offlineSim, após primeiro loadNãoLocal
Latência da primeira resposta1–3s (warm-up GPU)300–800msCloud
Latência por tokenBoa em GPU dedicada, lenta em integradaConsistentemente rápidaCloud
Qualidade em raciocínio complexoLimitada (1B params)Estado-da-arteCloud
Código longo / refatoraçãoFracoForteCloud
Conhecimento de cauda longaLimitado e desatualizadoAmplo e atualizávelCloud
Conversa casual / resumo curtoBom o suficienteExcelenteEmpate
Tradução PT↔EN simplesFunciona bemFunciona bemEmpate
Conformidade (LGPD, dados sensíveis)Trivial — nada saiExige DPA e cuidadoLocal
Setup do usuário final1 download (~1GB)Cadastro + chave + cobrançaDepende

Regra simples: para tarefas curtas, conversa, dados sensíveis ou uso offline → NoKey llm-local. Para raciocínio pesado, código grande ou conhecimento profundo → API hospedada.