NoKey · llm-local

Um LLM real rodando dentro da sua aba. Sem API key, sem backend, sem mandar nada pra lugar nenhum. Quando carregar, funciona até offline.

Aviso honesto antes de carregar:

Download único de ~500 MB a 1 GB (fica em cache do navegador, da próxima vez é instantâneo).
Precisa de WebGPU (Chrome/Edge 113+, Safari 18+). Em celular fraco ou navegador antigo, não vai rolar.
Qualidade de modelo pequeno (1B–0.5B parâmetros). Não compete com GPT-4 / Claude em raciocínio complexo, código longo ou conhecimento de cauda longa. Compete bem em conversa, resumo, tradução simples e tarefas curtas.
Primeira resposta após o load pode levar alguns segundos pra "esquentar" a GPU.

Como funciona

1. Download dos pesos

O navegador baixa o modelo quantizado (q4) do CDN do MLC e cacheia no IndexedDB. Acontece uma vez por modelo.

2. Compilação WebGPU

Os shaders são compilados para a sua GPU via WebGPU. É o que faz a inferência ser rápida o suficiente pra streamar texto.

3. Inferência local

Cada token é gerado dentro da aba. Nada sai do seu computador. Funciona em modo avião depois do primeiro load.

Benchmark honesto: onde ganhamos × onde perdemos

Comparação qualitativa entre NoKey llm-local (Llama 3.2 1B / Qwen 0.5B no navegador) e APIs hospedadas como OpenAI GPT-4 e Anthropic Claude. Não estamos te enganando: cada um vence em coisas diferentes.

Critério	NoKey · llm-local	OpenAI / Anthropic (API)	Vence
Privacidade (dados nunca saem)	Total — roda no navegador	Dados vão pro servidor do provedor	Local
Custo por mensagem	R$ 0 após o download	Pago por token	Local
Funciona offline	Sim, após primeiro load	Não	Local
Latência da primeira resposta	1–3s (warm-up GPU)	300–800ms	Cloud
Latência por token	Boa em GPU dedicada, lenta em integrada	Consistentemente rápida	Cloud
Qualidade em raciocínio complexo	Limitada (1B params)	Estado-da-arte	Cloud
Código longo / refatoração	Fraco	Forte	Cloud
Conhecimento de cauda longa	Limitado e desatualizado	Amplo e atualizável	Cloud
Conversa casual / resumo curto	Bom o suficiente	Excelente	Empate
Tradução PT↔EN simples	Funciona bem	Funciona bem	Empate
Conformidade (LGPD, dados sensíveis)	Trivial — nada sai	Exige DPA e cuidado	Local
Setup do usuário final	1 download (~1GB)	Cadastro + chave + cobrança	Depende

Regra simples: para tarefas curtas, conversa, dados sensíveis ou uso offline → NoKey llm-local. Para raciocínio pesado, código grande ou conhecimento profundo → API hospedada.