Um LLM real rodando dentro da sua aba. Sem API key, sem backend, sem mandar nada pra lugar nenhum. Quando carregar, funciona até offline.
Aviso honesto antes de carregar:
O navegador baixa o modelo quantizado (q4) do CDN do MLC e cacheia no IndexedDB. Acontece uma vez por modelo.
Os shaders são compilados para a sua GPU via WebGPU. É o que faz a inferência ser rápida o suficiente pra streamar texto.
Cada token é gerado dentro da aba. Nada sai do seu computador. Funciona em modo avião depois do primeiro load.
Comparação qualitativa entre NoKey llm-local (Llama 3.2 1B / Qwen 0.5B no navegador) e APIs hospedadas como OpenAI GPT-4 e Anthropic Claude. Não estamos te enganando: cada um vence em coisas diferentes.
| Critério | NoKey · llm-local | OpenAI / Anthropic (API) | Vence |
|---|---|---|---|
| Privacidade (dados nunca saem) | Total — roda no navegador | Dados vão pro servidor do provedor | Local |
| Custo por mensagem | R$ 0 após o download | Pago por token | Local |
| Funciona offline | Sim, após primeiro load | Não | Local |
| Latência da primeira resposta | 1–3s (warm-up GPU) | 300–800ms | Cloud |
| Latência por token | Boa em GPU dedicada, lenta em integrada | Consistentemente rápida | Cloud |
| Qualidade em raciocínio complexo | Limitada (1B params) | Estado-da-arte | Cloud |
| Código longo / refatoração | Fraco | Forte | Cloud |
| Conhecimento de cauda longa | Limitado e desatualizado | Amplo e atualizável | Cloud |
| Conversa casual / resumo curto | Bom o suficiente | Excelente | Empate |
| Tradução PT↔EN simples | Funciona bem | Funciona bem | Empate |
| Conformidade (LGPD, dados sensíveis) | Trivial — nada sai | Exige DPA e cuidado | Local |
| Setup do usuário final | 1 download (~1GB) | Cadastro + chave + cobrança | Depende |
Regra simples: para tarefas curtas, conversa, dados sensíveis ou uso offline → NoKey llm-local. Para raciocínio pesado, código grande ou conhecimento profundo → API hospedada.