❤️ Doar
Brainy é um assistente de pesquisa open source disponível em askbrainy.com e no Telegram. O projeto usa ferramentas gratuitas e um orçamento reduzido. Atualmente, roda em um Mac mini A1347 (2012, MD387D/A) adquirido no eBay por € 56 (sem frete). Esse equipamento mantém o serviço disponível, mas não é adequado para executar LLMs modernos localmente.
Apesar de ter 16 GB de RAM e SSD, o Intel Core i5‑2415M e a Intel HD 3000 limitam o desempenho do inferência local. Por isso, o Brainy utiliza Together AI para inferência. Isso atende ao objetivo, com algumas limitações:
- Nos endpoints gratuitos, o contexto é reduzido (8.193 tokens somando entrada+saída). Consultas com múltiplos documentos e históricos longos alcançam rapidamente o limite.
- Limites de RPM/TPM são atingidos cedo conforme o uso cresce.
- Pools gratuitos de modelos podem ficar congestionados e rejeitar solicitações.
O equipamento permanece ligado 24/7 (≈ € 10/mês em energia). As doações têm efeito direto e mensurável.
O Brainy permanecerá gratuito e open source. As doações evitam paywalls e mantêm o código aberto.
🎯 Metas de financiamento
1) US$ 50 (micro)
Recarregar Together AI para aumentar a vazão. Objetivo: Build Tier 2, reduzindo “429 busy”/fila e permitindo mais solicitações em paralelo.
2) US$ 750 (macro)
Adquirir um Mac mini (M4, CPU 10 núcleos / GPU 10 núcleos, 16 GB unificada) — ex.: computeruniverse.net.
Justificativa: eficiência energética e desempenho suficiente para rodar modelos ~14B (quantizados) localmente, reduzindo a carga sobre a Together. Apple informa 4 W em idle / 65 W máx. para o M4 básico; o Mini 2012 chega a 85 W.
⏳ Progresso
Meta: US$ 750
US$ 0 [>-----------------------] 0%
Publicidade, patrocínios e parcerias também contam para a meta.
✉️ [email protected]
🧠 Motivos para o M4
1) Desempenho (14B, quantizado)
Máquina | Stack | Modelo / Quant | Tokens/s (TG) | Observações |
---|---|---|---|---|
Mac mini (2012) i5‑3210M, CPU | llama.cpp (CPU), Q4 | ~0,5–1,5 t/s (est.) | Em CPUs mais novas, 13–34B ficam em ~1,5–4 t/s; o Ivy Bridge dual‑core é mais lento. | |
Mac mini (M4, 16 GB, 10‑GPU) | Metal/MLX, Q4/Q5 | ~15–20 t/s (est.) | Em M4 Pro (64 GB) há relatos de 30–35 t/s (Qwen 2.5 14B, MLX + speculative decoding). O M4 básico fica abaixo. | |
PC com RTX 3060 (12 GB) | llama.cpp (CUDA), Qwen2 14B Q5_K_M | 28,9 t/s (medido) | Benchmark de referência ~28,88 t/s; arquivo ~9,8 GiB. |
Conclusão: o M4 Mini supera amplamente o Mini 2012 e é competitivo com PC com 3060 para ~14B INT4/INT5, com menor consumo e aquecimento.
2) Eficiência energética (tokens por watt)
- Mac mini (M4, básico): 4 W idle / 65 W máx.
- Mac mini (2012): até 85 W máx.
- RTX 3060: TGP ≈ 170 W (somente GPU).
Estimativas (fase de geração):
- Mini 2012: ~1 t/s ÷ 85 W ≈ 0,012 t/s/W.
- M4 Mini: ~18 t/s ÷ 65 W ≈ 0,28 t/s/W.
- RTX 3060 (GPU): 28,9 t/s ÷ 170 W ≈ 0,17 t/s/W.
🔧 Together AI: observações
Alguns endpoints gratuitos aplicam limites por modelo. Com congestão, podem ocorrer erros 429 mesmo dentro dos limites.
Exemplo:
together.error.RateLimitError: Error code: 429
{"message":"You have reached the rate limit specific to this model meta-llama/Llama-3.3-70B-Instruct-Turbo-Free.
The maximum rate limit for this model is 6.0 queries and 180000 tokens per minute."}
A migração para Build Tier 2 usa pools menos congestionados e reduz 429.
📦 Impacto das doações
- US$ 50 (Build Tier 2): até 60 RPM em modelos free → menos 429 e mais concorrência.
- US$ 750 (M4 Mini): inferência local 14B utilizável e menor volume de chamadas de API.
Benefícios gerais: mais contexto, maior estabilidade em picos e iteração mais rápida.
💸 Como doar (cripto)
- USDT (TRC‑20):
TK5uyyAbuchtBS4hwWwtQA4G15MA54RDkG
- USDT (BSC):
0x942891F9a02632d67C496305c9746ACedfC0eb2D
- USDT (SOL):
5yzcNUo8r7goHZMzwF9hPS8MVqXevwuyT4S8hhyHQVqK
Contato: [email protected]
Obrigado pelo interesse. Qualquer contribuição ajuda a reduzir erros 429, melhorar tempos de resposta e otimizar o consumo de energia.