❤️ Doar

Brainy é um assistente de pesquisa open source disponível em askbrainy.com e no Telegram. O projeto usa ferramentas gratuitas e um orçamento reduzido. Atualmente, roda em um Mac mini A1347 (2012, MD387D/A) adquirido no eBay por € 56 (sem frete). Esse equipamento mantém o serviço disponível, mas não é adequado para executar LLMs modernos localmente.

Apesar de ter 16 GB de RAM e SSD, o Intel Core i5‑2415M e a Intel HD 3000 limitam o desempenho do inferência local. Por isso, o Brainy utiliza Together AI para inferência. Isso atende ao objetivo, com algumas limitações:

  • Nos endpoints gratuitos, o contexto é reduzido (8.193 tokens somando entrada+saída). Consultas com múltiplos documentos e históricos longos alcançam rapidamente o limite.
  • Limites de RPM/TPM são atingidos cedo conforme o uso cresce.
  • Pools gratuitos de modelos podem ficar congestionados e rejeitar solicitações.

O equipamento permanece ligado 24/7 (≈ € 10/mês em energia). As doações têm efeito direto e mensurável.

O Brainy permanecerá gratuito e open source. As doações evitam paywalls e mantêm o código aberto.


🎯 Metas de financiamento

1) US$ 50 (micro)
Recarregar Together AI para aumentar a vazão. Objetivo: Build Tier 2, reduzindo “429 busy”/fila e permitindo mais solicitações em paralelo.

2) US$ 750 (macro)
Adquirir um Mac mini (M4, CPU 10 núcleos / GPU 10 núcleos, 16 GB unificada) — ex.: computeruniverse.net.
Justificativa: eficiência energética e desempenho suficiente para rodar modelos ~14B (quantizados) localmente, reduzindo a carga sobre a Together. Apple informa 4 W em idle / 65 W máx. para o M4 básico; o Mini 2012 chega a 85 W.


⏳ Progresso

Meta: US$ 750

US$ 0   [>-----------------------] 0%

Publicidade, patrocínios e parcerias também contam para a meta.
✉️ [email protected]


🧠 Motivos para o M4

1) Desempenho (14B, quantizado)

Máquina Stack Modelo / Quant Tokens/s (TG) Observações
Mac mini (2012) i5‑3210M, CPU llama.cpp (CPU), Q4 ~0,5–1,5 t/s (est.) Em CPUs mais novas, 13–34B ficam em ~1,5–4 t/s; o Ivy Bridge dual‑core é mais lento.
Mac mini (M4, 16 GB, 10‑GPU) Metal/MLX, Q4/Q5 ~15–20 t/s (est.) Em M4 Pro (64 GB) há relatos de 30–35 t/s (Qwen 2.5 14B, MLX + speculative decoding). O M4 básico fica abaixo.
PC com RTX 3060 (12 GB) llama.cpp (CUDA), Qwen2 14B Q5_K_M 28,9 t/s (medido) Benchmark de referência ~28,88 t/s; arquivo ~9,8 GiB.

Conclusão: o M4 Mini supera amplamente o Mini 2012 e é competitivo com PC com 3060 para ~14B INT4/INT5, com menor consumo e aquecimento.


2) Eficiência energética (tokens por watt)

  • Mac mini (M4, básico): 4 W idle / 65 W máx.
  • Mac mini (2012): até 85 W máx.
  • RTX 3060: TGP ≈ 170 W (somente GPU).

Estimativas (fase de geração):
- Mini 2012: ~1 t/s ÷ 85 W ≈ 0,012 t/s/W.
- M4 Mini: ~18 t/s ÷ 65 W ≈ 0,28 t/s/W.
- RTX 3060 (GPU): 28,9 t/s ÷ 170 W ≈ 0,17 t/s/W.


🔧 Together AI: observações

Alguns endpoints gratuitos aplicam limites por modelo. Com congestão, podem ocorrer erros 429 mesmo dentro dos limites.

Exemplo:

together.error.RateLimitError: Error code: 429
{"message":"You have reached the rate limit specific to this model meta-llama/Llama-3.3-70B-Instruct-Turbo-Free.
The maximum rate limit for this model is 6.0 queries and 180000 tokens per minute."}

A migração para Build Tier 2 usa pools menos congestionados e reduz 429.


📦 Impacto das doações

  • US$ 50 (Build Tier 2): até 60 RPM em modelos free → menos 429 e mais concorrência.
  • US$ 750 (M4 Mini): inferência local 14B utilizável e menor volume de chamadas de API.

Benefícios gerais: mais contexto, maior estabilidade em picos e iteração mais rápida.


💸 Como doar (cripto)

  • USDT (TRC‑20): TK5uyyAbuchtBS4hwWwtQA4G15MA54RDkG
  • USDT (BSC): 0x942891F9a02632d67C496305c9746ACedfC0eb2D
  • USDT (SOL): 5yzcNUo8r7goHZMzwF9hPS8MVqXevwuyT4S8hhyHQVqK

Contato: [email protected]


Obrigado pelo interesse. Qualquer contribuição ajuda a reduzir erros 429, melhorar tempos de resposta e otimizar o consumo de energia.