❤️ Donar

Brainy es un asistente de investigación de código abierto disponible en askbrainy.com y en Telegram. El proyecto utiliza herramientas gratuitas y un presupuesto reducido. Actualmente se ejecuta en un Mac mini A1347 (2012, MD387D/A) adquirido en eBay por 56 € (sin envío). Este equipo garantiza la disponibilidad del servicio, pero no es adecuado para ejecutar LLM modernos de forma local.

Aunque dispone de 16 GB de RAM y un SSD, el Intel Core i5-2415M y la Intel HD 3000 limitan el rendimiento del inferido local. Por ello, Brainy utiliza Together AI para la inferencia. Esto funciona, con limitaciones:

  • En endpoints gratuitos, el contexto es limitado (8.193 tokens entre entrada y salida). La investigación con varios documentos y los historiales largos alcanzan rápidamente los límites.
  • Los límites de RPM/TPM se alcanzan pronto a medida que aumenta el uso.
  • Los pools gratuitos de modelos pueden saturarse y rechazar solicitudes.

El equipo permanece encendido 24/7 (≈ 10 €/mes de electricidad). Las donaciones tienen un efecto directo y medible.

Brainy seguirá siendo gratuito y de código abierto. Las donaciones evitan paywalls y mantienen el código accesible.


🎯 Objetivos de financiación

1) 50 $ (micro)
Recargar Together AI para aumentar el rendimiento. Objetivo: Build Tier 2, que reduce “429 busy”/tiempos de cola y permite atender más solicitudes en paralelo.

2) 750 $ (macro)
Adquirir un Mac mini (M4, CPU 10 núcleos / GPU 10 núcleos, 16 GB unificada) — por ejemplo: computeruniverse.net.
Motivo: mayor eficiencia energética y rendimiento suficiente para ejecutar modelos ~14B (cuantizados) de forma local, reduciendo la carga sobre Together. Según Apple: 4 W en reposo / 65 W máx. para el M4 base; el Mini 2012 llega a 85 W.


⏳ Progreso

Objetivo: 750 $

0 $   [>-----------------------] 0%

Publicidad, patrocinios y colaboraciones también cuentan para el objetivo.
✉️ [email protected]


🧠 Motivos del cambio a M4

1) Rendimiento (14B, cuantizado)

Máquina Stack Modelo / Cuant Tokens/s (TG) Notas
Mac mini (2012) i5-3210M, CPU llama.cpp (CPU), Q4 ~0.5–1.5 t/s (est.) En CPUs más recientes, 13–34B dan ~1.5–4 t/s; el Ivy Bridge de dos núcleos es más lento.
Mac mini (M4, 16 GB, 10‑GPU) Metal/MLX, Q4/Q5 ~15–20 t/s (est.) En M4 Pro (64 GB) se reportan 30–35 t/s con Qwen 2.5 14B (MLX + speculative decoding). El M4 base rinde menos.
PC con RTX 3060 (12 GB) llama.cpp (CUDA), Qwen2 14B Q5_K_M 28.9 t/s (medido) Benchmark de referencia ~28.88 t/s; archivo ~9.8 GiB.

Conclusión: el M4 Mini supera ampliamente al Mini 2012 y es competitivo con un PC con 3060 para ~14B INT4/INT5, con menor consumo y calor.


2) Eficiencia energética (tokens por vatio)

  • Mac mini (M4, base): 4 W reposo / 65 W máx.
  • Mac mini (2012): hasta 85 W máx.
  • RTX 3060: TGP ≈ 170 W (solo GPU).

Estimaciones aproximadas (fase de generación):
- Mini 2012: ~1 t/s ÷ 85 W ≈ 0.012 t/s/W.
- M4 Mini: ~18 t/s ÷ 65 W ≈ 0.28 t/s/W.
- RTX 3060 (GPU): 28.9 t/s ÷ 170 W ≈ 0.17 t/s/W.


🔧 Together AI: consideraciones

Algunos endpoints gratuitos aplican límites por modelo. La congestión puede producir errores 429 incluso dentro de los límites nominales.

Ejemplo:

together.error.RateLimitError: Error code: 429
{"message":"You have reached the rate limit specific to this model meta-llama/Llama-3.3-70B-Instruct-Turbo-Free.
The maximum rate limit for this model is 6.0 queries and 180000 tokens per minute."}

Subir a Build Tier 2 reduce la congestión al usar pools menos saturados.


📦 Qué aportan las donaciones

  • 50 $ (Build Tier 2): hasta 60 RPM en modelos free → menos 429 y más concurrencia.
  • 750 $ (M4 Mini): inferencia local 14B utilizable, menos llamadas a API, mejor eficiencia.

Beneficios generales: más contexto, mayor estabilidad en picos, iteración más rápida.


💸 Cómo donar (cripto)

  • USDT (TRC‑20): TK5uyyAbuchtBS4hwWwtQA4G15MA54RDkG
  • USDT (BSC): 0x942891F9a02632d67C496305c9746ACedfC0eb2D
  • USDT (SOL): 5yzcNUo8r7goHZMzwF9hPS8MVqXevwuyT4S8hhyHQVqK

Consultas: [email protected]


Gracias por el interés. Cualquier aportación ayuda a reducir errores 429, mejorar tiempos de respuesta y optimizar el consumo energético.