❤️ Donar
Brainy es un asistente de investigación de código abierto disponible en askbrainy.com y en Telegram. El proyecto utiliza herramientas gratuitas y un presupuesto reducido. Actualmente se ejecuta en un Mac mini A1347 (2012, MD387D/A) adquirido en eBay por 56 € (sin envío). Este equipo garantiza la disponibilidad del servicio, pero no es adecuado para ejecutar LLM modernos de forma local.
Aunque dispone de 16 GB de RAM y un SSD, el Intel Core i5-2415M y la Intel HD 3000 limitan el rendimiento del inferido local. Por ello, Brainy utiliza Together AI para la inferencia. Esto funciona, con limitaciones:
- En endpoints gratuitos, el contexto es limitado (8.193 tokens entre entrada y salida). La investigación con varios documentos y los historiales largos alcanzan rápidamente los límites.
- Los límites de RPM/TPM se alcanzan pronto a medida que aumenta el uso.
- Los pools gratuitos de modelos pueden saturarse y rechazar solicitudes.
El equipo permanece encendido 24/7 (≈ 10 €/mes de electricidad). Las donaciones tienen un efecto directo y medible.
Brainy seguirá siendo gratuito y de código abierto. Las donaciones evitan paywalls y mantienen el código accesible.
🎯 Objetivos de financiación
1) 50 $ (micro)
Recargar Together AI para aumentar el rendimiento. Objetivo: Build Tier 2, que reduce “429 busy”/tiempos de cola y permite atender más solicitudes en paralelo.
2) 750 $ (macro)
Adquirir un Mac mini (M4, CPU 10 núcleos / GPU 10 núcleos, 16 GB unificada) — por ejemplo: computeruniverse.net.
Motivo: mayor eficiencia energética y rendimiento suficiente para ejecutar modelos ~14B (cuantizados) de forma local, reduciendo la carga sobre Together. Según Apple: 4 W en reposo / 65 W máx. para el M4 base; el Mini 2012 llega a 85 W.
⏳ Progreso
Objetivo: 750 $
0 $ [>-----------------------] 0%
Publicidad, patrocinios y colaboraciones también cuentan para el objetivo.
✉️ [email protected]
🧠 Motivos del cambio a M4
1) Rendimiento (14B, cuantizado)
Máquina | Stack | Modelo / Cuant | Tokens/s (TG) | Notas |
---|---|---|---|---|
Mac mini (2012) i5-3210M, CPU | llama.cpp (CPU), Q4 | ~0.5–1.5 t/s (est.) | En CPUs más recientes, 13–34B dan ~1.5–4 t/s; el Ivy Bridge de dos núcleos es más lento. | |
Mac mini (M4, 16 GB, 10‑GPU) | Metal/MLX, Q4/Q5 | ~15–20 t/s (est.) | En M4 Pro (64 GB) se reportan 30–35 t/s con Qwen 2.5 14B (MLX + speculative decoding). El M4 base rinde menos. | |
PC con RTX 3060 (12 GB) | llama.cpp (CUDA), Qwen2 14B Q5_K_M | 28.9 t/s (medido) | Benchmark de referencia ~28.88 t/s; archivo ~9.8 GiB. |
Conclusión: el M4 Mini supera ampliamente al Mini 2012 y es competitivo con un PC con 3060 para ~14B INT4/INT5, con menor consumo y calor.
2) Eficiencia energética (tokens por vatio)
- Mac mini (M4, base): 4 W reposo / 65 W máx.
- Mac mini (2012): hasta 85 W máx.
- RTX 3060: TGP ≈ 170 W (solo GPU).
Estimaciones aproximadas (fase de generación):
- Mini 2012: ~1 t/s ÷ 85 W ≈ 0.012 t/s/W.
- M4 Mini: ~18 t/s ÷ 65 W ≈ 0.28 t/s/W.
- RTX 3060 (GPU): 28.9 t/s ÷ 170 W ≈ 0.17 t/s/W.
🔧 Together AI: consideraciones
Algunos endpoints gratuitos aplican límites por modelo. La congestión puede producir errores 429 incluso dentro de los límites nominales.
Ejemplo:
together.error.RateLimitError: Error code: 429
{"message":"You have reached the rate limit specific to this model meta-llama/Llama-3.3-70B-Instruct-Turbo-Free.
The maximum rate limit for this model is 6.0 queries and 180000 tokens per minute."}
Subir a Build Tier 2 reduce la congestión al usar pools menos saturados.
📦 Qué aportan las donaciones
- 50 $ (Build Tier 2): hasta 60 RPM en modelos free → menos 429 y más concurrencia.
- 750 $ (M4 Mini): inferencia local 14B utilizable, menos llamadas a API, mejor eficiencia.
Beneficios generales: más contexto, mayor estabilidad en picos, iteración más rápida.
💸 Cómo donar (cripto)
- USDT (TRC‑20):
TK5uyyAbuchtBS4hwWwtQA4G15MA54RDkG
- USDT (BSC):
0x942891F9a02632d67C496305c9746ACedfC0eb2D
- USDT (SOL):
5yzcNUo8r7goHZMzwF9hPS8MVqXevwuyT4S8hhyHQVqK
Consultas: [email protected]
Gracias por el interés. Cualquier aportación ayuda a reducir errores 429, mejorar tiempos de respuesta y optimizar el consumo energético.