❤️ Faire un don
Brainy est un assistant de recherche open‑source, disponible sur askbrainy.com et Telegram. Le projet utilise des outils gratuits et un budget réduit. Il fonctionne actuellement sur un Mac mini A1347 (2012, MD387D/A) acquis sur eBay pour 56 € (hors livraison). Cette machine assure la disponibilité mais ne convient pas à l’exécution locale de LLM modernes.
Malgré 16 Go de RAM et un SSD, l’Intel Core i5‑2415M et l’Intel HD 3000 limitent l’inférence locale. Brainy s’appuie donc sur Together AI. Cela fonctionne, avec des limites :
- Sur les endpoints gratuits, contexte limité (8 193 tokens entrée+sortie). Les recherches multi‑documents et les historiques longs atteignent rapidement les plafonds.
- Les limites RPM/TPM surviennent tôt quand l’usage augmente.
- Les pools gratuits peuvent être saturés et refuser des requêtes.
Le mini reste allumé en continu (≈ 10 €/mois). Les dons ont un effet direct et mesurable.
Brainy restera gratuit et open‑source. Les dons évitent les paywalls et maintiennent l’ouverture du code.
🎯 Objectifs
1) 50 $ (micro) — Recharger Together AI pour augmenter le débit (Build Tier 2).
2) 750 $ (macro) — Acheter un Mac mini (M4, CPU 10 cœurs / GPU 10 cœurs, 16 Go unifiée) (ex. : computeruniverse.net). Objectif : exécuter localement des modèles ~14B (quantifiés) et réduire la charge sur Together. Apple annonce 4 W au repos / 65 W max pour le M4 de base ; Mini 2012 jusqu’à 85 W.
⏳ Suivi
Cible : 750 $
0 $ [>-----------------------] 0%
Contact : [email protected] (publicité/sponsoring/collaboration possibles).
🧠 Performance (14B, quantifié)
Machine | Stack | Modèle / Quant | Tokens/s (TG) | Notes |
---|---|---|---|---|
Mac mini (2012) i5‑3210M, CPU | llama.cpp (CPU), Q4 | ~0.5–1.5 t/s (est.) | Sur CPU plus récentes : 13–34B ≈ ~1.5–4 t/s ; Ivy Bridge double‑cœur plus lent. | |
Mac mini (M4, 16 Go, 10‑GPU) | Metal/MLX, Q4/Q5 | ~15–20 t/s (est.) | M4 Pro (64 Go) rapporté à 30–35 t/s (Qwen 2.5 14B, MLX + speculative decoding). Le M4 de base sera en‑dessous. | |
PC RTX 3060 (12 Go) | llama.cpp (CUDA), Qwen2 14B Q5_K_M | 28.9 t/s (mes.) | Référence ~28.88 t/s ; fichier ~9.8 GiB. |
🔌 Efficacité (tokens/W)
- M4 (base) : 4 W idle / 65 W max ; Mini 2012 : jusqu’à 85 W ; RTX 3060 : TGP ≈ 170 W (GPU).
- Estimations : Mini 2012 ≈ 0.012 t/s/W ; M4 ≈ 0.28 t/s/W ; 3060 (GPU) ≈ 0.17 t/s/W.
🔧 Together AI
Limites par modèle : la congestion peut entraîner des 429 même sous les plafonds. Passer en Build Tier 2 utilise des pools moins saturés.
Exemple 429 :
together.error.RateLimitError: Error code: 429
{"message":"You have reached the rate limit specific to this model ..."}
📦 Impact des dons
- 50 $ : jusqu’à 60 RPM sur les modèles gratuits → moins de 429.
- 750 $ : inférence locale ~14B utilisable ; moins d’appels API.
Bénéfices : plus de contexte, stabilité en pic, itérations plus rapides.