❤️ Spenden

Brainy ist ein Open‑Source-Rechercheassistent auf askbrainy.com und in Telegram. Das Projekt nutzt kostenlose Tools und ein kleines Budget. Aktuell läuft es auf einem Mac mini A1347 (2012, MD387D/A) für 56 € (ohne Versand) von eBay. Diese Hardware stellt die Verfügbarkeit sicher, eignet sich jedoch nicht für lokalen Betrieb moderner LLMs.

Trotz 16 GB RAM und SSD begrenzen Intel Core i5‑2415M und Intel HD 3000 die lokale Inferenz. Daher verwendet Brainy Together AI. Das ist funktionsfähig, mit Einschränkungen:

  • Bei kostenlosen Endpoints geringer Kontext (8.193 Tokens für Ein- und Ausgabe). Mehrdokument‑Recherchen und lange Chatverläufe erreichen schnell die Limits.
  • RPM/TPM‑Limits greifen früh bei wachsender Nutzung.
  • Kostenlose Modellpools können überlastet sein und Anfragen ablehnen.

Der Mini läuft 24/7 (≈ 10 €/Monat Strom). Spenden haben unmittelbaren, messbaren Effekt.

Brainy bleibt kostenlos und Open Source. Spenden verhindern Paywalls und halten den Code offen.


🎯 Ziele

1) 50 $ (micro) — Together‑Guthaben für höheren Durchsatz (Build Tier 2).
2) 750 $ (macro)Mac mini (M4, 10‑Core CPU / 10‑Core GPU, 16 GB Unified) beschaffen (z. B. computeruniverse.net). Ziel: lokale Ausführung von ~14B (quantisiert) und Entlastung von Together. Apple: 4 W Idle / 65 W Max; Mini 2012 bis 85 W.


⏳ Fortschritt

Ziel: 750 $

0 $   [>-----------------------] 0%

Kontakt: [email protected] (Werbung/Sponsoring/Kollaboration möglich).


🧠 Leistung (14B, quantisiert)

Maschine Stack Modell / Quant Tokens/s (TG) Hinweise
Mac mini (2012) i5‑3210M, CPU llama.cpp (CPU), Q4 ~0.5–1.5 t/s (Schätzung) Neuere CPUs: 13–34B ~1.5–4 t/s; alter Dual‑Core langsamer.
Mac mini (M4, 16 GB, 10‑GPU) Metal/MLX, Q4/Q5 ~15–20 t/s (Schätzung) M4 Pro (64 GB) gemeldet mit 30–35 t/s; Basis‑M4 darunter.
PC mit RTX 3060 (12 GB) llama.cpp (CUDA), Qwen2 14B Q5_K_M 28.9 t/s (gemessen) Referenz ~28.88 t/s; Datei ~9.8 GiB.

⚡ Effizienz (Tokens/W)

  • M4 (Basis): 4 W Idle / 65 W Max; Mini 2012: bis 85 W; RTX 3060: TGP ≈ 170 W (GPU).
  • Schätzungen: Mini 2012 ≈ 0.012 t/s/W; M4 ≈ 0.28 t/s/W; 3060 (GPU) ≈ 0.17 t/s/W.

🔧 Together AI

Modellbezogene Limits können bei Überlastung 429 auslösen, selbst innerhalb nomineller Grenzen. Build Tier 2 reduziert die Pool‑Überlastung.


📦 Wirkung von Spenden

  • 50 $: bis 60 RPM bei Free‑Modellen → weniger 429.
  • 750 $: lokale 14B‑Inferenz; weniger API‑Aufrufe.

Vorteile: mehr Kontext, stabiler bei Lastspitzen, schnellere Iteration.