Hybrid LLM System

Automatisches Routing zwischen lokalem Ollama und Cloud-LLM basierend auf Anfrage-Komplexitaet.

Das Beste aus zwei Welten

Nicht jede Frage braucht ein riesiges Modell. Archimedes analysiert jede Anfrage und waehlt automatisch den passenden Provider:

Einfache Fragen (Score 0-6): Lokal mit Ollama — schnell, kostenlos, privat
Komplexe Analysen (Score 7+): DeepSeek — praeziser bei anspruchsvollen Aufgaben
Automatischer Fallback: Falls DeepSeek nicht verfuegbar, uebernimmt Ollama

ComplexityEstimator

Einfache Fragen

0-3

Mittlere Fragen

4-6

Komplexe Analyse

7-8

Deep Research

9-10

🦙

Ollama

Score 0-6

🌊

DeepSeek

Score 7+

ComplexityEstimator

Der Estimator analysiert jede Anfrage anhand mehrerer Faktoren und vergibt einen Score von 0-10:

Faktor	Beschreibung	Gewichtung
Query-Laenge	Laengere Anfragen sind oft komplexer	Mittel
Keywords	Fachbegriffe, Analyse-Woerter, Code-Patterns	Hoch
Struktur	Multi-Step-Fragen, Vergleiche, Listen	Hoch
Research-Score	Recherche-Indikatoren, Quellen-Anfragen	Mittel
Code-Score	Programmier-Kontext, technische Details	Mittel
Mathe-Score	Mathematische Formeln, Berechnungen	Niedrig

Provider im Vergleich

🦙

Ollama (Lokal)

✅ 100% lokal, keine Daten verlassen den Server
✅ Kostenlos (eigene GPU)
✅ Schnelle Antwortzeiten (~1-3s)
✅ Mistral-Nemo 12B, konfigurierbar
⚠️ Begrenzt bei sehr komplexen Aufgaben

🌊

DeepSeek (Cloud)

✅ Sehr hohe Qualitaet bei komplexen Analysen
✅ Groesseres Kontextfenster
✅ Besser fuer Code, Mathe, Research
⚠️ Kosten pro Token (sehr guenstig)
⚠️ Daten werden kurzzeitig extern verarbeitet

Kosten-Tracking

Archimedes trackt automatisch die Kosten pro Anfrage. In der App siehst du bei jeder Antwort, welcher Provider genutzt wurde. Ueber den !llm Befehl oder das CLI-Tool llm_stats.py kannst du detaillierte Statistiken und Kosten-Auswertungen abrufen.

Resource Governor

Der ResourceGovernor verwaltet den GPU-Zugriff mit einem Priority-System. Mehrere Clients koennen gleichzeitig arbeiten, ohne sich gegenseitig zu blockieren:

Priority	Client	Timeout	Verwendung
1 (LIVE)	Merlin (Production Bot)	300s	Echtzeit-Chat
2 (SANDBOX)	Archimedes (App)	60s	App-Anfragen
3 (BACKGROUND)	Indexing, Reports	30s	Hintergrund-Tasks

Intelligentes LLM-Routing

Die richtige KI fuer jede Frage — automatisch und transparent.

Jetzt ausprobieren