Hybrid LLM System
Automatisches Routing zwischen lokalem Ollama und Cloud-LLM basierend auf Anfrage-Komplexitaet.
Das Beste aus zwei Welten
Nicht jede Frage braucht ein riesiges Modell. Archimedes analysiert jede Anfrage und waehlt automatisch den passenden Provider:
- Einfache Fragen (Score 0-6): Lokal mit Ollama — schnell, kostenlos, privat
- Komplexe Analysen (Score 7+): DeepSeek — praeziser bei anspruchsvollen Aufgaben
- Automatischer Fallback: Falls DeepSeek nicht verfuegbar, uebernimmt Ollama
ComplexityEstimator
Der Estimator analysiert jede Anfrage anhand mehrerer Faktoren und vergibt einen Score von 0-10:
| Faktor | Beschreibung | Gewichtung |
|---|---|---|
| Query-Laenge | Laengere Anfragen sind oft komplexer | Mittel |
| Keywords | Fachbegriffe, Analyse-Woerter, Code-Patterns | Hoch |
| Struktur | Multi-Step-Fragen, Vergleiche, Listen | Hoch |
| Research-Score | Recherche-Indikatoren, Quellen-Anfragen | Mittel |
| Code-Score | Programmier-Kontext, technische Details | Mittel |
| Mathe-Score | Mathematische Formeln, Berechnungen | Niedrig |
Provider im Vergleich
Ollama (Lokal)
- ✅ 100% lokal, keine Daten verlassen den Server
- ✅ Kostenlos (eigene GPU)
- ✅ Schnelle Antwortzeiten (~1-3s)
- ✅ Mistral-Nemo 12B, konfigurierbar
- ⚠️ Begrenzt bei sehr komplexen Aufgaben
DeepSeek (Cloud)
- ✅ Sehr hohe Qualitaet bei komplexen Analysen
- ✅ Groesseres Kontextfenster
- ✅ Besser fuer Code, Mathe, Research
- ⚠️ Kosten pro Token (sehr guenstig)
- ⚠️ Daten werden kurzzeitig extern verarbeitet
Kosten-Tracking
Archimedes trackt automatisch die Kosten pro Anfrage. In der App siehst du bei jeder Antwort,
welcher Provider genutzt wurde. Ueber den !llm Befehl oder das CLI-Tool llm_stats.py
kannst du detaillierte Statistiken und Kosten-Auswertungen abrufen.
Resource Governor
Der ResourceGovernor verwaltet den GPU-Zugriff mit einem Priority-System. Mehrere Clients koennen gleichzeitig arbeiten, ohne sich gegenseitig zu blockieren:
| Priority | Client | Timeout | Verwendung |
|---|---|---|---|
| 1 (LIVE) | Merlin (Production Bot) | 300s | Echtzeit-Chat |
| 2 (SANDBOX) | Archimedes (App) | 60s | App-Anfragen |
| 3 (BACKGROUND) | Indexing, Reports | 30s | Hintergrund-Tasks |
Intelligentes LLM-Routing
Die richtige KI fuer jede Frage — automatisch und transparent.
Jetzt ausprobieren