App starten
🧠

Hybrid LLM System

Automatisches Routing zwischen lokalem Ollama und Cloud-LLM basierend auf Anfrage-Komplexitaet.

Das Beste aus zwei Welten

Nicht jede Frage braucht ein riesiges Modell. Archimedes analysiert jede Anfrage und waehlt automatisch den passenden Provider:

  • Einfache Fragen (Score 0-6): Lokal mit Ollama — schnell, kostenlos, privat
  • Komplexe Analysen (Score 7+): DeepSeek — praeziser bei anspruchsvollen Aufgaben
  • Automatischer Fallback: Falls DeepSeek nicht verfuegbar, uebernimmt Ollama
ComplexityEstimator
Einfache Fragen
0-3
Mittlere Fragen
4-6
Komplexe Analyse
7-8
Deep Research
9-10
🦙
Ollama
Score 0-6
🌊
DeepSeek
Score 7+

ComplexityEstimator

Der Estimator analysiert jede Anfrage anhand mehrerer Faktoren und vergibt einen Score von 0-10:

FaktorBeschreibungGewichtung
Query-LaengeLaengere Anfragen sind oft komplexerMittel
KeywordsFachbegriffe, Analyse-Woerter, Code-PatternsHoch
StrukturMulti-Step-Fragen, Vergleiche, ListenHoch
Research-ScoreRecherche-Indikatoren, Quellen-AnfragenMittel
Code-ScoreProgrammier-Kontext, technische DetailsMittel
Mathe-ScoreMathematische Formeln, BerechnungenNiedrig

Provider im Vergleich

🦙

Ollama (Lokal)

  • ✅ 100% lokal, keine Daten verlassen den Server
  • ✅ Kostenlos (eigene GPU)
  • ✅ Schnelle Antwortzeiten (~1-3s)
  • ✅ Mistral-Nemo 12B, konfigurierbar
  • ⚠️ Begrenzt bei sehr komplexen Aufgaben
🌊

DeepSeek (Cloud)

  • ✅ Sehr hohe Qualitaet bei komplexen Analysen
  • ✅ Groesseres Kontextfenster
  • ✅ Besser fuer Code, Mathe, Research
  • ⚠️ Kosten pro Token (sehr guenstig)
  • ⚠️ Daten werden kurzzeitig extern verarbeitet

Kosten-Tracking

Archimedes trackt automatisch die Kosten pro Anfrage. In der App siehst du bei jeder Antwort, welcher Provider genutzt wurde. Ueber den !llm Befehl oder das CLI-Tool llm_stats.py kannst du detaillierte Statistiken und Kosten-Auswertungen abrufen.

Resource Governor

Der ResourceGovernor verwaltet den GPU-Zugriff mit einem Priority-System. Mehrere Clients koennen gleichzeitig arbeiten, ohne sich gegenseitig zu blockieren:

PriorityClientTimeoutVerwendung
1 (LIVE)Merlin (Production Bot)300sEchtzeit-Chat
2 (SANDBOX)Archimedes (App)60sApp-Anfragen
3 (BACKGROUND)Indexing, Reports30sHintergrund-Tasks

Intelligentes LLM-Routing

Die richtige KI fuer jede Frage — automatisch und transparent.

Jetzt ausprobieren