Lokale Dokumente & RAG
Retrieval-Augmented Generation: Deine Dokumente werden zur Wissensbasis deiner KI.
Was ist RAG?
RAG steht fuer Retrieval-Augmented Generation. Anstatt das LLM mit allen moeglichen Daten zu trainieren, durchsucht Archimedes deine Dokumente in Echtzeit und fuegt relevante Passagen als Kontext zur Anfrage hinzu.
Das bedeutet:
- Antworten basieren auf deinen Dokumenten
- Quellenangaben zeigen, woher die Information stammt
- Kein Fine-Tuning oder Modell-Training noetig
- Neue Dokumente sind sofort verfuegbar
Unterstuetzte Formate
| Format | Beschreibung | Parser |
|---|---|---|
| PDF-Dokumente, Papers, Berichte | PyPDF2 / pdfplumber | |
| DOCX | Microsoft Word Dokumente | python-docx |
| XLSX | Excel-Tabellen, Kalkulationen | openpyxl |
| PPTX | PowerPoint Praesentationen | python-pptx |
| CSV | Tabellendaten | csv (stdlib) |
| TXT / MD | Text- und Markdown-Dateien | Direkt |
| HTML | Webseiten | BeautifulSoup |
Technische Details
DocumentIndexer
Der Indexer ueberwacht ein konfiguriertes Dokumenten-Verzeichnis. Neue oder geaenderte Dateien werden automatisch erkannt (File-Hash Change Detection) und neu indexiert.
- Chunk Size: 500 Tokens (konfigurierbar)
- Overlap: 50 Tokens zwischen Chunks
- Embeddings: Sentence-Transformers (GPU-beschleunigt)
- Speicher: ChromaDB mit Sandbox-isolierten Collections
🔒 Datenschutz
Alle Dokumente bleiben auf deinem Server. Die Embeddings werden lokal berechnet (CUDA oder CPU). ChromaDB speichert die Vektoren in einer lokalen SQLite-Datenbank. Nichts verliert den Server — keine Cloud, keine API-Calls fuer Embeddings.
Befehle
| Befehl | Beschreibung |
|---|---|
!docs list | Alle indexierten Dokumente mit Chunk-Anzahl auflisten |
!docs search <query> | Direkte Similarity-Search in den Dokumenten |
!docs stats | Statistiken: Anzahl Dokumente, Chunks, Speicherplatz |
!docs reindex | Komplette Neuindexierung aller Dokumente |
!rag on|off | RAG-Kontext fuer Antworten ein-/ausschalten |
Deine Dokumente. Dein Wissen.
Lade deine ersten Dateien hoch und erlebe, wie Archimedes sie intelligent durchsucht.
Jetzt ausprobieren