App starten
📁

Lokale Dokumente & RAG

Retrieval-Augmented Generation: Deine Dokumente werden zur Wissensbasis deiner KI.

Was ist RAG?

RAG steht fuer Retrieval-Augmented Generation. Anstatt das LLM mit allen moeglichen Daten zu trainieren, durchsucht Archimedes deine Dokumente in Echtzeit und fuegt relevante Passagen als Kontext zur Anfrage hinzu.

Das bedeutet:

  • Antworten basieren auf deinen Dokumenten
  • Quellenangaben zeigen, woher die Information stammt
  • Kein Fine-Tuning oder Modell-Training noetig
  • Neue Dokumente sind sofort verfuegbar
RAG Pipeline
📄 Dokument hochladen
✂ Chunking (500 Tokens, 50 Overlap)
🧠 Embedding (Sentence-Transformers)
💾 ChromaDB Speicherung
🔍 Similarity Search bei Anfrage

Unterstuetzte Formate

FormatBeschreibungParser
PDFPDF-Dokumente, Papers, BerichtePyPDF2 / pdfplumber
DOCXMicrosoft Word Dokumentepython-docx
XLSXExcel-Tabellen, Kalkulationenopenpyxl
PPTXPowerPoint Praesentationenpython-pptx
CSVTabellendatencsv (stdlib)
TXT / MDText- und Markdown-DateienDirekt
HTMLWebseitenBeautifulSoup

Technische Details

DocumentIndexer

Der Indexer ueberwacht ein konfiguriertes Dokumenten-Verzeichnis. Neue oder geaenderte Dateien werden automatisch erkannt (File-Hash Change Detection) und neu indexiert.

  • Chunk Size: 500 Tokens (konfigurierbar)
  • Overlap: 50 Tokens zwischen Chunks
  • Embeddings: Sentence-Transformers (GPU-beschleunigt)
  • Speicher: ChromaDB mit Sandbox-isolierten Collections
DocumentRetriever
# Similarity Search query = "EU KI-Verordnung Risikostufen" results = retriever.search( query=query, n_results=5, min_similarity=0.3 ) # Ergebnis: Top-5 relevante Chunks # mit Quellenangabe und Similarity-Score

🔒 Datenschutz

Alle Dokumente bleiben auf deinem Server. Die Embeddings werden lokal berechnet (CUDA oder CPU). ChromaDB speichert die Vektoren in einer lokalen SQLite-Datenbank. Nichts verliert den Server — keine Cloud, keine API-Calls fuer Embeddings.

Befehle

BefehlBeschreibung
!docs listAlle indexierten Dokumente mit Chunk-Anzahl auflisten
!docs search <query>Direkte Similarity-Search in den Dokumenten
!docs statsStatistiken: Anzahl Dokumente, Chunks, Speicherplatz
!docs reindexKomplette Neuindexierung aller Dokumente
!rag on|offRAG-Kontext fuer Antworten ein-/ausschalten

Deine Dokumente. Dein Wissen.

Lade deine ersten Dateien hoch und erlebe, wie Archimedes sie intelligent durchsucht.

Jetzt ausprobieren