Beschreibung

Ich bringe KI-Initiativen im Mittelstand über den gesamten Lebenszyklus in den produktiven Betrieb: von Strategie und Business Case über Build bis zur Live-Operation, aus einer Hand und ohne Hand-off.

Mein Hintergrund ist Business und Umsetzung zugleich: 15+ Jahre Produkt- und Tech-Verantwortung „0→1 und darüber hinaus", Tech-Orgs von 0 auf 30+ FTE skaliert, Budget- und Turnaround-Ownership (>3 Mio. €), Board-Reporting und Due Diligence – durchgängig in regulierten und finanznahen Umfeldern (ISO 27001, EU-GMP, IFS, ISO 22716, DSGVO). Ich denke in Geschäftswert, nicht in Demos: jede KI-Funktion muss einen messbaren Prozess verbessern.

Mein technischer Schwerpunkt liegt auf dokumentenlastigen Prozessen. Konkret: OCR und Key Information Extraction (KIE) – aus unstrukturierten E-Mails, PDFs und Specs werden strukturierte, schema-geprüfte Daten. Dazu produktionsreife RAG-Pipelines (Extraktion, Klassifikation, Normalisierung, semantisches Matching) und Agentensysteme mit Tool-Calling, die eigenständig Geschäftsprozesse auslösen – immer mit Governance: Logging, Prompt-Versionierung, Audit-Export und menschlicher Pflicht-Freigabe.

Als Full-Stack-Engineer arbeite ich End-to-End in TypeScript (Next.js/React, HonoJS), Python (FastAPI) sowie Kotlin/Java (Spring, DDD/Event-Sourcing) – von der UI bis zur Datenbank. Ich arbeite cloud-kompatibel (Vertex AI / Azure) und souverän on-premise: eine eigene Bare-Metal-GPU-Infrastruktur erlaubt lokale Inferenz für sensible Dokumente – DSGVO-konform, ohne dass Daten das Netzwerk verlassen. Stack u. a. vLLM, Qwen3, pgvector/Milvus, Document AI, PaddleOCR-VL.

Ich baue KI-Produkte selbst AI-assistiert – mit Claude Code, eigenem Tooling und etablierten Prozessen (Multi-Agent-Orchestrierung mit Review-Gates), die Teams übernehmen können.

Kurz: Strategie, Build und Betrieb aus einer Hand – mit Fokus auf KI, die wirklich läuft.

Branchenexpertise

Sprachen

Deutsch
Muttersprachlich oder zweisprachig
Englisch
Muttersprachlich oder zweisprachig

Arbeitsortpräferenzen

Vor Ort möglich

Berlin (bis zu 50 km)

BOLT-BYTE
KI-gestützte Procurement- / Beschaffungs- Plattform im regulierten Umfeld
PHARMAZEUTISCHE INDUSTRIE
August 2025 - Juni 2026 (10 Monate)
Full-Cycle-Initiative für eine deutsche Pharma- & Kosmetik-Gruppe – von Strategie über Build bis Live-Betrieb. Vier Legal Entities, drei regulatorische Welten (GMP-Pharma, IFS Food/HACCP, ISO 22716). Seit März 2026 in Produktion.

Ausgangslage: vier fragmentierte ERP-/Legacy-Systeme ohne entitätsübergreifende Sicht auf Beschaffung, Lieferanten und Preise; Einkauf über Excel-Workarounds, kein Audit-Trail. Leitprinzip „No Data – No AI" – Stammdaten-Cleanup als Voraussetzung jeder KI-Funktion. Hoher manueller Aufwand für Lieferantenanfragen und Angebotsqualifizierung.

Leistung (end-to-end):
Discovery on the floor, Business Case & Build-vs-Buy, Requirements-Spec über ~12 Module
PoC zur Hypothesen-Validierung, danach voller Build & Live-Betrieb

Produkt-Features:
RFQ-Lifecycle (DRAFT → ACTIVE → AWARDED → CLOSED), What-if & Award-Workflow
Lieferanten/Angebote: zentraler Master, Line-Item-Extraktion, automatisches Matching
Dashboards mit rollenspezifischen KPIs; Compliance: Multi-Tenancy mit RBAC, Audit-Trail

KI-Features (15+ Production Services):
Extraktion von RFQ-, Angebots- & Konditionsdaten mit Requirement-Normalisierung
Semantisches Material-Matching mit Confidence-Ranking, E-Mail-/Dokument-Klassifikation
Document-AI-Layout-Parsing: PDF → Markdown
RAG-Enrichment via PubChem, CosIng, Wikidata, ECICS, DSLD, USDA; Matching über pgvector
AI-Governance: LLM-Call-Logging, Prompt-Versionierung, Audit-Export – jede KI-Ausgabe bleibt Vorschlag mit Pflicht-Freigabe

Tech-Stack: Next.js 16 (React 19) · TanStack · shadcn/ui · Tailwind v4 · HonoJS · TypeScript · Zod · PostgreSQL (Supabase) · Prisma v6 · ZenStack (RLS, Multi-Tenant) · Vertex AI / Gemini 2.5 Flash · Vercel AI SDK v6 · pgvector · Document AI · Vercel Workflow Kit · QStash · Upstash Redis · Microsoft Graph & Gmail API · pnpm/Turbo-Monorepo · VitestPflicht-Reviews

Delivery durchgängig AI-assisted mit Claude Code: Multi-Agent-Orchestrierung mit Human-Review und Steering.
LLM Generative KI KI Strategie OCR AI Agent
BOLT-BYTE
Souveräne KI-Infrastruktur – On-Premise GenAI/RAG
BERATUNG & AUDITS
Mai 2025 - April 2026 (11 Monate)
Aufbau einer vollständig selbst-gehosteten On-Premise-KI-Infrastruktur – end-to-end von Marktanalyse über Sourcing, Hardware-Assembly und Cluster-Setup bis zum Betrieb im Berliner Rechenzentrum (Speedbone).

Der Konflikt: Spezifikationen, Verträge und regulatorische Dokumente an externe Cloud-Modelle zu senden bedeutet Kontroll- und oft DSGVO-Verlust. Lösung: eine private, datenschutzkonforme Umgebung, in der RAG- und Dokumenten-Extraktions-Use-Cases mit lokalen LLMs prototypisiert und produktiv betrieben werden. Sensible Dokumente verlassen das Netzwerk nie.

Cluster (Bare-Metal, HPE/ASUS):

~328 CPU-Kerne, ~1,6 TB RAM
bis zu 960 GB GPU-VRAM (NVIDIA RTX PRO 6000 Blackwell), GPU-Sharing via CUDA MPS & MIG
50+ TB NVMe + verschlüsselter S3

Aufgaben (end-to-end):
Sourcing aller Komponenten nach Preis/Leistung & KI-Eignung
Hardware-Assembly (CPU, RAM, GPUs, NVMe, Networking)
OS/Treiber/GPU-Setup: Ubuntu 24.04 LTS, NVIDIA/CUDA-Stack
Kubernetes & Networking: microk8s HA, 100-GbE & InfiniBand mit RDMA
Betrieb: Colocation, Observability, verschlüsselte Backups

MLOps / Platform:
GitOps via Flux & Kustomize, MAAS für Bare-Metal-Provisioning
CI-Pipelines mit Tekton + Kaniko, reproduzierbare Builds & Deployments
cert-manager, ingress-nginx, HAProxy für sicheren Betrieb

RAG-Stack (lokal, GPU-beschleunigt):
LLM-Inferenz: vLLM mit Qwen3 (35B, FP8), 131k Kontext, Speculative Decoding
Embeddings & Reranking: Qwen3-Embedding-8B + Qwen3-Reranker-8B
Vector-DB: Milvus (GPU- und CPU-Variante) · OCR: PaddleOCR-VL (PDF → strukturiertes Markdown)
Storage: Mayastor über NVMe-oF/RDMA (AES-XTS), MinIO-S3 mit TCG-OPAL
Observability: Prometheus, Grafana, Loki, Tempo

Ergebnis: Vollständige RAG-Pipeline aus einer Hand, echte Benchmarks vor jedem Cloud-Investment, Ende-zu-Ende-Verschlüsselung und GitOps-Reproduzierbarkeit. Prinzip: so viel lokal wie möglich, so viel Cloud wie nötig.
RAG Souveräne KI LLMOps Kubernetes CUDA
BOLT-BYTE
KI-Chat-Assistent (Consulting)
BERATUNG & AUDITS
August 2025 - September 2025 (1 Monat)
• • Dialoggeführter Website-Assistent: Beratung, Lead-Qualifizierung und Terminbuchung ohne Medienbruch.
• • CRM-Automatisierung via Tool-Calling (HubSpot), Kalender-Integration (Google), HR-Anbindung (Personio); DSGVO-konformer Consent-Flow.
• • Stack: Next.js 15 / React 19, Vercel AI SDK, Vertex AI (Gemini 2.5) & OpenAI (GPT-4o), Streaming + Tool Calling.