Marin T. Kael
DE / EN

Projekt-Journal · Lebendes Dokument

Herausforderungen und Lösungen

Die Mess-Apparatur ist selbst Untersuchungsgegenstand. Pipeline-Engineering, Methodologie-Drift und Reichweiten-Bremsen werden hier offen protokolliert.

Erstmals veröffentlicht: · Letzte Aktualisierung: 2026-05-20 02:30 CEST · Format: chronologisch, neueste oben

Warum ein offenes Engineering-Journal?

Die meisten GEO-/AEO-Studien zeigen am Ende nur ihr Ergebnis. Was sie nicht zeigen: wie oft die Pipeline während der Datensammlung kaputt war, welche Annahmen sich als falsch erwiesen haben, und welche Datenpunkte methodologisch nachträglich korrigiert werden mussten.

Dieses Programm legt das offen. Nicht weil es besonders viele Bugs gibt — sondern weil sich aus den Bugs eine zweite, methodologische Geschichte schreiben lässt: Wo brechen Standard-AEO-Pipelines reproduzierbar? Welche Failure-Modes sind systemisch, nicht implementierungsspezifisch?

Jeder Eintrag folgt einer einfachen Struktur: Symptom · Root-Cause · Lösung · Implikation für künftige Apparate. Die schwerwiegenderen Befunde wandern in Working Paper 04 (Failure Modes in AEO Pipelines).

Construct-Validity-Audit · 20. Mai 2026 (T+9)

Title-Collision: Buchtitel „Das vierte Feld" bereits 1999 vergeben (Mokka Müller, Econ)

Symptom
Live-Web-Mess über drei Claude-Tiers (Opus 4.7, Sonnet 4.6, Haiku 4.5) mit aktivem Browser-Search ergab: 100 Prozent der ersten zehn SERP-Treffer für „Das vierte Feld" zeigen Mokka Müller's Wirtschafts-Sachbuch. Marin's gleichnamiger Debütroman ist strukturell unauffindbar — auch wenn das Werk bereits in Wikidata Q139720798 vorhanden ist.
Root-Cause
Buchtitel „Das vierte Feld" wurde 1999 von Publizistin Mokka Müller bei Econ veröffentlicht (ISBN 9783430168588, „Die Bio-Logik der neuen Manager-Elite"). Eigener Wikipedia-Artikel, Listings auf Amazon/Medimops/Buchfreund/ZVAB/Falter/AbeBooks. 27-jährige Indexing-Geschichte vs. Marin's Pre-Launch-Status — Authority-Asymmetrie zementiert die SERP-Reihenfolge.
Lösung
Drei strategische Optionen unter operator decision morgen: (1) Saga-Titel als Lock-in vorsetzen („Prägungen des Reiches I: Das vierte Feld"). (2) Buchtitel ändern vor Launch (noch ~4 Monate Buffer). (3) Long-Tail-SEO über Pseudonym + Autor-Suche statt Titel-Suche. (4) Co-Existenz markieren via Klappentext-Hinweis.
Methodologische Implikation
Title-Uniqueness-Audit muss Pflichtbestandteil von Pre-Reg-Setups für Pseudonym-Studien werden. Ohne Pre-Reg-Mess hätte dieser Befund erst Wochen nach Launch sichtbar werden können. Pre-Reg-Wert demonstriert.

Brand-Collision: „Marin" als Forschungs-Acronym belegt durch Maritime Research Institute Netherlands (seit 1932)

Symptom
Claude Opus 4.7 + Web-Search auf die Frage „Was bedeutet Marin Research Programme?" lieferte drei Kandidaten — keiner davon Marin T. Kael's Forschungsprogramm: (1) MARIN = Maritime Research Institute Netherlands, (2) Marin Academy Research Collaborative, (3) marin.community.
Root-Cause
„Marin" als Forschungs-Markenname ist 94 Jahre alt — MARIN Wageningen wurde 1932 gegründet, ist weltweit führendes Institut für hydrodynamische Forschung, hat eigene Wikipedia-Artikel + marin.nl-Domain. Vorname „Marin" hat keine Pseudonym-Uniqueness als Brand-Anker.
Lösung
Alternative Naming-Strategie für das Forschungsprogramm — möglich z.B. „Pseudonym-Discoverability-Programme" oder spezifischer wissenschaftlicher Frame. Decision unter operator-approval.
Methodologische Implikation
Identitätsmarker für Forschungsprogramme von Pseudonym-Autoren brauchen einen Uniqueness-Audit, der Vornamen-Kollisionen mit etablierten Institutionen abprüft. Generalisiert: jede Forschungs-Naming-Convention muss vorab gegen die Maritime-Research-Institute-Klasse von Konflikten geprüft werden.

Self-Built A1-Firewall-Skill blockiert eigene Mess in Subscription-Account

Symptom
Erste Live-Mess via claude.ai-Subscription-Account zeigte: Claude greift bei Marin-Themen nicht auf Web-Search zurück, sondern versucht einen lokalen MCP-Connector zur Saga-Datenbank des Programm-Leads zu erreichen. Bei Connector-Down liefert Claude die Antwort „Tool nicht erreichbar" statt Web-Fallback.
Root-Cause
Programm-Lead hat zur Pseudonym-Firewall einen privaten Saga-Bridge-Skill gebaut, der bei nicht erreichbarer Saga-DB explizit verbietet, auf Web-Search auszuweichen. Das ist A1-Schutz by design — verhindert aber gleichzeitig die Self-Measurement im eigenen Subscription-Account.
Lösung
Skill deaktiviert für die Mess-Session. Methodisch: alle 28 Datapoints (drei Claude-Tiers × Q-Suite) wurden in Inkognito-Sessions mit deaktivierten Connectoren + Memory + Custom-Style erhoben. Pattern „A1-Skills temporär aus" dokumentiert als Replay-Vorlage für künftige Self-Mess-Sessions.
Methodologische Implikation
Pseudonym-Autoren mit gut gebauten A1-Firewall-Skills sind strukturell ungeeignet für AI-Discoverability-Self-Measurement im eigenen Subscription-Account — der eigene Pseudonym-Schutz blockiert die Mess. Wer Self-Mess will, muss entweder separaten Pseudonym-Account aufbauen oder Skill-Deaktivierung als kalibrierten Mess-Protokoll-Schritt akzeptieren.

Echo-Bias-Inflation in Cutoff-LLMs ohne Web-Zugriff

Symptom
Pre-Audit zeigte Pipeline-Aggregat-Scores zwischen 11,5 und 19,8 Prozent über alle Cutoff-LLMs (Mistral, Llama-3.x, Phi-2, Claude-Tiers ohne web_search, gpt-4o-mini non-search). Erwartung laut Knowledge-Cutoff: 0 Prozent — Marin's Wikidata-Eintrag entstand Anfang 2025, also nach den Trainings-Cutoffs aller Modelle.
Root-Cause
Score-Algorithmus zählte sechs KEY_FACTS-Regex-Patterns als positive Hits — vier davon Echo-anfällig (Varin, Edikt, „deutsche Fantasy/Autor", Mokka-Müller-„Das vierte Feld"-Echo). LLM wiederholt Frage-Keywords in der Antwort als sprachliche Konvention. Algorithmus interpretierte Echo als Knowledge.
Lösung
Methodologie-Versionierung v2.7.1 → v2.8: (1) MARIN_SPECIFIC-Anchor-Pflicht — Score zählt nur wenn „Marin T. Kael" explizit in der Antwort steht, nicht wenn nur Sekundär-Patterns echoed werden. (2) NEGATIVE_HALLU erweitert um Pauline Kael, Mokka Müller, Lucasfilm, Faulkner, Maritime Institute, Swiss/Austrian-Hallu-Patterns. (3) Channel-Split Primary (Web-LLMs) vs Control (Cutoff-LLMs) — beide Werte separat persistiert.
Methodologische Implikation
Wahrscheinlich der prominenteste verdeckte Failure-Mode in AI-Citation-Tracking-Tools. Frage-Keywords im Score-Schema sind ein systematischer Bias-Vektor, besonders bei Pseudonym-Autoren mit echo-tauglichen Welt-Begriffen (Eigennamen wie Varin, Magie-Systeme wie Edikt). Hauptbeitrag zu Working Paper 04 Mode 6 (Echo-Inflation).

Pipeline-Engineering · 18. Mai 2026 (T+7)

Workers AI Free-Tier-Quota erschöpft, fünf LLMs konstant unavailable

Symptom
Fünf Cloudflare Workers AI Modelle (Mistral 7B, Llama 3/3.1/3.2, Phi-2) zeigten konstant UNAVAILABLE über mehrere Tage. Aggregat-Score wurde wackelig, weil die Verfügbarkeits-Lage täglich variierte.
Root-Cause
Free-Tier-Quota von 10.000 Neurons/Tag ist ein rollendes 24h-Window, nicht UTC-Reset um Mitternacht. Multi-Manual-Triggers während Debug-Sessions am Vortag erschöpften die Quota früh. Reset-Zeitpunkt verschob sich entsprechend.
Lösung
Aktivierung des Workers Paid Plans (5 USD/Monat). Ergebnis: alle fünf Modelle direkt wieder messbar. Reale Marin-Pipeline-Cost: weiterhin im inkludierten Bereich des Paid-Plans, keine zusätzliche Usage-Cost erwartet.
Methodologische Implikation
Provider-Availability ist eine eigene Mess-Dimension. AEO-Tools, die Quota-Schwankungen nicht als Mess-Fehler markieren, produzieren systematisch unterzeichnete Aggregate. Hat zu Working Paper 04 Mode 5 (Implicit Score Dilution) beigetragen.

Per-LLM-Call-Timeout 22 Sekunden zu eng

Symptom
Drei LLMs (openai_search, llama3, mistral) zeigten 8–9 Errors von 16 Probes. Fehler-Pattern: Error: timeout-22s.
Root-Cause
Drei verschiedene Ursachen hinter dem gleichen Symptom: (1) OpenAI Search Preview ist web-search-augmentiert und braucht typisch 4–15 Sekunden, mit Long-Tail bis 30 Sekunden. (2) Workers AI Modelle haben Cold-Start-Latenz nach Quota-Recovery (15–25 Sekunden für ersten Call). (3) Anthropic-Sync-Calls schwanken zwischen 8 und 20 Sekunden.
Lösung
Timeout von 22 auf 40 Sekunden angehoben (bleibt unter dem 60-Sekunden Chunk-Timeout). Nach Deploy: 0 von 112 Sync-Calls fehlerhaft.
Methodologische Implikation
Timeout-Kalibrierung auf p99-Response-Time statt p50. Working-Paper-04 Mode 4 — Empfehlung an AEO-Tooling-Builder: messt eure Provider-Latenzen, bevor ihr Timeouts hart-codiert.

Aggregat-Score verwässert durch verkleidete Mess-Fehler

Symptom
Aggregat-Score schien stabil bei 9 Prozent zu liegen, obwohl per-LLM-Inspektion zeigte, dass einzelne Modelle 18–24 Prozent erreichten. Drift-Detection-Daemons schlugen nicht an.
Root-Cause
API-Call-Fehler (Quota, HTTP 5xx, Timeouts) wurden vom Standard-Pipeline-Pattern stillschweigend als null zurückgegeben und in der Score-Funktion als { score: 0, status: 'not_found' } klassifiziert. Diese Zeilen wurden behandelt wie echte „Modell sagt ehrlich weiß-nicht"-Antworten — identisch 0/3-Anteil im Aggregat. Bei fünf gleichzeitig ausgefallenen LLMs sank der Aggregat um etwa 10 Prozentpunkte unter den wahren Wert über die messbaren LLMs.
Lösung
Methodologie-Versionierung v2.0 → v2.7.1: API-Errors propagieren jetzt als status='error' und werden aus dem Aggregat-Nenner exkludiert. Pure-Error-LLMs als unavailable markiert. Retroaktive Re-Aggregation aller 41 betroffenen Snapshots; mittlere Korrektur +10,64 Prozentpunkte. v2.0-Werte bleiben für Audit-Trail erhalten (Migration 0013).
Methodologische Implikation
Wahrscheinlich der prominenteste Failure-Mode in der gesamten AEO-Tooling-Landschaft. Industrielle Werkzeuge, die rohe answer_excerpt-Felder nicht offenlegen, könnten diesen Bug schweigend über ihre gesamte Kundenbasis verteilt haben. Hauptbeitrag zu Working Paper 04 Mode 5.

Aggregat-Time-Series Provider-Availability-Confound

Symptom
Tage mit wenig messbaren LLMs zeigten höhere Aggregate (z.B. 21,7 Prozent bei drei LLMs), Tage mit voller Coverage zeigten niedrigere Werte (14,8 Prozent bei sieben LLMs). Time-Series wirkte wie eine Drift, war aber Artefakt der Mess-Verfügbarkeit.
Root-Cause
Wenn nur die stärksten LLMs messbar sind, hat das Aggregat höhere Mittelwerte. Schwache LLMs wie Phi-2 oder Llama 3 (typisch 4 Prozent Hit-Rate) ziehen den Mittelwert herunter, wenn sie messbar sind. Provider-Availability ist also ein verdeckter Mediator.
Lösung
Dashboard refactored auf Per-LLM-Time-Series-Plot als primäre Visualisierung. Aggregat bleibt als Sekundär-Sicht mit expliziter methodologischer Warnung. Working Paper 02 Headline von „13,8 Prozent über elf LLMs" auf „Top-drei LLMs erreichen 19,8 bis 24 Prozent" umgestellt — robust gegen Availability-Schwankungen.
Methodologische Implikation
Aggregat-Metriken in Phase 1 (Instrument-Validierung) sind nicht trend-fähig. Per-LLM-Ansicht ist die methodologisch saubere Form für Single-Subject-Designs mit volatilen Provider-Verfügbarkeiten.

Wikidata-Stage bricht nach erster Iteration ab

Symptom
Manche Manual-Trigger erfassten nur Q139720807 (Autor), nicht Q139720798 (Buch). Cron-Runs hatten beide. Pattern unregelmäßig.
Root-Cause
Sequentielle for-Schleife in wikidata.js ohne per-Entity-Error-Handling. Wenn Q139720807 erfolgreich war und Q139720798-Fetch in CPU-/Subrequest-Race lief, wurde die Iteration stillschweigend abgebrochen.
Lösung
Per-Entity try/catch eingefügt. Fehler bei einer Entität verhindern nicht mehr die Erfassung der zweiten. Plus retroaktive Daten-Nachfüllung für betroffene Runs.
Methodologische Implikation
Multi-Item-Pipelines brauchen pro-Item-Resilience. Generalisiert für künftige Backlink-Probes (Wikipedia, Common Crawl).

Anthropic Tier-1 Rate-Limit blockiert 16 parallele Probes

Symptom
Bei jeder Pipeline-Iteration timeouten alle 16 Claude-Calls gleichzeitig. Anthropic-Modelle waren faktisch im Datensatz nicht messbar.
Root-Cause
Anthropic Tier-1 erzwingt 5 Requests pro Minute. Sechzehn parallele Fetch-Calls zu /v1/messages queuen serverseitig über das 45-Sekunden-Sub-Request-Timeout hinaus.
Lösung
Migration auf Anthropic Message Batches API. 48 Prompts (16 Fragen × drei Claude-Tiers) gehen in einem einzigen Batch raus. Polling alle 30 Minuten via separatem Cron-Job. Bonus: 50 Prozent Cost-Discount. Gleicher Pattern später für Gemini übertragen.
Methodologische Implikation
Rate-Limit-bedingte Provider-Ausfälle erzeugen genau die Mode-5-Verwässerung von oben. Batch-APIs sind die zweite Hauptempfehlung in Working Paper 04.

OpenAI Search Preview lehnt temperature-Parameter ab

Symptom
openai_search-Stage gab konstant HTTP 400 zurück. Search-Backend war im Datensatz nicht messbar — obwohl es laut Working-Paper-2 später der stärkste Performer ist.
Root-Cause
gpt-4o-mini-search-preview-2025-03-11 hat einen anderen Parameter-Vertrag als das Base-Modell und lehnt temperature, top_p und weitere Sampling-Parameter ab.
Lösung
Conditional Logic: if (!isSearchPreview) body.temperature = 0.3; in askOpenAI().
Methodologische Implikation
Provider-Parameter-Verträge muss man unit-testen, bevor man skaliert. Working-Paper-04 Mode 2.

Workers AI default-Temperature = 0 erzeugt Pseudo-Determinismus

Symptom
Citation-Rate für Workers-AI-Modelle war über drei aufeinanderfolgende Tage byte-identisch. Drift-Detection schlug nicht an.
Root-Cause
env.AI.run() defaultet auf temperature: 0. Bei deterministischem Decoding produziert dieselbe Frage byte-identische Antworten. Die Pipeline probte korrekt, aber jeder Datenpunkt war eine Wiederholung.
Lösung
Explizit temperature: 0.5 in askWorkersAi(). Post-Fix Day-to-Day-Variance bei ±2,3 Prozentpunkten.
Methodologische Implikation
Determinismus in AEO ist fast immer Bug, nicht Property. Working-Paper-04 Mode 1.

Reichweite und Sichtbarkeit

Bing-Crawl-Latenz für neue Domain ohne Backlinks

Symptom
Domain seit sieben Tagen via IndexNow gepusht (28 URLs, drei Layer alle HTTP 200). Bing-Indexierung weiterhin bei 0 von 26 URLs. Referer-Count laut Bing-Webmaster-API: 0.
Root-Cause
IndexNow ist ein Crawl-Signal, kein Crawl-Promise. Neue Domains warten typisch 14–30 Tage auf ersten Crawl. Plus: ohne eingehende Backlinks niedrige Crawl-Priorität.
Lösung
Backlink-Stack ergänzt: GitHub-Profile-Blog-Field, Reddit-Bio + Pinned-Post, Hardcover-Bio, Linktree mit fünf Sub-Pages, ORCID-Researcher-URLs, Wikidata-P973 für Buch-Entität. Erwartung: referer_count in 7–14 Tagen von 0 auf 5–8.
Methodologische Implikation
Pre-Launch-AEO ist nicht „Submit-And-Wait", sondern „Submit-And-Build-Authority-Parallel". Backlink-Strategie ist Voraussetzung für IndexNow-Wirksamkeit.

IndexNow-Stage Timeout bei generic-Endpoint

Symptom
Drei von vier IndexNow-Pushes zu api.indexnow.org warfen AbortError. Der direkte bing.com/indexnow-Endpoint funktionierte stabil. Effekt: Der Eindruck „ich pushe jeden Tag" stimmte nur halb.
Root-Cause
Generic-IndexNow-Endpoint hat höhere Latenz-Varianz, kollidierte mit 15-Sekunden-Stage-Timeout.
Lösung
Timeout auf 30 Sekunden erhöht, plus ein-maliger Retry bei AbortError mit 2-Sekunden-Pause. Post-Fix alle vier Layer (IndexNow generic, IndexNow Bing, Bing Webmaster Submit, Quota-Check) konstant HTTP 200.
Methodologische Implikation
Sub-Request-Timeouts in Pipelines müssen die p99-Latenz des langsamsten Endpoints abdecken, nicht den Durchschnitt.

Was zum Erfolg geholfen hat

Pre-Registration mit kryptografisch gelocktem DOI

Zenodo-DOI 10.5281/zenodo.20125967 wurde am Tag der Pipeline-Aktivierung publiziert. Sieben Hypothesen Q0–Q6 gelockt vor jeder Messung. Damit ist die HARKing-Kritik (Hypothese erst nach Resultat formuliert) strukturell ausgeschlossen.

Konkreter Nutzen heute: alle methodologischen Korrekturen (v2.0 → v3.0 in 48 Stunden) wirken nicht wie nachträgliche Anpassung. Die Pre-Reg gibt den festen Rahmen, gegen den jede Methodology-Note-Version sich messen lassen muss.

Bi-temporale Daten-Speicherung statt Hard-Update

Bei der retroaktiven Re-Aggregation von 41 Snapshots wurde nicht in-place überschrieben. Stattdessen Migration 0013: parallele v2.7.1-Spalten, pipeline_version_first-Marker, Audit-Trail komplett erhalten.

Externer Reviewer kann jederzeit nachprüfen, was die Pipeline an einem gegebenen Datum berichtete (v2.0-Spalte) und was die methodologisch korrigierte Wahrheit ist (v2.7.1-Spalte). Beide Werte sind in der Time-Series sichtbar.

Offene Daten-API plus MIT-Replication-Kit

Roh-Daten unter /api/latest und /api/timeseries. Code unter github.com/marintkael/marin-research-tools MIT-lizenziert. Methodologie als CC-BY-4.0 auf Zenodo.

Jede externe Forscher-Gruppe kann das gleiche Setup auf eine andere Identität anwenden und Vergleichs-Daten generieren. Single-Subject-Studie wird damit zur portablen Methodologie.

Working Papers als lebendes Format statt Final-Publish

Working Papers v0.x (Outline) → v1.x (vollständig) → v2.x (peer-reviewed) statt einer einzigen Final-Publikation in zwölf Monaten. Vorteil: jede Daten-Aktualisierung kann in ein bestehendes WP zurückwandern, ohne dass früher kommunizierte Versionen verloren gehen.

Hard-Constraint-Linter auf jedem Outbound-Surface

Banned-Patterns für Pseudonym-Leak, Automatisierungs-Mechanik, falsche Pronomen, Sprach-Drift werden vor jedem Skeet, jedem Daily-Brief, jeder Working-Paper-Veröffentlichung automatisch geprüft. Verstöße landen im Audit-Log, nicht im Public-Feed.

Was als nächstes Hürden werden könnte

  • Open-AI-Search-Preview-Latenz: wenn das Modell selbst langsamer wird, hilft Timeout-Erhöhung irgendwann nicht mehr — dann Migration auch dort auf Batch-API.
  • Bing-Indexierung steht weiter still: wenn nach 30 Tagen Bing keine URL crawled, ist nicht die Pipeline das Problem, sondern Bing's Crawl-Priorisierung für junge DACH-Domains.
  • Wikipedia-Notability: für ein Wikipedia-Lemma reicht Pre-Launch-Sichtbarkeit nicht — das wird Phase D nach Buch-Launch.
  • Cross-Provider-Hallucination-Konvergenz: Pauline-Kael-Anker + Star-Wars-Anker bei Gemini + Marvin-T.-Kael-Mutation bei Mistral. Wenn mehr LLMs konvergierende Anker produzieren, wird Working Paper 03 zum Hauptbefund.