Projekt-Journal · Lebendes Dokument

Herausforderungen und Lösungen

Die Mess-Apparatur ist selbst Untersuchungsgegenstand. Pipeline-Engineering, Methodologie-Drift und Reichweiten-Bremsen werden hier offen protokolliert.

Erstmals veröffentlicht: 18. Mai 2026 · Letzte Aktualisierung: 2026-05-20 02:30 CEST · Format: chronologisch, neueste oben

Warum ein offenes Engineering-Journal?

Die meisten GEO-/AEO-Studien zeigen am Ende nur ihr Ergebnis. Was sie nicht zeigen: wie oft die Pipeline während der Datensammlung kaputt war, welche Annahmen sich als falsch erwiesen haben, und welche Datenpunkte methodologisch nachträglich korrigiert werden mussten.

Dieses Programm legt das offen. Nicht weil es besonders viele Bugs gibt — sondern weil sich aus den Bugs eine zweite, methodologische Geschichte schreiben lässt: Wo brechen Standard-AEO-Pipelines reproduzierbar? Welche Failure-Modes sind systemisch, nicht implementierungsspezifisch?

Jeder Eintrag folgt einer einfachen Struktur: Symptom · Root-Cause · Lösung · Implikation für künftige Apparate. Die schwerwiegenderen Befunde wandern in Working Paper 04 (Failure Modes in AEO Pipelines).

Construct-Validity-Audit · 20. Mai 2026 (T+9)

Title-Collision: Buchtitel „Das vierte Feld" bereits 1999 vergeben (Mokka Müller, Econ)

20. Mai 2026 · Discoverability · identifiziert

Symptom: Live-Web-Mess über drei Claude-Tiers (Opus 4.7, Sonnet 4.6, Haiku 4.5) mit aktivem Browser-Search ergab: 100 Prozent der ersten zehn SERP-Treffer für „Das vierte Feld" zeigen Mokka Müller's Wirtschafts-Sachbuch. Marin's gleichnamiger Debütroman ist strukturell unauffindbar — auch wenn das Werk bereits in Wikidata Q139720798 vorhanden ist.
Root-Cause: Buchtitel „Das vierte Feld" wurde 1999 von Publizistin Mokka Müller bei Econ veröffentlicht (ISBN 9783430168588, „Die Bio-Logik der neuen Manager-Elite"). Eigener Wikipedia-Artikel, Listings auf Amazon/Medimops/Buchfreund/ZVAB/Falter/AbeBooks. 27-jährige Indexing-Geschichte vs. Marin's Pre-Launch-Status — Authority-Asymmetrie zementiert die SERP-Reihenfolge.
Lösung: Drei strategische Optionen unter operator decision morgen: (1) Saga-Titel als Lock-in vorsetzen („Prägungen des Reiches I: Das vierte Feld"). (2) Buchtitel ändern vor Launch (noch ~4 Monate Buffer). (3) Long-Tail-SEO über Pseudonym + Autor-Suche statt Titel-Suche. (4) Co-Existenz markieren via Klappentext-Hinweis.
Methodologische Implikation: Title-Uniqueness-Audit muss Pflichtbestandteil von Pre-Reg-Setups für Pseudonym-Studien werden. Ohne Pre-Reg-Mess hätte dieser Befund erst Wochen nach Launch sichtbar werden können. Pre-Reg-Wert demonstriert.

Brand-Collision: „Marin" als Forschungs-Acronym belegt durch Maritime Research Institute Netherlands (seit 1932)

20. Mai 2026 · Discoverability · identifiziert

Symptom: Claude Opus 4.7 + Web-Search auf die Frage „Was bedeutet Marin Research Programme?" lieferte drei Kandidaten — keiner davon Marin T. Kael's Forschungsprogramm: (1) MARIN = Maritime Research Institute Netherlands, (2) Marin Academy Research Collaborative, (3) marin.community.
Root-Cause: „Marin" als Forschungs-Markenname ist 94 Jahre alt — MARIN Wageningen wurde 1932 gegründet, ist weltweit führendes Institut für hydrodynamische Forschung, hat eigene Wikipedia-Artikel + marin.nl-Domain. Vorname „Marin" hat keine Pseudonym-Uniqueness als Brand-Anker.
Lösung: Alternative Naming-Strategie für das Forschungsprogramm — möglich z.B. „Pseudonym-Discoverability-Programme" oder spezifischer wissenschaftlicher Frame. Decision unter operator-approval.
Methodologische Implikation: Identitätsmarker für Forschungsprogramme von Pseudonym-Autoren brauchen einen Uniqueness-Audit, der Vornamen-Kollisionen mit etablierten Institutionen abprüft. Generalisiert: jede Forschungs-Naming-Convention muss vorab gegen die Maritime-Research-Institute-Klasse von Konflikten geprüft werden.

Self-Built A1-Firewall-Skill blockiert eigene Mess in Subscription-Account

20. Mai 2026 · Construct-Validity · gelöst

Symptom: Erste Live-Mess via claude.ai-Subscription-Account zeigte: Claude greift bei Marin-Themen nicht auf Web-Search zurück, sondern versucht einen lokalen MCP-Connector zur Saga-Datenbank des Programm-Leads zu erreichen. Bei Connector-Down liefert Claude die Antwort „Tool nicht erreichbar" statt Web-Fallback.
Root-Cause: Programm-Lead hat zur Pseudonym-Firewall einen privaten Saga-Bridge-Skill gebaut, der bei nicht erreichbarer Saga-DB explizit verbietet, auf Web-Search auszuweichen. Das ist A1-Schutz by design — verhindert aber gleichzeitig die Self-Measurement im eigenen Subscription-Account.
Lösung: Skill deaktiviert für die Mess-Session. Methodisch: alle 28 Datapoints (drei Claude-Tiers × Q-Suite) wurden in Inkognito-Sessions mit deaktivierten Connectoren + Memory + Custom-Style erhoben. Pattern „A1-Skills temporär aus" dokumentiert als Replay-Vorlage für künftige Self-Mess-Sessions.
Methodologische Implikation: Pseudonym-Autoren mit gut gebauten A1-Firewall-Skills sind strukturell ungeeignet für AI-Discoverability-Self-Measurement im eigenen Subscription-Account — der eigene Pseudonym-Schutz blockiert die Mess. Wer Self-Mess will, muss entweder separaten Pseudonym-Account aufbauen oder Skill-Deaktivierung als kalibrierten Mess-Protokoll-Schritt akzeptieren.

Echo-Bias-Inflation in Cutoff-LLMs ohne Web-Zugriff

20. Mai 2026 · Methodologie · gelöst

Symptom: Pre-Audit zeigte Pipeline-Aggregat-Scores zwischen 11,5 und 19,8 Prozent über alle Cutoff-LLMs (Mistral, Llama-3.x, Phi-2, Claude-Tiers ohne web_search, gpt-4o-mini non-search). Erwartung laut Knowledge-Cutoff: 0 Prozent — Marin's Wikidata-Eintrag entstand Anfang 2025, also nach den Trainings-Cutoffs aller Modelle.
Root-Cause: Score-Algorithmus zählte sechs KEY_FACTS-Regex-Patterns als positive Hits — vier davon Echo-anfällig (Varin, Edikt, „deutsche Fantasy/Autor", Mokka-Müller-„Das vierte Feld"-Echo). LLM wiederholt Frage-Keywords in der Antwort als sprachliche Konvention. Algorithmus interpretierte Echo als Knowledge.
Lösung: Methodologie-Versionierung v2.7.1 → v2.8: (1) MARIN_SPECIFIC-Anchor-Pflicht — Score zählt nur wenn „Marin T. Kael" explizit in der Antwort steht, nicht wenn nur Sekundär-Patterns echoed werden. (2) NEGATIVE_HALLU erweitert um Pauline Kael, Mokka Müller, Lucasfilm, Faulkner, Maritime Institute, Swiss/Austrian-Hallu-Patterns. (3) Channel-Split Primary (Web-LLMs) vs Control (Cutoff-LLMs) — beide Werte separat persistiert.
Methodologische Implikation: Wahrscheinlich der prominenteste verdeckte Failure-Mode in AI-Citation-Tracking-Tools. Frage-Keywords im Score-Schema sind ein systematischer Bias-Vektor, besonders bei Pseudonym-Autoren mit echo-tauglichen Welt-Begriffen (Eigennamen wie Varin, Magie-Systeme wie Edikt). Hauptbeitrag zu Working Paper 04 Mode 6 (Echo-Inflation).

Pipeline-Engineering · 18. Mai 2026 (T+7)

Workers AI Free-Tier-Quota erschöpft, fünf LLMs konstant unavailable

18. Mai 2026 · Pipeline · gelöst

Symptom: Fünf Cloudflare Workers AI Modelle (Mistral 7B, Llama 3/3.1/3.2, Phi-2) zeigten konstant UNAVAILABLE über mehrere Tage. Aggregat-Score wurde wackelig, weil die Verfügbarkeits-Lage täglich variierte.
Root-Cause: Free-Tier-Quota von 10.000 Neurons/Tag ist ein rollendes 24h-Window, nicht UTC-Reset um Mitternacht. Multi-Manual-Triggers während Debug-Sessions am Vortag erschöpften die Quota früh. Reset-Zeitpunkt verschob sich entsprechend.
Lösung: Aktivierung des Workers Paid Plans (5 USD/Monat). Ergebnis: alle fünf Modelle direkt wieder messbar. Reale Marin-Pipeline-Cost: weiterhin im inkludierten Bereich des Paid-Plans, keine zusätzliche Usage-Cost erwartet.
Methodologische Implikation: Provider-Availability ist eine eigene Mess-Dimension. AEO-Tools, die Quota-Schwankungen nicht als Mess-Fehler markieren, produzieren systematisch unterzeichnete Aggregate. Hat zu Working Paper 04 Mode 5 (Implicit Score Dilution) beigetragen.

Per-LLM-Call-Timeout 22 Sekunden zu eng

18. Mai 2026 · Pipeline · gelöst

Symptom: Drei LLMs (openai_search, llama3, mistral) zeigten 8–9 Errors von 16 Probes. Fehler-Pattern: Error: timeout-22s.
Root-Cause: Drei verschiedene Ursachen hinter dem gleichen Symptom: (1) OpenAI Search Preview ist web-search-augmentiert und braucht typisch 4–15 Sekunden, mit Long-Tail bis 30 Sekunden. (2) Workers AI Modelle haben Cold-Start-Latenz nach Quota-Recovery (15–25 Sekunden für ersten Call). (3) Anthropic-Sync-Calls schwanken zwischen 8 und 20 Sekunden.
Lösung: Timeout von 22 auf 40 Sekunden angehoben (bleibt unter dem 60-Sekunden Chunk-Timeout). Nach Deploy: 0 von 112 Sync-Calls fehlerhaft.
Methodologische Implikation: Timeout-Kalibrierung auf p99-Response-Time statt p50. Working-Paper-04 Mode 4 — Empfehlung an AEO-Tooling-Builder: messt eure Provider-Latenzen, bevor ihr Timeouts hart-codiert.

Aggregat-Score verwässert durch verkleidete Mess-Fehler

17. Mai 2026 · Methodologie · gelöst

Symptom: Aggregat-Score schien stabil bei 9 Prozent zu liegen, obwohl per-LLM-Inspektion zeigte, dass einzelne Modelle 18–24 Prozent erreichten. Drift-Detection-Daemons schlugen nicht an.
Root-Cause: API-Call-Fehler (Quota, HTTP 5xx, Timeouts) wurden vom Standard-Pipeline-Pattern stillschweigend als null zurückgegeben und in der Score-Funktion als { score: 0, status: 'not_found' } klassifiziert. Diese Zeilen wurden behandelt wie echte „Modell sagt ehrlich weiß-nicht"-Antworten — identisch 0/3-Anteil im Aggregat. Bei fünf gleichzeitig ausgefallenen LLMs sank der Aggregat um etwa 10 Prozentpunkte unter den wahren Wert über die messbaren LLMs.
Lösung: Methodologie-Versionierung v2.0 → v2.7.1: API-Errors propagieren jetzt als status='error' und werden aus dem Aggregat-Nenner exkludiert. Pure-Error-LLMs als unavailable markiert. Retroaktive Re-Aggregation aller 41 betroffenen Snapshots; mittlere Korrektur +10,64 Prozentpunkte. v2.0-Werte bleiben für Audit-Trail erhalten (Migration 0013).
Methodologische Implikation: Wahrscheinlich der prominenteste Failure-Mode in der gesamten AEO-Tooling-Landschaft. Industrielle Werkzeuge, die rohe answer_excerpt-Felder nicht offenlegen, könnten diesen Bug schweigend über ihre gesamte Kundenbasis verteilt haben. Hauptbeitrag zu Working Paper 04 Mode 5.

Aggregat-Time-Series Provider-Availability-Confound

17. Mai 2026 · Methodologie · teilgelöst

Symptom: Tage mit wenig messbaren LLMs zeigten höhere Aggregate (z.B. 21,7 Prozent bei drei LLMs), Tage mit voller Coverage zeigten niedrigere Werte (14,8 Prozent bei sieben LLMs). Time-Series wirkte wie eine Drift, war aber Artefakt der Mess-Verfügbarkeit.
Root-Cause: Wenn nur die stärksten LLMs messbar sind, hat das Aggregat höhere Mittelwerte. Schwache LLMs wie Phi-2 oder Llama 3 (typisch 4 Prozent Hit-Rate) ziehen den Mittelwert herunter, wenn sie messbar sind. Provider-Availability ist also ein verdeckter Mediator.
Lösung: Dashboard refactored auf Per-LLM-Time-Series-Plot als primäre Visualisierung. Aggregat bleibt als Sekundär-Sicht mit expliziter methodologischer Warnung. Working Paper 02 Headline von „13,8 Prozent über elf LLMs" auf „Top-drei LLMs erreichen 19,8 bis 24 Prozent" umgestellt — robust gegen Availability-Schwankungen.
Methodologische Implikation: Aggregat-Metriken in Phase 1 (Instrument-Validierung) sind nicht trend-fähig. Per-LLM-Ansicht ist die methodologisch saubere Form für Single-Subject-Designs mit volatilen Provider-Verfügbarkeiten.

Wikidata-Stage bricht nach erster Iteration ab

17.–18. Mai 2026 · Pipeline · gelöst

Symptom: Manche Manual-Trigger erfassten nur Q139720807 (Autor), nicht Q139720798 (Buch). Cron-Runs hatten beide. Pattern unregelmäßig.
Root-Cause: Sequentielle for-Schleife in wikidata.js ohne per-Entity-Error-Handling. Wenn Q139720807 erfolgreich war und Q139720798-Fetch in CPU-/Subrequest-Race lief, wurde die Iteration stillschweigend abgebrochen.
Lösung: Per-Entity try/catch eingefügt. Fehler bei einer Entität verhindern nicht mehr die Erfassung der zweiten. Plus retroaktive Daten-Nachfüllung für betroffene Runs.
Methodologische Implikation: Multi-Item-Pipelines brauchen pro-Item-Resilience. Generalisiert für künftige Backlink-Probes (Wikipedia, Common Crawl).

Anthropic Tier-1 Rate-Limit blockiert 16 parallele Probes

17. Mai 2026 · Pipeline · gelöst

Symptom: Bei jeder Pipeline-Iteration timeouten alle 16 Claude-Calls gleichzeitig. Anthropic-Modelle waren faktisch im Datensatz nicht messbar.
Root-Cause: Anthropic Tier-1 erzwingt 5 Requests pro Minute. Sechzehn parallele Fetch-Calls zu /v1/messages queuen serverseitig über das 45-Sekunden-Sub-Request-Timeout hinaus.
Lösung: Migration auf Anthropic Message Batches API. 48 Prompts (16 Fragen × drei Claude-Tiers) gehen in einem einzigen Batch raus. Polling alle 30 Minuten via separatem Cron-Job. Bonus: 50 Prozent Cost-Discount. Gleicher Pattern später für Gemini übertragen.
Methodologische Implikation: Rate-Limit-bedingte Provider-Ausfälle erzeugen genau die Mode-5-Verwässerung von oben. Batch-APIs sind die zweite Hauptempfehlung in Working Paper 04.

OpenAI Search Preview lehnt `temperature`-Parameter ab

17. Mai 2026 · Pipeline · gelöst

Symptom: openai_search-Stage gab konstant HTTP 400 zurück. Search-Backend war im Datensatz nicht messbar — obwohl es laut Working-Paper-2 später der stärkste Performer ist.
Root-Cause: gpt-4o-mini-search-preview-2025-03-11 hat einen anderen Parameter-Vertrag als das Base-Modell und lehnt temperature, top_p und weitere Sampling-Parameter ab.
Lösung: Conditional Logic: if (!isSearchPreview) body.temperature = 0.3; in askOpenAI().
Methodologische Implikation: Provider-Parameter-Verträge muss man unit-testen, bevor man skaliert. Working-Paper-04 Mode 2.

Workers AI default-Temperature = 0 erzeugt Pseudo-Determinismus

17. Mai 2026 · Pipeline · gelöst

Symptom: Citation-Rate für Workers-AI-Modelle war über drei aufeinanderfolgende Tage byte-identisch. Drift-Detection schlug nicht an.
Root-Cause: env.AI.run() defaultet auf temperature: 0. Bei deterministischem Decoding produziert dieselbe Frage byte-identische Antworten. Die Pipeline probte korrekt, aber jeder Datenpunkt war eine Wiederholung.
Lösung: Explizit temperature: 0.5 in askWorkersAi(). Post-Fix Day-to-Day-Variance bei ±2,3 Prozentpunkten.
Methodologische Implikation: Determinismus in AEO ist fast immer Bug, nicht Property. Working-Paper-04 Mode 1.

Reichweite und Sichtbarkeit

Bing-Crawl-Latenz für neue Domain ohne Backlinks

18. Mai 2026 · Reichweite · in Beobachtung

Symptom: Domain seit sieben Tagen via IndexNow gepusht (28 URLs, drei Layer alle HTTP 200). Bing-Indexierung weiterhin bei 0 von 26 URLs. Referer-Count laut Bing-Webmaster-API: 0.
Root-Cause: IndexNow ist ein Crawl-Signal, kein Crawl-Promise. Neue Domains warten typisch 14–30 Tage auf ersten Crawl. Plus: ohne eingehende Backlinks niedrige Crawl-Priorität.
Lösung: Backlink-Stack ergänzt: GitHub-Profile-Blog-Field, Reddit-Bio + Pinned-Post, Hardcover-Bio, Linktree mit fünf Sub-Pages, ORCID-Researcher-URLs, Wikidata-P973 für Buch-Entität. Erwartung: referer_count in 7–14 Tagen von 0 auf 5–8.
Methodologische Implikation: Pre-Launch-AEO ist nicht „Submit-And-Wait", sondern „Submit-And-Build-Authority-Parallel". Backlink-Strategie ist Voraussetzung für IndexNow-Wirksamkeit.

IndexNow-Stage Timeout bei generic-Endpoint

17. Mai 2026 · Pipeline · gelöst

Symptom: Drei von vier IndexNow-Pushes zu api.indexnow.org warfen AbortError. Der direkte bing.com/indexnow-Endpoint funktionierte stabil. Effekt: Der Eindruck „ich pushe jeden Tag" stimmte nur halb.
Root-Cause: Generic-IndexNow-Endpoint hat höhere Latenz-Varianz, kollidierte mit 15-Sekunden-Stage-Timeout.
Lösung: Timeout auf 30 Sekunden erhöht, plus ein-maliger Retry bei AbortError mit 2-Sekunden-Pause. Post-Fix alle vier Layer (IndexNow generic, IndexNow Bing, Bing Webmaster Submit, Quota-Check) konstant HTTP 200.
Methodologische Implikation: Sub-Request-Timeouts in Pipelines müssen die p99-Latenz des langsamsten Endpoints abdecken, nicht den Durchschnitt.

Was zum Erfolg geholfen hat

Pre-Registration mit kryptografisch gelocktem DOI

11. Mai 2026 · Methodologie · etabliert

Zenodo-DOI 10.5281/zenodo.20125967 wurde am Tag der Pipeline-Aktivierung publiziert. Sieben Hypothesen Q0–Q6 gelockt vor jeder Messung. Damit ist die HARKing-Kritik (Hypothese erst nach Resultat formuliert) strukturell ausgeschlossen.

Konkreter Nutzen heute: alle methodologischen Korrekturen (v2.0 → v3.0 in 48 Stunden) wirken nicht wie nachträgliche Anpassung. Die Pre-Reg gibt den festen Rahmen, gegen den jede Methodology-Note-Version sich messen lassen muss.

Bi-temporale Daten-Speicherung statt Hard-Update

17. Mai 2026 · Daten-Modell · etabliert

Bei der retroaktiven Re-Aggregation von 41 Snapshots wurde nicht in-place überschrieben. Stattdessen Migration 0013: parallele v2.7.1-Spalten, pipeline_version_first-Marker, Audit-Trail komplett erhalten.

Externer Reviewer kann jederzeit nachprüfen, was die Pipeline an einem gegebenen Datum berichtete (v2.0-Spalte) und was die methodologisch korrigierte Wahrheit ist (v2.7.1-Spalte). Beide Werte sind in der Time-Series sichtbar.

Offene Daten-API plus MIT-Replication-Kit

11. Mai 2026 · Reproduzierbarkeit · etabliert

Roh-Daten unter /api/latest und /api/timeseries. Code unter github.com/marintkael/marin-research-tools MIT-lizenziert. Methodologie als CC-BY-4.0 auf Zenodo.

Jede externe Forscher-Gruppe kann das gleiche Setup auf eine andere Identität anwenden und Vergleichs-Daten generieren. Single-Subject-Studie wird damit zur portablen Methodologie.

Working Papers als lebendes Format statt Final-Publish

17. Mai 2026 · Publikations-Format · etabliert

Working Papers v0.x (Outline) → v1.x (vollständig) → v2.x (peer-reviewed) statt einer einzigen Final-Publikation in zwölf Monaten. Vorteil: jede Daten-Aktualisierung kann in ein bestehendes WP zurückwandern, ohne dass früher kommunizierte Versionen verloren gehen.

Hard-Constraint-Linter auf jedem Outbound-Surface

17. Mai 2026 · Disziplin · etabliert

Banned-Patterns für Pseudonym-Leak, Automatisierungs-Mechanik, falsche Pronomen, Sprach-Drift werden vor jedem Skeet, jedem Daily-Brief, jeder Working-Paper-Veröffentlichung automatisch geprüft. Verstöße landen im Audit-Log, nicht im Public-Feed.

Was als nächstes Hürden werden könnte

Open-AI-Search-Preview-Latenz: wenn das Modell selbst langsamer wird, hilft Timeout-Erhöhung irgendwann nicht mehr — dann Migration auch dort auf Batch-API.
Bing-Indexierung steht weiter still: wenn nach 30 Tagen Bing keine URL crawled, ist nicht die Pipeline das Problem, sondern Bing's Crawl-Priorisierung für junge DACH-Domains.
Wikipedia-Notability: für ein Wikipedia-Lemma reicht Pre-Launch-Sichtbarkeit nicht — das wird Phase D nach Buch-Launch.
Cross-Provider-Hallucination-Konvergenz: Pauline-Kael-Anker + Star-Wars-Anker bei Gemini + Marvin-T.-Kael-Mutation bei Mistral. Wenn mehr LLMs konvergierende Anker produzieren, wird Working Paper 03 zum Hauptbefund.