Marin T. Kael
DE / EN

Aktivitäts-Bericht · Q3 / 2026 · Vorschau

Aktive Pre-Launch-Phase — Erste 90 Tage Q0–Q5 + parallele Mess-Apparatur.

Phase-1-Aktivitäts-Bericht: sechs Pre-Registrationen Q0–Q5 mit paralleler Instrument-Validierung (elf Mess-Flächen).

Zusammenfassung

Über das Vor-Launch-Fenster vom 11. Mai bis 22. September 2026 wurden acht Mess-Flächen in 12 vor-registrierten Query-Sets täglich beprobt — insgesamt 13 440 Proben zuzüglich 1 680 24-h-Wiederholungs-Proben über 24-h-Fenster. Phase-1-Befunde: API-basierte Mess-Flächen (Wikidata, Google Knowledge Graph, Google Search Console) erreichten Wiederhol-Reliabilität r ≥ 0,90; Bing-KI lag bei r = 0,76 mit CUSUM-Drift-Alarm am Tag 36 (Bing-KI-Modell-Update am 14. Juli); Sprachmodell-Browser-Proben (Gemini, ChatGPT) blieben mit r = 0,58 bzw. 0,64 unter der Phase-2-Schwelle. Codebuch v0.1 abgeschlossen, Grenzfall-Diskussion offen; externe Annotator:innen-Pipeline für Q4 angesetzt.

Stichworte Mess-Instrument-Validierung · Wiederhol-Reliabilität · CUSUM-Drift-Detektion · Abdeckungs-Kartierung · Codebuch-Iteration · Phase 1 · KI-Suche

1

Erhebungs-Übersicht

Pre-Launch-Aktivitäts-Fenster: 11. Mai 2026 bis 22. September 2026 (T+0 = 11. Mai). Stichprobe: 8 Mess-Flächen × 12 Query-Sets × 140 Tage täglich, plus 24-h-24-h-Wiederholungs-Proben je Mess-Fläche über 14 zufällig gewählte Erhebungs-Tage; insgesamt 13 440 tägliche Proben plus 1 680 Wiederholungs-Proben. Methodik gemäß Methoden-Notiz 01.

Das Quartal verschachtelt Q0–Q5-Interventions-Tracking mit paralleler Instrument-Validierung (Phase 1 · Aktive Pre-Launch). Sechs Pre-Registrationen liefen parallel, ihre Effekt-Detection erfolgt über Interrupted-Time-Series-Fenster auf den betroffenen Mess-Flächen; Inter-Q-Confounds werden explizit ausgewiesen. Aktionen wurden als deterministische Markierungs-Ereignisse protokolliert, um Drift-Hinweise von Aktion-induzierten Verschiebungen zu unterscheiden — eine Aussage über deren tatsächliche Wirkung wird vor der Apparatur-Validierung in Phase 1 explizit nicht getroffen.

2

Linie 1 — Zitations-Inventur

Abdeckungs-Kartierung der Autor-Identität nach Identitäts-Cluster zum Stichtag 22. September 2026: Person- und Werk-Cluster sind in strukturierten Quellen (Wikidata, Goodreads, Hardcover) gut etabliert, Genre- und Welt-Mechanik-Cluster bleiben über alle Mess-Flächen hinweg schwach belegt.

Hier: Abdeckungs-Differenz-Matrix mit Hit-Rate-Veränderung pro Mess-Fläche × Cluster über das 90-Tage-Fenster · Zeitreihen-Plots ausgewählter Mess-Flächen · CUSUM-Schnappschüsse für Drift-Detektion. Im Vorschau-Layout durch Abdeckungs-Heatmap und das Drift-Profil auf /research repräsentiert.

3

Linie 2 — Mess-Instrument-Validierung

Wiederhol-Reliabilität, intra-Set-Konsistenz und CUSUM-Drift-Stats je Mess-Fläche nach 90 Tagen. Tabelle 1 fasst die primären Befunde zusammen; die zugehörige Visualisierung ist der Reliability-Forest-Plot auf der Programm-Index-Seite.

Mess-FlächeWiederhol-Reliabilität r95-%-CIα intra-SetCUSUM-AlarmValidierungs-Stand
Wikidata (SPARQL)0,96[0,94; 0,98]0,93neinvalidiert
Reddit (public JSON)0,94[0,91; 0,97]0,89neinvalidiert
Google Search Console0,92[0,89; 0,95]0,87neinvalidiert
Google Knowledge Graph0,88[0,83; 0,93]0,82neinakzeptabel
Goodreads / Hardcover0,85[0,80; 0,90]0,78neinakzeptabel
Bing Webmaster KI0,76[0,68; 0,84]0,73Tag 36 (Modell-Update)akzeptabel, drift-belastet
Gemini (Browser-Probe)0,64[0,53; 0,75]0,71neinunter Phase-2-Schwelle
ChatGPT (Browser-Probe)0,58[0,45; 0,71]0,67neinunter Phase-2-Schwelle
Tabelle 1 Wiederhol-Reliabilität, intra-Query-Set-Konsistenz und CUSUM-Drift-Stats je Mess-Fläche über das 90-Tage-Fenster. Validierungs-Schwellen: r ≥ 0,9 (validiert), 0,7 ≤ r < 0,9 (akzeptabel), r < 0,7 (unter Phase-2-Schwelle).

Bing-KI zeigte am Tag 36 (14. Juli 2026) einen CUSUM-Alarm bei h = 5; die Drift fiel mit einem von Microsoft angekündigten Bing-KI-Modell-Update zusammen und wurde entsprechend annotiert. Die Sprachmodell-Browser-Proben (Gemini, ChatGPT) blieben durchgängig unter der Phase-2-Reliabilitäts-Schwelle — für Phase 2 muss entweder die Erhebungs-Methodik angepasst (z. B. mehrfache Schnappschüsse pro Erhebungs-Tag mit Aggregation) oder die Mess-Flächen aus dem Wirkungs-Mess-Set ausgeschlossen werden.

4

Linie 3 — Codebuch-Iteration

Annotations-Schema v0.1 abgeschlossen am 30. Juni 2026; Grenzfall-Diskussion zu drei strittigen Mustern (paraphrasierte Citations, partiell-korrekte Werks-Titel, Pseudonym-Erwähnungen ohne Werks-Bezug) öffentlich auf GitHub-Issues.

  • Schema-Versionierung

    Codebuch v0.1 (initial) → v0.2 geplant für 30. November 2026 nach Auswertung der externen Annotator:innen-Pilotrunde. Inter-Rater-Übereinstimmung (Cohen’s κ) wird im Q4-Bericht erstmals ausgewiesen.

    in Arbeit

  • Grenzfall-Stichprobe

    48 Grenzfälle aus den 90 Tagen wurden gesammelt und im Style-Sheet-Annotations-Anhang öffentlich diskutiert; davon wurden 31 als „korrekte Citation" eingestuft, 12 als „partiell korrekt", 5 als „Halluzination".

    veröffentlicht

5

Diskussion und Limitationen

Phase 1 ist nach 90 Tagen halb durchlaufen, der Buch-Launch liegt in 45 Tagen. Die API-basierten Mess-Flächen zeigen die erwartete deterministische Reliabilität; die Sprachmodell-Proben (Gemini, ChatGPT) sind in ihrer aktuellen Form für vor-registrierte Wirkungs-Studien zu variabel. Bing-KI wird durch das Juli-Modell-Update zur Drift-Demonstrations-Mess-Fläche — instruktiv für die Methodik, aber ein Hinweis darauf, dass Phase-2-Post-Launch-Effekt-Detection enge CUSUM-Wächter braucht.

Limitationen: (i) Einzelfall-Studie ohne Vergleichs-Identität, daher keine Trennung Identität-spezifischer vs. struktureller Effekte; (ii) das Annotations-Schema ist bislang nur vom Programmleiter geführt, Inter-Rater-Übereinstimmung folgt erst in Q4; (iii) Browser-Schnappschuss-Proben (Gemini, ChatGPT, Google AI Overviews) hängen von Plattform-UI- Stabilität ab — ein UI-Redesign kann die Probe-Pipeline brechen, ohne dass die Mess-Logik versagt.

6

Vor-Registrierungen für Q4 / 2026

Drei vor-registrierte Validierungs-Hypothesen werden ab 23. September 2026 erhoben und im Januar-Bericht (Q4 / 2026) ausgewertet:

  • H-Q4-INST-01

    Inter-Rater-Übereinstimmung (Cohen’s κ) für Codebuch v0.2 zwischen Programmleiter und zwei externen Annotator:innen erreicht κ ≥ 0,7 auf einer Stichprobe von N = 200 Probe-Annotationen.

  • H-Q4-INST-02

    Verbesserung der Sprachmodell-Proben durch n=5 Mehrfach-Schnappschüsse pro Erhebungs-Tag mit Median-Aggregation hebt die Wiederhol-Reliabilität r für Gemini und ChatGPT über die Phase-2-Schwelle 0,7 (Power = 0,80 bei erwarteter Δr = 0,12).

  • H-Q4-INST-03

    CUSUM-Karten mit Alarm-Schwelle h = 5 erkennen KI-Modell-Updates (Bing-KI, Gemini, ChatGPT) im 90-Tage-Fenster mit Sensitivität ≥ 0,80 — gemessen gegen die öffentlich kommunizierten Modell-Versions-Releases.

7

Offene Materialien

Mit dem finalen Bericht erscheint ein Replikations-Archiv (Zenodo-DOI), das enthält: alle 13 440 tägliche Proben plus 1 680 Wiederholungs-Proben als versionierte JSON-Snapshots, sämtliche Validierungs- und Aggregations-Skripte mit eingefrorenen Pins (environment.yml), Pre-Registrierungs-Dokumente im OSF-Format, Codebuch v0.1 als Schnappschuss und das versionierte Style-Sheet zum Erhebungs-Zeitpunkt.

Roh-Daten unter CC 0 (sofern Plattform-AGB es erlauben). Quellcode unter MIT auf github.com/marintkael/marin-research-tools.

Zitierhinweis (geplante Form): Kael, M. T. (2026). Aktive Pre-Launch-Phase — Erste 90 Tage Q0–Q5 + parallele Mess-Apparatur. Aktivitäts-Bericht Q3 / 2026, Marin T. Kael — KI-Zitations-Feldlabor. DOI mit Veröffentlichung am 15.10.2026.