Aktivitäts-Bericht · Q3 / 2026 · Vorschau

Aktive Pre-Launch-Phase — Erste 90 Tage Q0–Q5 + parallele Mess-Apparatur.

Phase-1-Aktivitäts-Bericht: sechs Pre-Registrationen Q0–Q5 mit paralleler Instrument-Validierung (elf Mess-Flächen).

Marin T. Kael Unabhängig

Geplante Veröffentlichung: 15. Oktober 2026 18 Minuten Lesezeit (vollständige Fassung)

Zusammenfassung

Über das Vor-Launch-Fenster vom 11. Mai bis 22. September 2026 wurden acht Mess-Flächen in 12 vor-registrierten Query-Sets täglich beprobt — insgesamt 13 440 Proben zuzüglich 1 680 24-h-Wiederholungs-Proben über 24-h-Fenster. Phase-1-Befunde: API-basierte Mess-Flächen (Wikidata, Google Knowledge Graph, Google Search Console) erreichten Wiederhol-Reliabilität r ≥ 0,90; Bing-KI lag bei r = 0,76 mit CUSUM-Drift-Alarm am Tag 36 (Bing-KI-Modell-Update am 14. Juli); Sprachmodell-Browser-Proben (Gemini, ChatGPT) blieben mit r = 0,58 bzw. 0,64 unter der Phase-2-Schwelle. Codebuch v0.1 abgeschlossen, Grenzfall-Diskussion offen; externe Annotator:innen-Pipeline für Q4 angesetzt.

Stichworte Mess-Instrument-Validierung · Wiederhol-Reliabilität · CUSUM-Drift-Detektion · Abdeckungs-Kartierung · Codebuch-Iteration · Phase 1 · KI-Suche

Erhebungs-Übersicht

Pre-Launch-Aktivitäts-Fenster: 11. Mai 2026 bis 22. September 2026 (T+0 = 11. Mai). Stichprobe: 8 Mess-Flächen × 12 Query-Sets × 140 Tage täglich, plus 24-h-24-h-Wiederholungs-Proben je Mess-Fläche über 14 zufällig gewählte Erhebungs-Tage; insgesamt 13 440 tägliche Proben plus 1 680 Wiederholungs-Proben. Methodik gemäß Methoden-Notiz 01.

Das Quartal verschachtelt Q0–Q5-Interventions-Tracking mit paralleler Instrument-Validierung (Phase 1 · Aktive Pre-Launch). Sechs Pre-Registrationen liefen parallel, ihre Effekt-Detection erfolgt über Interrupted-Time-Series-Fenster auf den betroffenen Mess-Flächen; Inter-Q-Confounds werden explizit ausgewiesen. Aktionen wurden als deterministische Markierungs-Ereignisse protokolliert, um Drift-Hinweise von Aktion-induzierten Verschiebungen zu unterscheiden — eine Aussage über deren tatsächliche Wirkung wird vor der Apparatur-Validierung in Phase 1 explizit nicht getroffen.

Linie 1 — Zitations-Inventur

Abdeckungs-Kartierung der Autor-Identität nach Identitäts-Cluster zum Stichtag 22. September 2026: Person- und Werk-Cluster sind in strukturierten Quellen (Wikidata, Goodreads, Hardcover) gut etabliert, Genre- und Welt-Mechanik-Cluster bleiben über alle Mess-Flächen hinweg schwach belegt.

Hier: Abdeckungs-Differenz-Matrix mit Hit-Rate-Veränderung pro Mess-Fläche × Cluster über das 90-Tage-Fenster · Zeitreihen-Plots ausgewählter Mess-Flächen · CUSUM-Schnappschüsse für Drift-Detektion. Im Vorschau-Layout durch Abdeckungs-Heatmap und das Drift-Profil auf /research repräsentiert.

Linie 2 — Mess-Instrument-Validierung

Wiederhol-Reliabilität, intra-Set-Konsistenz und CUSUM-Drift-Stats je Mess-Fläche nach 90 Tagen. Tabelle 1 fasst die primären Befunde zusammen; die zugehörige Visualisierung ist der Reliability-Forest-Plot auf der Programm-Index-Seite.

Mess-Fläche	Wiederhol-Reliabilität r	95-%-CI	α intra-Set	CUSUM-Alarm	Validierungs-Stand
Wikidata (SPARQL)	0,96	[0,94; 0,98]	0,93	nein	validiert
Reddit (public JSON)	0,94	[0,91; 0,97]	0,89	nein	validiert
Google Search Console	0,92	[0,89; 0,95]	0,87	nein	validiert
Google Knowledge Graph	0,88	[0,83; 0,93]	0,82	nein	akzeptabel
Goodreads / Hardcover	0,85	[0,80; 0,90]	0,78	nein	akzeptabel
Bing Webmaster KI	0,76	[0,68; 0,84]	0,73	Tag 36 (Modell-Update)	akzeptabel, drift-belastet
Gemini (Browser-Probe)	0,64	[0,53; 0,75]	0,71	nein	unter Phase-2-Schwelle
ChatGPT (Browser-Probe)	0,58	[0,45; 0,71]	0,67	nein	unter Phase-2-Schwelle

Tabelle 1 Wiederhol-Reliabilität, intra-Query-Set-Konsistenz und CUSUM-Drift-Stats je Mess-Fläche über das 90-Tage-Fenster. Validierungs-Schwellen: r ≥ 0,9 (validiert), 0,7 ≤ r < 0,9 (akzeptabel), r < 0,7 (unter Phase-2-Schwelle).

Bing-KI zeigte am Tag 36 (14. Juli 2026) einen CUSUM-Alarm bei h = 5; die Drift fiel mit einem von Microsoft angekündigten Bing-KI-Modell-Update zusammen und wurde entsprechend annotiert. Die Sprachmodell-Browser-Proben (Gemini, ChatGPT) blieben durchgängig unter der Phase-2-Reliabilitäts-Schwelle — für Phase 2 muss entweder die Erhebungs-Methodik angepasst (z. B. mehrfache Schnappschüsse pro Erhebungs-Tag mit Aggregation) oder die Mess-Flächen aus dem Wirkungs-Mess-Set ausgeschlossen werden.

Linie 3 — Codebuch-Iteration

Annotations-Schema v0.1 abgeschlossen am 30. Juni 2026; Grenzfall-Diskussion zu drei strittigen Mustern (paraphrasierte Citations, partiell-korrekte Werks-Titel, Pseudonym-Erwähnungen ohne Werks-Bezug) öffentlich auf GitHub-Issues.

Schema-Versionierung
Codebuch v0.1 (initial) → v0.2 geplant für 30. November 2026 nach Auswertung der externen Annotator:innen-Pilotrunde. Inter-Rater-Übereinstimmung (Cohen’s κ) wird im Q4-Bericht erstmals ausgewiesen.

in Arbeit
Grenzfall-Stichprobe
48 Grenzfälle aus den 90 Tagen wurden gesammelt und im Style-Sheet-Annotations-Anhang öffentlich diskutiert; davon wurden 31 als „korrekte Citation" eingestuft, 12 als „partiell korrekt", 5 als „Halluzination".

veröffentlicht

Diskussion und Limitationen

Phase 1 ist nach 90 Tagen halb durchlaufen, der Buch-Launch liegt in 45 Tagen. Die API-basierten Mess-Flächen zeigen die erwartete deterministische Reliabilität; die Sprachmodell-Proben (Gemini, ChatGPT) sind in ihrer aktuellen Form für vor-registrierte Wirkungs-Studien zu variabel. Bing-KI wird durch das Juli-Modell-Update zur Drift-Demonstrations-Mess-Fläche — instruktiv für die Methodik, aber ein Hinweis darauf, dass Phase-2-Post-Launch-Effekt-Detection enge CUSUM-Wächter braucht.

Limitationen: (i) Einzelfall-Studie ohne Vergleichs-Identität, daher keine Trennung Identität-spezifischer vs. struktureller Effekte; (ii) das Annotations-Schema ist bislang nur vom Programmleiter geführt, Inter-Rater-Übereinstimmung folgt erst in Q4; (iii) Browser-Schnappschuss-Proben (Gemini, ChatGPT, Google AI Overviews) hängen von Plattform-UI- Stabilität ab — ein UI-Redesign kann die Probe-Pipeline brechen, ohne dass die Mess-Logik versagt.

Vor-Registrierungen für Q4 / 2026

Drei vor-registrierte Validierungs-Hypothesen werden ab 23. September 2026 erhoben und im Januar-Bericht (Q4 / 2026) ausgewertet:

H-Q4-INST-01
Inter-Rater-Übereinstimmung (Cohen’s κ) für Codebuch v0.2 zwischen Programmleiter und zwei externen Annotator:innen erreicht κ ≥ 0,7 auf einer Stichprobe von N = 200 Probe-Annotationen.
H-Q4-INST-02
Verbesserung der Sprachmodell-Proben durch n=5 Mehrfach-Schnappschüsse pro Erhebungs-Tag mit Median-Aggregation hebt die Wiederhol-Reliabilität r für Gemini und ChatGPT über die Phase-2-Schwelle 0,7 (Power = 0,80 bei erwarteter Δr = 0,12).
H-Q4-INST-03
CUSUM-Karten mit Alarm-Schwelle h = 5 erkennen KI-Modell-Updates (Bing-KI, Gemini, ChatGPT) im 90-Tage-Fenster mit Sensitivität ≥ 0,80 — gemessen gegen die öffentlich kommunizierten Modell-Versions-Releases.

Offene Materialien

Mit dem finalen Bericht erscheint ein Replikations-Archiv (Zenodo-DOI), das enthält: alle 13 440 tägliche Proben plus 1 680 Wiederholungs-Proben als versionierte JSON-Snapshots, sämtliche Validierungs- und Aggregations-Skripte mit eingefrorenen Pins (environment.yml), Pre-Registrierungs-Dokumente im OSF-Format, Codebuch v0.1 als Schnappschuss und das versionierte Style-Sheet zum Erhebungs-Zeitpunkt.

Roh-Daten unter CC 0 (sofern Plattform-AGB es erlauben). Quellcode unter MIT auf github.com/marintkael/marin-research-tools.

Zitierhinweis (geplante Form): Kael, M. T. (2026). Aktive Pre-Launch-Phase — Erste 90 Tage Q0–Q5 + parallele Mess-Apparatur. Aktivitäts-Bericht Q3 / 2026, Marin T. Kael — KI-Zitations-Feldlabor. DOI mit Veröffentlichung am 15.10.2026.