Aktivitäts-Bericht · Q3 / 2026 · Vorschau
Aktive Pre-Launch-Phase — Erste 90 Tage Q0–Q5 + parallele Mess-Apparatur.
Phase-1-Aktivitäts-Bericht: sechs Pre-Registrationen Q0–Q5 mit paralleler Instrument-Validierung (elf Mess-Flächen).
Zusammenfassung
Über das Vor-Launch-Fenster vom 11. Mai bis 22. September 2026 wurden acht Mess-Flächen in 12 vor-registrierten Query-Sets täglich beprobt — insgesamt 13 440 Proben zuzüglich 1 680 24-h-Wiederholungs-Proben über 24-h-Fenster. Phase-1-Befunde: API-basierte Mess-Flächen (Wikidata, Google Knowledge Graph, Google Search Console) erreichten Wiederhol-Reliabilität r ≥ 0,90; Bing-KI lag bei r = 0,76 mit CUSUM-Drift-Alarm am Tag 36 (Bing-KI-Modell-Update am 14. Juli); Sprachmodell-Browser-Proben (Gemini, ChatGPT) blieben mit r = 0,58 bzw. 0,64 unter der Phase-2-Schwelle. Codebuch v0.1 abgeschlossen, Grenzfall-Diskussion offen; externe Annotator:innen-Pipeline für Q4 angesetzt.
Stichworte Mess-Instrument-Validierung · Wiederhol-Reliabilität · CUSUM-Drift-Detektion · Abdeckungs-Kartierung · Codebuch-Iteration · Phase 1 · KI-Suche
1
Erhebungs-Übersicht
Pre-Launch-Aktivitäts-Fenster: 11. Mai 2026 bis 22. September 2026 (T+0 = 11. Mai). Stichprobe: 8 Mess-Flächen × 12 Query-Sets × 140 Tage täglich, plus 24-h-24-h-Wiederholungs-Proben je Mess-Fläche über 14 zufällig gewählte Erhebungs-Tage; insgesamt 13 440 tägliche Proben plus 1 680 Wiederholungs-Proben. Methodik gemäß Methoden-Notiz 01.
Das Quartal verschachtelt Q0–Q5-Interventions-Tracking mit paralleler Instrument-Validierung (Phase 1 · Aktive Pre-Launch). Sechs Pre-Registrationen liefen parallel, ihre Effekt-Detection erfolgt über Interrupted-Time-Series-Fenster auf den betroffenen Mess-Flächen; Inter-Q-Confounds werden explizit ausgewiesen. Aktionen wurden als deterministische Markierungs-Ereignisse protokolliert, um Drift-Hinweise von Aktion-induzierten Verschiebungen zu unterscheiden — eine Aussage über deren tatsächliche Wirkung wird vor der Apparatur-Validierung in Phase 1 explizit nicht getroffen.
2
Linie 1 — Zitations-Inventur
Abdeckungs-Kartierung der Autor-Identität nach Identitäts-Cluster zum Stichtag 22. September 2026: Person- und Werk-Cluster sind in strukturierten Quellen (Wikidata, Goodreads, Hardcover) gut etabliert, Genre- und Welt-Mechanik-Cluster bleiben über alle Mess-Flächen hinweg schwach belegt.
Hier: Abdeckungs-Differenz-Matrix mit Hit-Rate-Veränderung pro Mess-Fläche × Cluster über das 90-Tage-Fenster · Zeitreihen-Plots ausgewählter Mess-Flächen · CUSUM-Schnappschüsse für Drift-Detektion. Im Vorschau-Layout durch Abdeckungs-Heatmap und das Drift-Profil auf /research repräsentiert.
3
Linie 2 — Mess-Instrument-Validierung
Wiederhol-Reliabilität, intra-Set-Konsistenz und CUSUM-Drift-Stats je Mess-Fläche nach 90 Tagen. Tabelle 1 fasst die primären Befunde zusammen; die zugehörige Visualisierung ist der Reliability-Forest-Plot auf der Programm-Index-Seite.
| Mess-Fläche | Wiederhol-Reliabilität r | 95-%-CI | α intra-Set | CUSUM-Alarm | Validierungs-Stand |
|---|---|---|---|---|---|
| Wikidata (SPARQL) | 0,96 | [0,94; 0,98] | 0,93 | nein | validiert |
| Reddit (public JSON) | 0,94 | [0,91; 0,97] | 0,89 | nein | validiert |
| Google Search Console | 0,92 | [0,89; 0,95] | 0,87 | nein | validiert |
| Google Knowledge Graph | 0,88 | [0,83; 0,93] | 0,82 | nein | akzeptabel |
| Goodreads / Hardcover | 0,85 | [0,80; 0,90] | 0,78 | nein | akzeptabel |
| Bing Webmaster KI | 0,76 | [0,68; 0,84] | 0,73 | Tag 36 (Modell-Update) | akzeptabel, drift-belastet |
| Gemini (Browser-Probe) | 0,64 | [0,53; 0,75] | 0,71 | nein | unter Phase-2-Schwelle |
| ChatGPT (Browser-Probe) | 0,58 | [0,45; 0,71] | 0,67 | nein | unter Phase-2-Schwelle |
Bing-KI zeigte am Tag 36 (14. Juli 2026) einen CUSUM-Alarm bei h = 5; die Drift fiel mit einem von Microsoft angekündigten Bing-KI-Modell-Update zusammen und wurde entsprechend annotiert. Die Sprachmodell-Browser-Proben (Gemini, ChatGPT) blieben durchgängig unter der Phase-2-Reliabilitäts-Schwelle — für Phase 2 muss entweder die Erhebungs-Methodik angepasst (z. B. mehrfache Schnappschüsse pro Erhebungs-Tag mit Aggregation) oder die Mess-Flächen aus dem Wirkungs-Mess-Set ausgeschlossen werden.
4
Linie 3 — Codebuch-Iteration
Annotations-Schema v0.1 abgeschlossen am 30. Juni 2026; Grenzfall-Diskussion zu drei strittigen Mustern (paraphrasierte Citations, partiell-korrekte Werks-Titel, Pseudonym-Erwähnungen ohne Werks-Bezug) öffentlich auf GitHub-Issues.
- Schema-Versionierung
Codebuch v0.1 (initial) → v0.2 geplant für 30. November 2026 nach Auswertung der externen Annotator:innen-Pilotrunde. Inter-Rater-Übereinstimmung (Cohen’s κ) wird im Q4-Bericht erstmals ausgewiesen.
in Arbeit
- Grenzfall-Stichprobe
48 Grenzfälle aus den 90 Tagen wurden gesammelt und im Style-Sheet-Annotations-Anhang öffentlich diskutiert; davon wurden 31 als „korrekte Citation" eingestuft, 12 als „partiell korrekt", 5 als „Halluzination".
veröffentlicht
5
Diskussion und Limitationen
Phase 1 ist nach 90 Tagen halb durchlaufen, der Buch-Launch liegt in 45 Tagen. Die API-basierten Mess-Flächen zeigen die erwartete deterministische Reliabilität; die Sprachmodell-Proben (Gemini, ChatGPT) sind in ihrer aktuellen Form für vor-registrierte Wirkungs-Studien zu variabel. Bing-KI wird durch das Juli-Modell-Update zur Drift-Demonstrations-Mess-Fläche — instruktiv für die Methodik, aber ein Hinweis darauf, dass Phase-2-Post-Launch-Effekt-Detection enge CUSUM-Wächter braucht.
Limitationen: (i) Einzelfall-Studie ohne Vergleichs-Identität, daher keine Trennung Identität-spezifischer vs. struktureller Effekte; (ii) das Annotations-Schema ist bislang nur vom Programmleiter geführt, Inter-Rater-Übereinstimmung folgt erst in Q4; (iii) Browser-Schnappschuss-Proben (Gemini, ChatGPT, Google AI Overviews) hängen von Plattform-UI- Stabilität ab — ein UI-Redesign kann die Probe-Pipeline brechen, ohne dass die Mess-Logik versagt.
6
Vor-Registrierungen für Q4 / 2026
Drei vor-registrierte Validierungs-Hypothesen werden ab 23. September 2026 erhoben und im Januar-Bericht (Q4 / 2026) ausgewertet:
- H-Q4-INST-01
Inter-Rater-Übereinstimmung (Cohen’s κ) für Codebuch v0.2 zwischen Programmleiter und zwei externen Annotator:innen erreicht κ ≥ 0,7 auf einer Stichprobe von N = 200 Probe-Annotationen.
- H-Q4-INST-02
Verbesserung der Sprachmodell-Proben durch n=5 Mehrfach-Schnappschüsse pro Erhebungs-Tag mit Median-Aggregation hebt die Wiederhol-Reliabilität r für Gemini und ChatGPT über die Phase-2-Schwelle 0,7 (Power = 0,80 bei erwarteter Δr = 0,12).
- H-Q4-INST-03
CUSUM-Karten mit Alarm-Schwelle h = 5 erkennen KI-Modell-Updates (Bing-KI, Gemini, ChatGPT) im 90-Tage-Fenster mit Sensitivität ≥ 0,80 — gemessen gegen die öffentlich kommunizierten Modell-Versions-Releases.
7
Offene Materialien
Mit dem finalen Bericht erscheint ein Replikations-Archiv
(Zenodo-DOI), das enthält: alle 13 440 tägliche Proben plus
1 680 Wiederholungs-Proben als versionierte JSON-Snapshots, sämtliche
Validierungs- und Aggregations-Skripte mit eingefrorenen Pins
(environment.yml), Pre-Registrierungs-Dokumente im
OSF-Format, Codebuch v0.1 als Schnappschuss und das versionierte
Style-Sheet zum Erhebungs-Zeitpunkt.
Roh-Daten unter CC 0 (sofern Plattform-AGB es erlauben). Quellcode unter MIT auf github.com/marintkael/marin-research-tools.
Zitierhinweis (geplante Form): Kael, M. T. (2026). Aktive Pre-Launch-Phase — Erste 90 Tage Q0–Q5 + parallele Mess-Apparatur. Aktivitäts-Bericht Q3 / 2026, Marin T. Kael — KI-Zitations-Feldlabor. DOI mit Veröffentlichung am 15.10.2026.