Working Paper · Nr. 02 · v0.3 (Per-LLM-Headline)
Pre-Launch LLM Citation
Top-3 Sprachmodelle erreichen 19.8 – 24.0 % Hit-Rate für einen Pre-Launch-Autor ohne veröffentlichtes Werk.
Abstract
Eine Pre-Launch-Autor-Identität — keine Bücher veröffentlicht, keine Reviews,
keine Presse, 13 Bluesky-Follower — erreicht innerhalb von 7 Tagen
messbare Citation-Rates in einzelnen Sprachmodellen. OpenAI Search Preview
führt mit 24.0 %, gefolgt von Claude Haiku 4.5 und Sonnet 4.6
mit jeweils 19.8 %. Reine Identitäts-Engineering (Wikidata,
ORCID, Bluesky, GitHub, Zenodo, llms.txt, Reddit) ist der einzige
Input. Pre-registriert via Zenodo-DOI vor T+0. Die Per-LLM-Headline ist
methodologisch robust gegen Provider-Availability-Confound, der das aggregierte
Mittel zwischen 14.8 und 21.7 % schwanken lässt.
1
Hintergrund
GEO/AEO-Literatur arbeitet typisch mit der Annahme, dass LLM-Zitation an etablierter kultureller Präsenz hängt — veröffentlichte Werke, Reviews, Presse, Social-Proof. Diese Studie testet das Gegenteil: kann reine strukturierte Identitäts-Engineering messbare LLM-Sichtbarkeit erzeugen, bevor ein einziges Wort publiziert ist?
2
Pre-Registriertes Design
- Subjekt: Marin T. Kael (pseudonymer Fantasy-Autor, Debüt 22. September 2026)
- Inputs (T+0): Wikidata Person- + Buch-Items · ORCID mit Biographie · Bluesky · GitHub · Zenodo mit DOIs ·
llms.txt· Reddit-Profil mit Karma-Aufbau - Probe: 11 LLMs × 16 Fragen × Daily Polling
- Scoring: 0 = not_found · 0.5 = name_only · 2 = partial_book · 3 = full_citation · −3 = US-Female-Misidentification-Penalty
- Pre-Registration: DOI 10.5281/zenodo.20125967
3
Ergebnisse (T+7)
3.1 Per-LLM Headline (primäre Metrik)
| LLM | Hit-Rate | n_legit | Anmerkung |
|---|---|---|---|
OpenAI Search Preview (gpt-4o-mini-search-preview-2025-03-11) | 24.0 % | 16 | web-search-backed |
| Claude Haiku 4.5 | 19.8 % | 16 | conservative-positive |
| Claude Sonnet 4.6 | 19.8 % | 16 | identisch zu Haiku |
| Llama 3.2 3B | 17.7 % | 16 | kleinstes Modell der Familie |
| Llama 3.1 8B | 17.7 % | 16 | — |
| OpenAI gpt-4o-mini-2024-07-18 | 17.7 % | 16 | ohne Web-Search |
| Claude Opus 4.7 | 15.6 % | 16 | höchste epistemische Konservativität |
| Mistral 7B | 11.5 % | 16 | — |
| Gemini 2.5 Flash | 11.5 % | 16 | via Direct Batch API (ab v2.8) |
| Phi-2 | 4.2 % | 16 | Halluzinations-Penalty aktiv |
| Llama 3 8B | 4.2 % | 16 | schwächstes Llama-Modell |
3.2 Aggregat (sekundär)
Das aggregierte Mittel über alle messbaren LLMs schwankt täglich zwischen 14.8 und 21.7 %, abhängig davon welche LLMs an einem Tag messbar waren. Diese Volatilität reflektiert Provider-Availability, nicht echte Marin-Discoverability. Per-LLM-Werte sind daher der methodologisch robustere Anker.
4
Drei kontraintuitive Befunde
4.1 Web-Search-LLMs dominieren ~36 % über Base-Modelle
OpenAI Search Preview (24.0 %) vs. OpenAI gpt-4o-mini Base (17.7 %) — gleiche Modellfamilie, einzige Differenz: Web-Search-Augmentation zur Inferenz-Zeit. Das Δ von +6.3 pp (≈ 36 % relative Steigerung) suggeriert: für neue Entitäten ist die Web-Search-Fähigkeit zur Inferenz-Zeit wichtiger als der Trainings-Cutoff.
4.2 Modellgröße ist nicht prädiktiv
Llama 3.2 3B (17.7 %) ≈ Llama 3.1 8B (17.7 %) — das kleinere Modell erkennt die Identität genauso gut. Die Citation-Hit-Rate hängt offenbar von Trainings-Daten-Inklusions-Pattern ab, nicht von Modell-Kapazität.
4.3 Höhere Anthropic-Tier ≠ höhere Citation-Rate
Claude Opus 4.7 (15.6 %) < Sonnet 4.6 (19.8 %) = Haiku 4.5 (19.8 %). Opus ist der teuerste und nominal stärkste Tier — und liefert die niedrigste Citation-Rate. Hypothese: Opus ist epistemisch konservativer kalibriert — präferiert „ich weiß nicht" vor partial-citation bei Unsicherheit. Methodologisch ist das die gewünschte Eigenschaft, aber sie scoret in Citation-Rate-Metriken niedriger. Citation-Rate-Scoring-Schemata belohnen damit indirekt overconfident hallucination über honest uncertainty — relevanter Befund für Future AEO-Tool-Methodologien.
5
Limitierungen
- n=1 Single-Subject-Design — nicht als Bevölkerungs-Schätzung generalisierbar.
- 7-Tage-Fenster — Phase 1 (Instrument-Validierung), nicht Effect-Detection.
- 16 Fragen manuell autoriert — Selection-Bias-Risiko.
- Forscher = Subjekt — vollständig offengelegt in Methodology Note 01 § 7.
- Aggregat ist provider-availability-sensitiv — daher Per-LLM-Headline als primäre Metrik (siehe auch Working Paper 04 Mode 5).
6
Replikation
- Roh-Daten-API:
marin-research-pipeline.p96xckbr4c.workers.dev/api/latest - Time-Series:
/api/timeseries?days=30 - Replication-Kit (MIT): github.com/marintkael/marin-research-tools
- Methodology Note 01 v2.8: DOI 10.5281/zenodo.20308495
- Live-Dashboard: marin-t-kael.de/research/dashboard
- Engineering-Journal: Projekt-Herausforderungen und Lösungen — Pipeline-Bugs + Methodologie-Drift + was zum Erfolg geholfen hat
7
Zitierhinweis
Kael, M. T. (2026). Pre-Launch LLM Citation: Top-3 Sprachmodelle erreichen 19.8 – 24.0 % Hit-Rate für Pre-Launch-Autor ohne veröffentlichtes Werk. Working Paper 02 v0.3, Marin T. Kael — KI-Zitations-Feldlabor. Status: Outline. URL: marin-t-kael.de/research/working-papers/wp-02-llm-citation.