Sammeln Sie Titel aus verschiedenen Quellen, Zeiträumen und Marktphasen, um Einseitigkeit zu vermeiden. Dokumentieren Sie Herkunft, Datum, Ressort, Kursreaktionen und, wenn möglich, Belege im Artikel. Definieren Sie klare Kriterien für reißerisch versus informativ und schulen Sie Annotatoren. Prüfen Sie Interrater-Reliabilität, bevor Modelle trainiert werden. Eine saubere Grundgesamtheit verhindert, dass das System lediglich den Stil einzelner Häuser statt echte Clickbait-Merkmale erkennt.
Neben häufigen Reizwörtern zählen Positionsmerkmale, Zeichenfolgen, Frage- und Imperativmuster, Zahlentypen sowie Zeitbezüge. Ergänzen Sie Lesbarkeitsmetriken, Domänenlexika für Finanzausdrücke und Negationsmuster. Testen Sie Informationsgewinn und Stabilität über Zeiträume. Kombinieren Sie einfache Regeln mit statistischen Signalen, um robuste Erkennungen zu erreichen. So entsteht ein transparentes Set, das sich erklären, auditieren und redaktionell reflektieren lässt, statt in opaken Scores zu verschwinden.