Domänenspezifische Wortlisten liefern nachvollziehbare Scores und sind schnell berechnet. Wir erweitern sie um Kontexte für Negation, Verstärker und Abschwächer, gewichten nach Schlagzeilenlänge und normalisieren über Quellen. Der Vorteil: einfache Erklärbarkeit gegenüber Risikokomitees. Der Nachteil: begrenzte Abdeckung neuer Formulierungen und metaphorischer Sprache. Deshalb dienen Lexika als robuste Basislinie, gegen die wir komplexere Modelle benchmarken. Ihre Stabilität in turbulenten Phasen macht sie wertvoll für Kontroll- und Fallbackstrategien.
Vortrainierte Sprachmodelle wie spezialisierte BERT-Varianten werden auf Finanzkorpora nachtrainiert, um Earnings-Jargon, regulatorische Phrasen und vorsichtige Ausblicke besser zu verstehen. Durch domänenspezifisches Fine-Tuning erkennen sie subtile Bedeutungsverschiebungen, etwa zwischen „leichter Druck“ und „deutliche Belastung“. Wir achten auf Datenqualität, Regularisierung und robuste Evaluierung über verschiedene Perioden und Sektoren. Erklärmethoden wie Attention-Heatmaps helfen, Vertrauen aufzubauen und potenziell spurious Korrelationen aufzudecken.
Ein „nicht unwesentlich“ kann positiv klingen, aber Risiken andeuten. Ironie ist selten in professionellen Meldungen, doch Headlines mit Wortspielen existieren. Wir modellieren Negation mittels Abhängigkeitsbäumen, trainieren auf ambigen Beispielen und validieren Grenzfälle manuell. Zusätzlich berücksichtigen wir Polysemie, indem wir kontextuelle Embeddings nutzen. Ziel ist weniger ein perfekter Score, sondern ein konsistenter, handelbarer Indikator, der Unsicherheit quantifiziert und anomal starke Sprachsignale von bloßem Geräusch trennt.