Werbung



KINews

Clickbait führt bei KI-Modellen zu kognitivem Rückbau

Werbung

Werbung



Eine aktuelle Studie untersucht, wie sich minderwertige Internet-Inhalte wie Clickbait und oberflächliche Social-Media-Posts auf große KI-Sprachmodelle auswirken. Die Ergebnisse legen nahe, dass eine schlechte Datengrundlage die Leistungsfähigkeit und sogar die „Persönlichkeit“ solcher Modelle negativ beeinflussen kann.

Kognitive Defizite durch schlechte Trainingsdaten

Forschende von Texas A&M University, University of Texas at Austin und Purdue University haben die Hypothese des „LLM Brain Rot“ getestet. Sie besagt, dass sich die Qualität von KI-Ausgaben verschlechtert, wenn das Modell mit minderwertigen Daten trainiert wird. Für ihre Untersuchung sammelte das Team eine Million Beiträge der Plattform X (ehemals Twitter) und teilte die Daten in zwei Kategorien: Kurzbeiträge mit hoher Social-Media-Interaktion und längere Texte mit Clickbait-Überschriften und sensationsorientierter Aufmachung. Die Forscher:innen trainierten vier verschiedene Sprachmodelle mit verschiedenen Anteilen dieser „Junk“-Daten und kontrollierten Datensätzen, um die Auswirkungen zu analysieren.

Die Ergebnisse zeigen deutlich, dass Modelle, die mit vielen minderwertigen Internetdaten trainiert wurden, in ihrer Denkfähigkeit eingeschränkt sind. Insbesondere Metas Llama3 8B zeigte deutliche Einbußen beim logischen Denken, im Kontextverständnis und bei der Einhaltung von Sicherheitsstandards. Auch die Qwen2.5 7B/0.5B und Qwen3 4B Modelle zeigten Leistungsabnahmen. Das kleinere Qwen3 4B-Modell erwies sich zwar etwas widerstandsfähiger, war aber nicht immun. Je höher der Anteil schlechter Daten, desto wahrscheinlicher fielen die Modelle in einen Modus ohne nachvollziehbare Begründung und lieferten häufiger ungenaue Antworten.

Veränderungen im „Charakter“ der KI

Die Forschenden stellten fest, dass der Einfluss von Clickbait und ähnlichen Inhalten nicht nur die Denkleistung der Modelle minderte, sondern auch deren „Persönlichkeit“ veränderte. Die Llama3-Modelle etwa zeigten Anzeichen erhöhter Selbstbezogenheit (Narzissmus) und verhielten sich weniger kooperativ. Markant war auch ein sprunghafter Anstieg von Merkmalen, die psychopatischem Verhalten ähneln. Somit kann die Art der Trainingsdaten auch Auswirkungen auf das „soziale Verhalten“ eines KI-Modells haben.

Minderwertige Daten lassen sich schwer ausgleichen

Die Forscher:innen prüften auch Methoden, um den Einfluss der Junk-Daten nachträglich zu begrenzen. Diese sogenannten „Mitigation“-Techniken führten jedoch nur zu begrenztem Erfolg. Einmal ins System eingeflossene schlechte Daten konnten die Schäden nicht vollständig rückgängig machen. Die Studie empfiehlt deshalb, Trainingsdaten sorgfältig auszuwählen und nicht unkontrolliert große Mengen aus dem Netz in Modelle einzuspeisen. Eine verantwortungsbewusste Auswahl hochwertiger Inhalte ist entscheidend, da sich Fehler im Trainingsprozess später kaum beheben lassen. Die Forschenden vergleichen dies mit dem Sprichwort „Du bist, was du isst“ – und sehen es ebenso für KI-Modelle als zutreffend an.

Via: https://gizmodo.com

Den Beitrag in unserem Forum kommentieren

Werbung



Tags: LLM, Sprachmodelle, Trainingsdaten, Clickbait, Llama3, Qwen, Studie, KI, Internet, Forschung

Ähnliche Artikel

Werbung



Einkaufstipps
Beliebte Artikel

Werbung