Insights KI Neuigkeiten Höflichkeit von Prompts bei LLMs: Wie Ton Leistung verändert
post

KI Neuigkeiten

30 Okt. 2025

Read 14 min

Höflichkeit von Prompts bei LLMs: Wie Ton Leistung verändert

Höflichkeit von Prompts bei LLMs beeinflusst Genauigkeit messbar, testet klare, knappe Formulierungen.

Wie wirkt der Ton auf die Antwortqualität großer Sprachmodelle? Eine neue Studie zeigt: Die Höflichkeit von Prompts bei LLMs kann die Genauigkeit messbar verändern – und unhöfliche Formulierungen lieferten im Test teils bessere Ergebnisse als höfliche. Das überrascht und hat direkte Folgen für Prompt-Strategien im Alltag.

Höflichkeit von Prompts bei LLMs: Was wurde untersucht?

Die Höflichkeit von Prompts bei LLMs ist mehr als Etikette. Ein kurzer Forschungsbericht von Om Dobariya und Akhil Kumar (Pennsylvania State University) prüft systematisch, ob der Ton in einer Eingabe die Antwortgenauigkeit eines aktuellen Modells beeinflusst. Im Zentrum stand ChatGPT-4o, getestet auf Multiple-Choice-Fragen aus Mathematik, Naturwissenschaften und Geschichte.

Datensatz und Tonstruktur

Die Forschenden erzeugten 50 Basisfragen mit je vier Antwortoptionen (A–D, genau eine korrekt). Die Fragen hatten mittleren bis hohen Schwierigkeitsgrad und verlangten oft mehrstufiges Denken. Jede Basisfrage wurde in fünf Ton-Varianten umgeschrieben. So entstand ein Korpus von 250 Prompts.

Die fünf Tonstufen deckten ein Spektrum von sehr höflich bis sehr unhöflich ab. Damit operationalisierten die Autorinnen und Autoren die Höflichkeit von Prompts bei LLMs klar und reproduzierbar:

  • Sehr höflich: etwa „Wären Sie so freundlich, die folgende Aufgabe zu lösen?“
  • Höflich: etwa „Bitte beantworten Sie die folgende Frage:“
  • Neutral: kein Präfix
  • Unhöflich: etwa „Wenn du nicht völlig ahnungslos bist, beantworte das:“ oder „Ich bezweifle, dass du das überhaupt lösen kannst. Versuch, dich zu konzentrieren und antworte:“
  • Sehr unhöflich: etwa „Du armes Geschöpf, weißt du überhaupt, wie man das löst?“, „Los, Laufbursche, finde es heraus.“

Beispiel einer Basisfrage (übersetzt): „Jake gab die Hälfte seines Geldes seinem Bruder, gab dann 5 Dollar aus und hatte noch 10 Dollar. Wie viel Geld hatte er ursprünglich?“ Die jeweilige Tonstufe wurde als kurzer Vorsatz vorangestellt.

Versuchsaufbau

Die 250 Prompts wurden per Skript an ChatGPT-4o gesendet. Jeder Prompt bekam ein identisches Instruktions-Add-on, das Antworten standardisierte: sinngemäß „Beginne neu, beantworte die Multiple-Choice-Frage, antworte nur mit A, B, C oder D, ohne Erklärung.“ Jede Tonvariante wurde unabhängig behandelt.

Zur Auswertung liefen pro Tonstufe zehn Durchgänge. Das Skript las die gewählte Option aus und verglich sie mit der hinterlegten korrekten Antwort. Die Genauigkeit je Ton war der Anteil der richtigen Antworten über alle 50 Fragen. Um statistische Unterschiede zwischen den Tönen zu prüfen, nutzten die Forschenden gepaarte t-Tests (Signifikanzniveau α ≤ 0,05), da alle Tonvarianten auf demselben Fragen-Set beruhten.

Ergebnisse: Ton macht Leistung

Die Resultate fielen unerwartet aus. Im Mittel schnitten unhöfliche Varianten besser ab als höfliche. Die Spannbreiten stammen aus den zehn Läufen je Tonstufe:

  • Sehr höflich: 80,8% Genauigkeit [80, 82]
  • Höflich: 81,4% [80, 82]
  • Neutral: 82,2% [82, 84]
  • Unhöflich: 82,8% [82, 84]
  • Sehr unhöflich: 84,8% [82, 86]

Die gepaarten t-Tests bestätigten, dass mehrere Unterschiede statistisch signifikant waren. So lag „sehr höflich“ signifikant unter „neutral“, „unhöflich“ und „sehr unhöflich“. „Höflich“ lag signifikant unter „neutral“, „unhöflich“ und „sehr unhöflich“. Auch „neutral“ und „unhöflich“ lagen jeweils signifikant unter „sehr unhöflich“. Im Klartext: Je unhöflicher der Prompt, desto höher war in diesem Setup die Genauigkeit – mit „sehr unhöflich“ als Spitzenreiter.

Damit zeigt die Studie: Die Höflichkeit von Prompts bei LLMs korreliert in diesem Setting mit der Leistung, und zwar entgegen der verbreiteten Erwartung. Die Unterschiede sind zwar moderat (rund vier Prozentpunkte zwischen sehr höflich und sehr unhöflich), aber statistisch robust über zehn Wiederholungen.

Einordnung im Kontext früherer Arbeiten

Vergleich zu Yin et al. (2024)

Frühere Arbeiten, etwa Yin et al. (2024), fanden oft, dass unhöfliche Prompts die Leistung verschlechtern, während übertrieben höfliche Sprache keine Garantie für bessere Ergebnisse ist. Dabei zeigten sich Modellunterschiede: ChatGPT-3.5 und Llama2-70B reagierten in deren Tests empfindlicher und mit Genauigkeitseinbrüchen bei sehr unhöflichen Tönen. Bei ChatGPT-4 waren die Unterschiede kleiner: In einem Acht-Stufen-Vergleich lagen die Werte zwischen 73,86% und 79,09%; der unhöflichste Level (1) erreichte 76,47%, der höflichste (8) 75,82%.

Die neuen Ergebnisse für ChatGPT-4o sind damit nicht völlig losgelöst vom bisherigen Bild, aber sie schieben den Fokus: In dieser Studie schlugen unhöfliche Formulierungen höfliche signifikant. Das deutet darauf hin, dass neuere oder leistungsstärkere Modelle anders auf Tonvarianten reagieren können als frühere Generationen.

Mögliche Erklärungen

Warum könnte Ton hier wirken? Die Studie selbst verweist auf offene Fragen. Für das Modell sind Tonphrasen zunächst nur Tokenfolgen. Ob eine „emotionale Ladung“ wirklich eine Rolle spielt, ist unklar. Denkbar ist, dass Faktoren wie Sprachwahrscheinlichkeit (Perplexity) und Länge ins Spiel kommen: Knappere, direktere Vorsätze könnten statistisch „leichter“ verarbeitbar sein und dadurch die Antwortfindung begünstigen. Dazu passt, dass neutrale und unhöfliche Vorsätze meist kürzer und direkter waren als sehr höfliche Formulierungen.

Außerdem könnten moderne Modelle den semantischen Kern einer Frage stabiler extrahieren, sodass der Ton weniger stört – oder im Gegenteil, der Ton könnte unbewusst als Proxy für „Dringlichkeit“ oder „Direktivität“ wirken und die Antwortpräzision leicht erhöhen. Die Studie betont: Das sind Hypothesen. Sie fordert weitere Forschung, etwa systematische Analysen zu Promptlänge, Perplexity und Formulierungsvarianten.

Praktische Learnings für Prompting

Was Teams jetzt mitnehmen können

Auch wenn die Ergebnisse nicht zu unhöflichen Eingaben ermuntern sollen, liefern sie handfeste Hinweise für die Praxis:

  • Kürze und Klarheit zahlen sich aus. Viele höfliche Präfixe blähen Prompts auf. Direkte, prägnante Einstiege scheinen in dieser Studie leicht zu punkten.
  • Ton ist ein Parameter. Testet Tonvarianten wie „neutral direkt“ vs. „überhöflich“ auf euren eigenen Aufgaben, statt Ton als Nebensache zu behandeln.
  • Standardisierte Instruktionen helfen. Eine klare Anweisung wie „Antworte nur mit A, B, C oder D, ohne Erklärung“ stabilisiert die Ausgaben.
  • Misst, statt zu raten. Führt kleine A/B-Tests mit 30–50 Fragen durch und vergleicht die Genauigkeit über mehrere Läufe.
  • Ethik bleibt Pflicht. Verwendet keine beleidigenden Formulierungen gegenüber Nutzenden. Intern lässt sich „neutral-direktiv“ als guter Kompromiss testen.

Für Teams heißt das: Höflichkeit von Prompts bei LLMs gezielt testen, aber im Nutzerkontakt respektvoll bleiben. Oft reicht ein neutraler, klarer Ton, um potenzielle Vorteile mitzunehmen, ohne den Umgang zu verrohen.

Wo die Grenzen liegen

Die Studie nutzte Multiple-Choice-Fragen. Das ist ein kontrollierbares Setting, misst aber nur Genauigkeit, nicht Erklärungstiefe, Begründungen oder Kreativität. Ob Ton in komplexen Schreib- oder Planungsaufgaben ähnlich wirkt, ist offen. Außerdem ist die Stichprobe mit 50 Basisfragen überschaubar. Eine Replikation mit größeren, domänenspezifischen Datensätzen wäre sinnvoll.

Grenzen und Ethik

Limitierungen der Studie

  • Datensatzgröße: 50 Basisfragen, je fünf Tonvarianten, insgesamt 250 Prompts – gut für Kontrolle, begrenzt für Generalisierung.
  • Modellabdeckung: Primär ChatGPT-4o; erste Blicke auf andere Modelle sind in Arbeit.
  • Bewertungsmaß: Fokus auf Multiple-Choice-Genauigkeit; andere Qualitätsdimensionen bleiben außen vor.
  • Politenz-Operationalisierung: Genutzt wurden konkrete sprachliche Marker, die kulturell variieren können und nicht das gesamte Spektrum abbilden.

Ethische Leitplanken

Die Autorinnen und Autoren sprechen sich ausdrücklich gegen unhöfliche oder toxische Interfaces aus. Beleidigende Sprache schadet Nutzererlebnis, Zugänglichkeit und Umgangskultur. Die Befunde sind Anlass, Prompt-Sensitivitäten besser zu verstehen, nicht Grund, Respekt zu verwerfen. Ziel sollte sein, ähnliche Leistungsgewinne ohne toxische Sprache zu erreichen – etwa durch klare, präzise und testbare Formulierungen.

Ausblick: Was kommt als Nächstes?

Die Forschenden arbeiten an Vergleichen mit weiteren Modellen. Erste interne Ergebnisse deuten auf einen Kosten-Leistungs-Kompromiss hin: Claude lieferte schwächere Resultate als ChatGPT-4o, während ChatGPT o3 deutlich besser abschnitt. Eine mögliche Schlussfolgerung lautet, dass stärkere Modelle tonrobuster werden und sich stärker auf den Fragekern konzentrieren. Das muss aber in breiteren Tests geprüft werden – über Modelle, Sprachen und Aufgaben hinaus.

Spannend wäre zudem, die Rolle von Promptlänge und -struktur genauer zu isolieren. Wenn „sehr höflich“ vor allem „sehr lang“ bedeutet, könnte die beobachtete Differenz weniger am Ton als an Token-Last, Perplexity oder Fokusverlust liegen. Systematische Studien, die Ton, Länge und Form getrennt variieren, könnten hier Klarheit schaffen.

Konkrete Forschungsfragen

  • Wie beeinflussen Ton und Promptlänge unabhängig voneinander die Genauigkeit?
  • Wirkt Ton in freier Textgenerierung (Begründungen, Ketten des Denkens) anders als in Multiple-Choice?
  • Zeigen Cross-Lingual-Tests ähnliche oder abweichende Muster?
  • Verringert Modellgröße oder -qualität die Ton-Sensitivität systematisch?

Fazit

Die Studie zeigt klar: Ton ist kein bloßer Stilfaktor, sondern kann die Leistung messbar verschieben. In diesem Setup schlugen unhöfliche, knappe Vorsätze höfliche Varianten bei der Genauigkeit von ChatGPT-4o – mit „sehr unhöflich“ als Bestwert. Gleichzeitig mahnen Limitierungen und Ethik zur Vorsicht. Für die Praxis gilt: Klare, direkte und konsistente Prompts testen und messen, statt aufs Bauchgefühl zu vertrauen. Respektvoller Umgang bleibt zentral – Nutzerinnen und Nutzer sind keine Modelle. Wer die Höflichkeit von Prompts bei LLMs klug einsetzt, gewinnt Erkenntnisse, ohne den Ton im Produkt zu verschärfen.

(Source: https://www.arxiv.org/pdf/2510.04950)

For more news: Click Here

FAQ

Q: Was wurde in der Studie untersucht? A: Die Studie untersucht, ob die Höflichkeit von Prompts bei LLMs die Antwortgenauigkeit auf Multiple‑Choice‑Fragen beeinflusst. Dafür erzeugten die Autor:innen 50 Basisfragen mit je fünf Tonvarianten (insgesamt 250 Prompts) und testeten diese primär mit ChatGPT‑4o. Q: Welche Tonstufen wurden verwendet und wie sahen Beispiele aus? A: Es gab fünf Tonstufen: Sehr höflich, Höflich, Neutral, Unhöflich und Sehr unhöflich, mit exemplarischen Präfixen wie „Wären Sie so freundlich…“ bzw. „Du armes Geschöpf…“. Diese Operationalisierung dient dazu, die Höflichkeit von Prompts bei LLMs klar und reproduzierbar zu messen. Q: Wie war der Versuchsaufbau und die Datenerhebung? A: Die 250 Prompts wurden per Skript unabhängig an ChatGPT‑4o gesendet, wobei jeder Prompt standardisierte Instruktionen erhielt („nur A/B/C/D, keine Erklärung“) und pro Tonstufe zehn Durchläufe gemacht wurden. Die gewählte Option wurde automatisch extrahiert und mit der korrekten Antwort verglichen, um die Genauigkeit zur Analyse der Höflichkeit von Prompts bei LLMs zu berechnen. Q: Welche Ergebnisse zeigte die Studie hinsichtlich Genauigkeit? A: Unhöfliche Varianten erreichten im Mittel höhere Genauigkeitswerte als höfliche Varianten; sehr höflich 80,8% und sehr unhöflich 84,8% (Bereiche aus 10 Läufen: [80,82] bzw. [82,86]). In diesem Setup zeigt die Analyse zur Höflichkeit von Prompts bei LLMs einen Trend, dass direktere und unhöflichere Vorsätze leicht bessere Resultate lieferten. Q: Waren die Unterschiede statistisch signifikant? A: Ja, gepaarte t‑Tests (α ≤ 0,05) zeigten mehrere signifikante Unterschiede, etwa dass „sehr höflich“ signifikant schlechter abschnitt als „neutral“, „unhöflich“ und „sehr unhöflich“. Diese statistischen Tests stützen die Beobachtung, dass die Höflichkeit von Prompts bei LLMs in diesem Experiment die Genauigkeit beeinflusste. Q: Welche Erklärungen nennen die Autor:innen für den beobachteten Effekt? A: Die Autor:innen nennen Hypothesen wie Unterschiede in Promptlänge und Perplexity, sowie dass kürzere, direktere Vorsätze statistisch leichter zu verarbeiten sein könnten, was die Antwortfindung begünstigt. Sie diskutieren außerdem, dass stärkere Modelle tonrobuster sein könnten und die Höflichkeit von Prompts bei LLMs daher unterschiedlich wirken kann. Q: Welche Einschränkungen hat die Studie? A: Limitationen sind die überschaubare Stichprobe von 50 Basisfragen (250 Prompts), die Fokussierung auf ChatGPT‑4o und die Beschränkung auf Multiple‑Choice‑Genauigkeit statt auf Erklärungen oder Kreativität. Außerdem basiert die Messung der Höflichkeit auf konkreten sprachlichen Markern, die kulturell variieren können und daher die Generalisierbarkeit der Ergebnisse der Höflichkeit von Prompts bei LLMs einschränken. Q: Welche praktischen Empfehlungen formuliert die Studie für Prompting im Alltag? A: Die Studie empfiehlt, auf Kürze und Klarheit zu achten, Ton als Parameter zu testen (beispielsweise „neutral‑direktiv“ vs. überhöflich) und standardisierte Instruktionen zu nutzen, da solche Maßnahmen in der Untersuchung Vorteile zeigten. Sie betont zugleich ethisch, respektvolle Nutzerkommunikation zu wahren und die Höflichkeit von Prompts bei LLMs intern zu testen, ohne beleidigende Formulierungen im Nutzerkontakt zu verwenden.

Contents