
KI Neuigkeiten
15 Okt. 2025
Read 16 min
SEAL selbstanpassende Sprachmodelle: So lernen LLMs selbst
SEAL selbstanpassende Sprachmodelle lassen LLMs selbst Trainingsdaten erzeugen und Leistung steigern.
Was hinter SEAL selbstanpassende Sprachmodelle steckt
SEAL steht für eine Lernroutine, in der das Modell zunächst sogenannte Self-Edits produziert. Das sind natürlichsprachliche Anweisungen oder Ableitungen, die beschreiben, wie die Gewichte aktualisiert werden sollten. Diese Self-Edits können etwa umformuliertes Wissen, logische Implikationen oder konkrete Einstellungen für Datenaugmentation und Training sein. Danach folgt ein Feintuning-Schritt auf Basis dieser Anweisungen. Ob die Änderung gut war, prüft ein downstream Task mit messbarer Leistung als Belohnung. Damit zeigt sich der Kern: SEAL selbstanpassende Sprachmodelle schreiben sich nicht neu, sondern sie generieren Lernmaterial und Lernpläne in eigenen Worten – und testen sofort, ob das geholfen hat. Es ist Lernen durch Strukturieren, ähnlich wie Menschen Stoff in eigene Notizen übersetzen, bevor sie ihn verinnerlichen.Von der Idee zur offenen Technik
– Erstveröffentlichung: SEAL wurde zuerst im Juni in einer Fassung vorgestellt, die als Konzeptbeleg diente. VentureBeat berichtete damals darüber. – Update: Die erweiterte Version vertieft nun die Methode, beschreibt eine stabile Zwei-Loop-Architektur und zeigt, dass die Selbstanpassung mit der Modellgröße skaliert. – Open Source: Der Code ist unter MIT-Lizenz frei verfügbar. Das erlaubt Forschung, Unternehmensnutzung und Experimente ohne Lizenzhürden. – Konferenz: Die Ergebnisse wurden auf der NeurIPS 2025 präsentiert.Warum statische LLMs an Grenzen stoßen
Viele Systeme bleiben nach dem Pretraining unverändert. Neue Daten landen höchstens im Prompt. Das ist oft instabil, unhandlich und abhängig von sorgfältiger Formulierung. Außerdem fehlt eine dauerhafte Verankerung von Wissen. Genau hier setzt SEAL an: Das Modell generiert aus neuem Input zuerst verwertbare, komprimierte und aufgabenbezogene Inhalte in Form der Self-Edits. Erst dann passt es seine Gewichte an.Self-Edits: Lernen in eigenen Worten
Self-Edits sind der Schlüssel. Sie können sein: – Reformulierte Fakten aus gelesenen Passagen. – Logische Schlussfolgerungen, die über den Text hinausgehen. – Konkrete Angaben zu Datenaugmentation und Hyperparametern für das Feintuning. Anschließend wird auf diesen selbst erstellten Daten mittels Supervised Fine-Tuning (SFT) trainiert. Ob die Self-Edits hilfreich waren, misst das System durch den Leistungsgewinn in einer Zielaufgabe. Diese Rückmeldung dient als Belohnung für die nächste Runde.Wie SEAL arbeitet: Zwei Schleifen, ein Ziel
SEAL nutzt eine verschachtelte Struktur: – Innerer Loop: Supervised Fine-Tuning auf den Self-Edits. – Äußerer Loop: Reinforcement Learning, das die Policy zur Erzeugung der Self-Edits verbessert. Die RL-Komponente basiert auf ReSTEM. Hier werden verschiedene Vorschläge (Self-Edits) gesampelt. Nur solche, die die Zielmetrik verbessern, verstärken das Verhalten des Modells. So lernt das System, welche Arten von Self-Edits echten Lernfortschritt bringen. Für Effizienz setzt SEAL auf LoRA-basiertes Feintuning. Das reduziert Rechenaufwand und beschleunigt Experimente, denn nicht alle Gewichte werden volständig aktualisiert.Belohnung statt Bauchgefühl
Der entscheidende Unterschied zu reinem Prompting: Es gibt eine klare, messbare Zielgröße. Der Reward kommt aus dem Leistungszuwachs in der Aufgabe. Das verhindert blinde Anpassungen und sorgt für fokussiertes Lernen. Mit jeder Runde wird die Erzeugung der Self-Edits besser – und damit auch die Qualität des Lernmaterials.Messbare Ergebnisse auf Wissen und Few-Shot-Aufgaben
Die Studien decken zwei Hauptbereiche ab: Wissensaufnahme und Few-Shot-Lernen.Wissensaufnahme (SQuAD)
Die Forscher prüften, wie gut ein Modell neues Faktenwissen aus Passagen ähnlich zum SQuAD-Datensatz aufnehmen kann. Statt direkt auf den Passagen zu trainieren, erzeugte das Modell synthetische Implikationen aus dem Inhalt und fine-tunete darauf. – Ergebnis: Nach zwei RL-Runden stieg die Genauigkeit im Frage-Antworten ohne Kontext von 33,5% auf 47,0%. – Vergleich: Das lag über Ergebnissen, die mit synthetischen Daten von GPT-4.1 erzielt wurden. Der wichtige Punkt: Nicht die bloßen Texte, sondern die vom Modell selbst abgeleiteten Kernaussagen waren die bessere Lernbasis. SEAL selbstanpassende Sprachmodelle profitieren davon, dass sie neues Wissen erst in passende, lernbare Einheiten überführen.Few-Shot-Lernen (ARC)
Im Few-Shot-Setting kam eine Teilmenge des ARC-Benchmarks zum Einsatz. Die Aufgaben verlangen, aus wenigen Beispielen richtige Schlüsse zu ziehen. SEAL erzeugte Self-Edits, die sowohl Datenaugmentation als auch Hyperparameter für das Feintuning beschrieben. – Ergebnis: Nach RL stieg die Erfolgsquote auf 72,5%. Ohne RL, aber mit Self-Edits, lag sie bei 20%. – Baseline: Reines In-Context-Lernen ohne Anpassung erreichte 0%. Diese Sprünge zeigen: Die Qualität der Self-Edits und deren Belohnungs-gesteuerte Auswahl machen einen großen Unterschied. Der äußere Loop führt das Modell gezielt zu den wirksamsten Lernschritten.Stärken, Grenzen und offene Fragen
Die Vorteile fallen klar aus: – Hoher Nutzen mit wenig externer Aufsicht: Das Modell produziert Trainingsdaten, die tatsächlich den Zielscore heben. – Stärkere Generalisierung: SEAL zeigt gute Ergebnisse, auch wenn es von Einzel-Updates auf Szenarien mit mehreren Dokumenten und fortgesetztem Pretraining skaliert. – Robustheit über Prompts: Die neue Arbeit berichtet über stabile Lernzyklen und zeigt, dass unterschiedliche Prompt-Formate funktionieren. Es gibt aber Grenzen: – Catastrophic Forgetting: Neue Updates können alte Fähigkeiten verdrängen. Laut Co-Autor Jyothish Pari deutet aktuelle Forschung darauf hin, dass RL Forgetting besser dämpft als reines SFT. Das passt zu SEALs Aufbau: Der Reward-Zyklus lenkt das Lernen weg von schädlichen Updates. – Rechenaufwand: Ein Self-Edit muss feingetunt und bewertet werden. Das dauert etwa 30–45 Sekunden pro Edit. Im Vergleich zu vielen RL-Aufgaben ist das hoch. – Anforderungen an die Datenlage: SEAL setzt aktuell gepaarte Aufgaben und Referenzantworten voraus. Ohne Label wird es schwieriger. Allerdings reicht grundsätzlich ein belohnbares Ziel. Mit einer geeigneten Reward-Funktion könnte SEAL sogar in sicherheitskritischen Bereichen lernen, schädliche Inputs zu meiden. Praktisch heißt das: Training und Einsatz von SEAL sind anspruchsvoll. Es braucht Infrastruktur, die Modellgewichte auch zur Laufzeit aktualisieren kann. Außerdem müssen Teams den Reward sorgfältig definieren, damit das Modell in die richtige Richtung lernt.Reaktionen aus der Community
Die Resonanz auf X (ehemals Twitter) fällt lebhaft aus. Der Nutzer @VraserX bezeichnete SEAL als „Geburt kontinuierlich selbstlernender KI“ und sah das Ende der „eingefrorenen Gewichte“. Er hob die Aussicht auf beständig aktualisierte Modelle hervor, die Wissen fest verankern und reparieren. Der Nutzer @alex_prompter sprach von einem Sprung zu Systemen, die sich selbst „umschreiben“, und verwies auf die Kernergebnisse: deutliche Zuwächse bei Faktenabruf und Leistungen, die synthetische Daten von GPT-4.1 übertreffen. Wichtig ist: SEAL verändert keine Quellcodes im klassischen Sinne. Es erstellt und nutzt eigene Lerninstruktionen, um Gewichte gezielt anzupassen – genau das, was die Studie beschreibt. Die Reaktionen zeigen eine klare Erwartung: Unternehmen und Entwickler wollen Modelle, die ohne ständiges, manuelles Retraining besser werden – besonders in schnell wechselnden Umgebungen oder für stark personalisierte Anwendungen.Wohin die Reise geht: Agentische Systeme und Selbstvortraining
Die Autorinnen und Autoren sehen SEAL als Baustein für Modelle, die mit der Welt interagieren und sich schrittweise anpassen. Denkbar ist Selbstvortraining nach jeder Interaktion: Das Modell erzeugt nach einem Schritt Self-Edits, führt ein kurzes Feintuning durch und behält so neue Fähigkeiten dauerhaft. Das senkt den Bedarf an ständiger Betreuung und manuellem Labeln – vor allem in datenarmen, spezialisierten Domänen. Mehrere Punkte aus der Studie deuten auf Potenzial: – Skalierung: In Experimenten steigt die Selbstanpassungsfähigkeit mit der Modellgröße. Größere Modelle erzeugen nützlichere Self-Edits. – Stabilität über Formate: SEAL funktioniert über verschiedene Prompt-Stile hinweg. – Effizienzgewinne mit mehr Compute: Schon wenige RL-Schritte brachten messbare Verbesserungen. Weitere Rechenleistung und fortgeschrittene RL-Methoden wie Group Relative Policy Optimization (GRPO) könnten zusätzlichen Schub liefern. Ein Engpass der Branche ist die Datenverfügbarkeit. Webtexte sind weitgehend ausgeschöpft. Wenn LLMs aber eigene, hochwertige Lernsignale generieren und diese mit einer klaren Reward-Funktion koppeln, könnten sie den Datenmangel teilweise überbrücken. SEAL selbstanpassende Sprachmodelle zeigen, wie dieser Weg aussehen kann: Wissen wird nicht nur konsumiert, sondern strukturiert, getestet und verankert.Was das für Unternehmen bedeutet
Auch wenn die Arbeit Forschung bleibt, lassen sich erste Schlüsse ziehen: – Kontinuierliche Anpassung: Statt regelmäßiger, teurer Retrainings kann ein Modell in kurzen Zyklen lernen. Das passt zu Domänen, die sich schnell ändern. – Qualitative Lernsignale: Der Erfolg steht und fällt mit dem Reward. Unternehmen müssen sinnvolle, messbare Ziele definieren – etwa Genauigkeit auf einer validierten Aufgabe. – Infrastruktur: Für Updates zur Laufzeit sind Workflows nötig, die SFT-Schritte sicher und reproduzierbar durchführen. LoRA hilft, den Aufwand zu begrenzen. – Wissenspflege: Anstatt riesige Korpora stumpf zu erweitern, erzeugt das Modell kompakte, aufgabennahe Lerninhalte. Das spart Zeit und kann bessere Resultate liefern. – Sicherheit: Mit einer passenden Belohnung kann das System lernen, riskante Inhalte zu meiden. Entscheidend ist, dass die Reward-Funktion sicherheitsrelevantes Verhalten korrekt abbildet. Wichtig bleibt die Grenze der heutigen Fassung: SEAL setzt typischerweise Aufgaben mit bekannten Referenzen voraus. Für unlabeled Daten braucht es clevere Proxy-Rewards. Außerdem ist das Risiko des Vergessens real. Der RL-Ansatz hilft zwar, aber produktive Deployments werden zusätzliche Schutzmechanismen benötigen.Technische Zusammenfassung in Kürze
– Prinzip: Self-Edits erzeugen, darauf SFT ausführen, Erfolg mit Reward messen, Policy zur Edit-Erzeugung per RL verbessern. – RL-Variante: ReSTEM mit Sampling und gefiltertem Behavior Cloning. Verstärkt werden nur Edits, die die Leistung heben. – Effizienz: LoRA-Finetuning für schnelle Zyklen. – Ergebnisse: – SQuAD-ähnliches Wissen, no-context QA: von 33,5% auf 47,0% nach zwei RL-Runden, besser als GPT-4.1-generierte Daten. – ARC-Subset, Few-Shot: 72,5% mit RL vs. 20% ohne RL; 0% bei reinem In-Context-Lernen ohne Anpassung. – Aufwand: 30–45 Sekunden pro Edit für Feintuning und Evaluation. SEAL markiert damit einen klaren Schritt hin zu adaptiveren, agentischen LLMs. Die Methode zeigt, wie Modelle aus neuen Informationen zuerst nützliche Lerninstruktionen machen und daraus stabile Verbesserungen gewinnen. Die offene Veröffentlichung ermöglicht es Forschung und Industrie, die Technik zu prüfen, zu erweitern und für reale Anwendungen zu testen. Am Ende bleibt eine einfache Beobachtung: SEAL selbstanpassende Sprachmodelle verbinden Lernen, Bewertung und Gewichtsupdate in einem geschlossenen Kreislauf. Das ist mehr als ein kluger Prompt – es ist ein Mechanismus, der Modelle nachhaltig wachsen lässt.For more news: Click Here
FAQ
Contents