Insights KI Neuigkeiten SEAL selbstanpassende Sprachmodelle: So lernen LLMs selbst
post

KI Neuigkeiten

15 Okt. 2025

Read 16 min

SEAL selbstanpassende Sprachmodelle: So lernen LLMs selbst

SEAL selbstanpassende Sprachmodelle lassen LLMs selbst Trainingsdaten erzeugen und Leistung steigern.

SEAL selbstanpassende Sprachmodelle zeigen, wie LLMs sich mit eigener synthetischer Übungsdaten verbessern. MIT hat die Methode erweitert und als Open Source veröffentlicht. Der Ansatz kombiniert Selbst-Edits, Feintuning und Reinforcement Learning. Erste Tests liefern große Sprünge bei Wissen und Few-Shot-Aufgaben – ohne menschliche Handarbeit. Die Forschungsgruppe am Massachusetts Institute of Technology (MIT) hat ihre Technik für selbstlernende Sprachmodelle deutlich ausgebaut und den Code unter MIT-Lizenz auf GitHub veröffentlicht. Das System heißt SEAL (Self-Adapting LLMs). Es lässt Modelle eigene Trainingsdaten erzeugen, passende Optimierungsanweisungen formulieren und sich danach selbst feinjustieren. Der erweiterte Fachartikel erschien zuletzt als aktualisierte Version, und die Resultate wurden auf der NeurIPS 2025 vorgestellt. Hinter der Arbeit stehen Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim und Pulkit Agrawal aus dem Umfeld des Improbable AI Lab am MIT. SEAL adressiert ein bekanntes Problem: Einmal ausgelieferte LLMs bleiben oft statisch. Sie reagieren zwar flexibel im Prompt, aber ihre Gewichte ändern sich nicht mehr. Neue Fakten, neue Aufgaben oder veränderte Umgebungen fließen so nur umständlich ins Modell. SEAL setzt genau hier an und verbindet zwei Dinge: das Erzeugen nutzbarer, eigener Trainingsbeispiele und das Überprüfen des Lernfortschritts mit einem Belohnungssignal.

Was hinter SEAL selbstanpassende Sprachmodelle steckt

SEAL steht für eine Lernroutine, in der das Modell zunächst sogenannte Self-Edits produziert. Das sind natürlichsprachliche Anweisungen oder Ableitungen, die beschreiben, wie die Gewichte aktualisiert werden sollten. Diese Self-Edits können etwa umformuliertes Wissen, logische Implikationen oder konkrete Einstellungen für Datenaugmentation und Training sein. Danach folgt ein Feintuning-Schritt auf Basis dieser Anweisungen. Ob die Änderung gut war, prüft ein downstream Task mit messbarer Leistung als Belohnung. Damit zeigt sich der Kern: SEAL selbstanpassende Sprachmodelle schreiben sich nicht neu, sondern sie generieren Lernmaterial und Lernpläne in eigenen Worten – und testen sofort, ob das geholfen hat. Es ist Lernen durch Strukturieren, ähnlich wie Menschen Stoff in eigene Notizen übersetzen, bevor sie ihn verinnerlichen.

Von der Idee zur offenen Technik

– Erstveröffentlichung: SEAL wurde zuerst im Juni in einer Fassung vorgestellt, die als Konzeptbeleg diente. VentureBeat berichtete damals darüber. – Update: Die erweiterte Version vertieft nun die Methode, beschreibt eine stabile Zwei-Loop-Architektur und zeigt, dass die Selbstanpassung mit der Modellgröße skaliert. – Open Source: Der Code ist unter MIT-Lizenz frei verfügbar. Das erlaubt Forschung, Unternehmensnutzung und Experimente ohne Lizenzhürden. – Konferenz: Die Ergebnisse wurden auf der NeurIPS 2025 präsentiert.

Warum statische LLMs an Grenzen stoßen

Viele Systeme bleiben nach dem Pretraining unverändert. Neue Daten landen höchstens im Prompt. Das ist oft instabil, unhandlich und abhängig von sorgfältiger Formulierung. Außerdem fehlt eine dauerhafte Verankerung von Wissen. Genau hier setzt SEAL an: Das Modell generiert aus neuem Input zuerst verwertbare, komprimierte und aufgabenbezogene Inhalte in Form der Self-Edits. Erst dann passt es seine Gewichte an.

Self-Edits: Lernen in eigenen Worten

Self-Edits sind der Schlüssel. Sie können sein: – Reformulierte Fakten aus gelesenen Passagen. – Logische Schlussfolgerungen, die über den Text hinausgehen. – Konkrete Angaben zu Datenaugmentation und Hyperparametern für das Feintuning. Anschließend wird auf diesen selbst erstellten Daten mittels Supervised Fine-Tuning (SFT) trainiert. Ob die Self-Edits hilfreich waren, misst das System durch den Leistungsgewinn in einer Zielaufgabe. Diese Rückmeldung dient als Belohnung für die nächste Runde.

Wie SEAL arbeitet: Zwei Schleifen, ein Ziel

SEAL nutzt eine verschachtelte Struktur: – Innerer Loop: Supervised Fine-Tuning auf den Self-Edits. – Äußerer Loop: Reinforcement Learning, das die Policy zur Erzeugung der Self-Edits verbessert. Die RL-Komponente basiert auf ReSTEM. Hier werden verschiedene Vorschläge (Self-Edits) gesampelt. Nur solche, die die Zielmetrik verbessern, verstärken das Verhalten des Modells. So lernt das System, welche Arten von Self-Edits echten Lernfortschritt bringen. Für Effizienz setzt SEAL auf LoRA-basiertes Feintuning. Das reduziert Rechenaufwand und beschleunigt Experimente, denn nicht alle Gewichte werden volständig aktualisiert.

Belohnung statt Bauchgefühl

Der entscheidende Unterschied zu reinem Prompting: Es gibt eine klare, messbare Zielgröße. Der Reward kommt aus dem Leistungszuwachs in der Aufgabe. Das verhindert blinde Anpassungen und sorgt für fokussiertes Lernen. Mit jeder Runde wird die Erzeugung der Self-Edits besser – und damit auch die Qualität des Lernmaterials.

Messbare Ergebnisse auf Wissen und Few-Shot-Aufgaben

Die Studien decken zwei Hauptbereiche ab: Wissensaufnahme und Few-Shot-Lernen.

Wissensaufnahme (SQuAD)

Die Forscher prüften, wie gut ein Modell neues Faktenwissen aus Passagen ähnlich zum SQuAD-Datensatz aufnehmen kann. Statt direkt auf den Passagen zu trainieren, erzeugte das Modell synthetische Implikationen aus dem Inhalt und fine-tunete darauf. – Ergebnis: Nach zwei RL-Runden stieg die Genauigkeit im Frage-Antworten ohne Kontext von 33,5% auf 47,0%. – Vergleich: Das lag über Ergebnissen, die mit synthetischen Daten von GPT-4.1 erzielt wurden. Der wichtige Punkt: Nicht die bloßen Texte, sondern die vom Modell selbst abgeleiteten Kernaussagen waren die bessere Lernbasis. SEAL selbstanpassende Sprachmodelle profitieren davon, dass sie neues Wissen erst in passende, lernbare Einheiten überführen.

Few-Shot-Lernen (ARC)

Im Few-Shot-Setting kam eine Teilmenge des ARC-Benchmarks zum Einsatz. Die Aufgaben verlangen, aus wenigen Beispielen richtige Schlüsse zu ziehen. SEAL erzeugte Self-Edits, die sowohl Datenaugmentation als auch Hyperparameter für das Feintuning beschrieben. – Ergebnis: Nach RL stieg die Erfolgsquote auf 72,5%. Ohne RL, aber mit Self-Edits, lag sie bei 20%. – Baseline: Reines In-Context-Lernen ohne Anpassung erreichte 0%. Diese Sprünge zeigen: Die Qualität der Self-Edits und deren Belohnungs-gesteuerte Auswahl machen einen großen Unterschied. Der äußere Loop führt das Modell gezielt zu den wirksamsten Lernschritten.

Stärken, Grenzen und offene Fragen

Die Vorteile fallen klar aus: – Hoher Nutzen mit wenig externer Aufsicht: Das Modell produziert Trainingsdaten, die tatsächlich den Zielscore heben. – Stärkere Generalisierung: SEAL zeigt gute Ergebnisse, auch wenn es von Einzel-Updates auf Szenarien mit mehreren Dokumenten und fortgesetztem Pretraining skaliert. – Robustheit über Prompts: Die neue Arbeit berichtet über stabile Lernzyklen und zeigt, dass unterschiedliche Prompt-Formate funktionieren. Es gibt aber Grenzen: – Catastrophic Forgetting: Neue Updates können alte Fähigkeiten verdrängen. Laut Co-Autor Jyothish Pari deutet aktuelle Forschung darauf hin, dass RL Forgetting besser dämpft als reines SFT. Das passt zu SEALs Aufbau: Der Reward-Zyklus lenkt das Lernen weg von schädlichen Updates. – Rechenaufwand: Ein Self-Edit muss feingetunt und bewertet werden. Das dauert etwa 30–45 Sekunden pro Edit. Im Vergleich zu vielen RL-Aufgaben ist das hoch. – Anforderungen an die Datenlage: SEAL setzt aktuell gepaarte Aufgaben und Referenzantworten voraus. Ohne Label wird es schwieriger. Allerdings reicht grundsätzlich ein belohnbares Ziel. Mit einer geeigneten Reward-Funktion könnte SEAL sogar in sicherheitskritischen Bereichen lernen, schädliche Inputs zu meiden. Praktisch heißt das: Training und Einsatz von SEAL sind anspruchsvoll. Es braucht Infrastruktur, die Modellgewichte auch zur Laufzeit aktualisieren kann. Außerdem müssen Teams den Reward sorgfältig definieren, damit das Modell in die richtige Richtung lernt.

Reaktionen aus der Community

Die Resonanz auf X (ehemals Twitter) fällt lebhaft aus. Der Nutzer @VraserX bezeichnete SEAL als „Geburt kontinuierlich selbstlernender KI“ und sah das Ende der „eingefrorenen Gewichte“. Er hob die Aussicht auf beständig aktualisierte Modelle hervor, die Wissen fest verankern und reparieren. Der Nutzer @alex_prompter sprach von einem Sprung zu Systemen, die sich selbst „umschreiben“, und verwies auf die Kernergebnisse: deutliche Zuwächse bei Faktenabruf und Leistungen, die synthetische Daten von GPT-4.1 übertreffen. Wichtig ist: SEAL verändert keine Quellcodes im klassischen Sinne. Es erstellt und nutzt eigene Lerninstruktionen, um Gewichte gezielt anzupassen – genau das, was die Studie beschreibt. Die Reaktionen zeigen eine klare Erwartung: Unternehmen und Entwickler wollen Modelle, die ohne ständiges, manuelles Retraining besser werden – besonders in schnell wechselnden Umgebungen oder für stark personalisierte Anwendungen.

Wohin die Reise geht: Agentische Systeme und Selbstvortraining

Die Autorinnen und Autoren sehen SEAL als Baustein für Modelle, die mit der Welt interagieren und sich schrittweise anpassen. Denkbar ist Selbstvortraining nach jeder Interaktion: Das Modell erzeugt nach einem Schritt Self-Edits, führt ein kurzes Feintuning durch und behält so neue Fähigkeiten dauerhaft. Das senkt den Bedarf an ständiger Betreuung und manuellem Labeln – vor allem in datenarmen, spezialisierten Domänen. Mehrere Punkte aus der Studie deuten auf Potenzial: – Skalierung: In Experimenten steigt die Selbstanpassungsfähigkeit mit der Modellgröße. Größere Modelle erzeugen nützlichere Self-Edits. – Stabilität über Formate: SEAL funktioniert über verschiedene Prompt-Stile hinweg. – Effizienzgewinne mit mehr Compute: Schon wenige RL-Schritte brachten messbare Verbesserungen. Weitere Rechenleistung und fortgeschrittene RL-Methoden wie Group Relative Policy Optimization (GRPO) könnten zusätzlichen Schub liefern. Ein Engpass der Branche ist die Datenverfügbarkeit. Webtexte sind weitgehend ausgeschöpft. Wenn LLMs aber eigene, hochwertige Lernsignale generieren und diese mit einer klaren Reward-Funktion koppeln, könnten sie den Datenmangel teilweise überbrücken. SEAL selbstanpassende Sprachmodelle zeigen, wie dieser Weg aussehen kann: Wissen wird nicht nur konsumiert, sondern strukturiert, getestet und verankert.

Was das für Unternehmen bedeutet

Auch wenn die Arbeit Forschung bleibt, lassen sich erste Schlüsse ziehen: – Kontinuierliche Anpassung: Statt regelmäßiger, teurer Retrainings kann ein Modell in kurzen Zyklen lernen. Das passt zu Domänen, die sich schnell ändern. – Qualitative Lernsignale: Der Erfolg steht und fällt mit dem Reward. Unternehmen müssen sinnvolle, messbare Ziele definieren – etwa Genauigkeit auf einer validierten Aufgabe. – Infrastruktur: Für Updates zur Laufzeit sind Workflows nötig, die SFT-Schritte sicher und reproduzierbar durchführen. LoRA hilft, den Aufwand zu begrenzen. – Wissenspflege: Anstatt riesige Korpora stumpf zu erweitern, erzeugt das Modell kompakte, aufgabennahe Lerninhalte. Das spart Zeit und kann bessere Resultate liefern. – Sicherheit: Mit einer passenden Belohnung kann das System lernen, riskante Inhalte zu meiden. Entscheidend ist, dass die Reward-Funktion sicherheitsrelevantes Verhalten korrekt abbildet. Wichtig bleibt die Grenze der heutigen Fassung: SEAL setzt typischerweise Aufgaben mit bekannten Referenzen voraus. Für unlabeled Daten braucht es clevere Proxy-Rewards. Außerdem ist das Risiko des Vergessens real. Der RL-Ansatz hilft zwar, aber produktive Deployments werden zusätzliche Schutzmechanismen benötigen.

Technische Zusammenfassung in Kürze

– Prinzip: Self-Edits erzeugen, darauf SFT ausführen, Erfolg mit Reward messen, Policy zur Edit-Erzeugung per RL verbessern. – RL-Variante: ReSTEM mit Sampling und gefiltertem Behavior Cloning. Verstärkt werden nur Edits, die die Leistung heben. – Effizienz: LoRA-Finetuning für schnelle Zyklen. – Ergebnisse: – SQuAD-ähnliches Wissen, no-context QA: von 33,5% auf 47,0% nach zwei RL-Runden, besser als GPT-4.1-generierte Daten. – ARC-Subset, Few-Shot: 72,5% mit RL vs. 20% ohne RL; 0% bei reinem In-Context-Lernen ohne Anpassung. – Aufwand: 30–45 Sekunden pro Edit für Feintuning und Evaluation. SEAL markiert damit einen klaren Schritt hin zu adaptiveren, agentischen LLMs. Die Methode zeigt, wie Modelle aus neuen Informationen zuerst nützliche Lerninstruktionen machen und daraus stabile Verbesserungen gewinnen. Die offene Veröffentlichung ermöglicht es Forschung und Industrie, die Technik zu prüfen, zu erweitern und für reale Anwendungen zu testen. Am Ende bleibt eine einfache Beobachtung: SEAL selbstanpassende Sprachmodelle verbinden Lernen, Bewertung und Gewichtsupdate in einem geschlossenen Kreislauf. Das ist mehr als ein kluger Prompt – es ist ein Mechanismus, der Modelle nachhaltig wachsen lässt.

(Source: https://venturebeat.com/ai/self-improving-language-models-are-becoming-reality-with-mits-updated-seal)

For more news: Click Here

FAQ

Q: Was ist SEAL und wer hat es entwickelt? A: SEAL selbstanpassende Sprachmodelle sind eine Technik vom Massachusetts Institute of Technology (MIT), mit der LLMs eigene synthetische Trainingsdaten erzeugen und sich selbst feinjustieren. Die erweiterte Version wurde als Open Source unter MIT-Lizenz veröffentlicht und auf der NeurIPS 2025 vorgestellt. Q: Wie funktioniert SEAL technisch? A: SEAL selbstanpassende Sprachmodelle arbeiten mit einer verschachtelten Zwei-Loop-Architektur, bei der ein innerer Loop Supervised Fine-Tuning auf Self-Edits durchführt und ein äußerer Loop per Reinforcement Learning die Edit-Policy verbessert. Die RL-Komponente basiert auf ReSTEM und SEAL nutzt LoRA-basiertes Feintuning, wobei nur Self-Edits verstärkt werden, die die Zielmetrik erhöhen. Q: Was sind Self-Edits genau und welche Rolle spielen sie? A: Bei SEAL selbstanpassende Sprachmodelle sind Self-Edits natürlichsprachliche Anweisungen oder Ableitungen, die beschreiben, wie Gewichte aktualisiert werden sollten und können Reformulierungen, logische Implikationen oder Angaben zu Datenaugmentation und Hyperparametern enthalten. Auf Basis dieser Self-Edits wird ein SFT-Schritt ausgeführt und die Wirksamkeit über eine Zielaufgabe mit messbarem Reward geprüft. Q: Welche messbaren Ergebnisse erzielte SEAL in Tests? A: SEAL selbstanpassende Sprachmodelle verbesserten in einem SQuAD-ähnlichen No-Context-QA-Experiment die Genauigkeit nach zwei RL-Runden von 33,5% auf 47,0% und lagen damit über Ergebnissen mit synthetischen Daten von GPT-4.1. Im Few-Shot-ARC-Setting stieg die Erfolgsquote mit RL auf 72,5% gegenüber 20% ohne RL und 0% bei reinem In-Context-Lernen. Q: Welche Grenzen und Risiken hat SEAL? A: SEAL selbstanpassende Sprachmodelle haben Einschränkungen wie das Risiko von Catastrophic Forgetting, die Voraussetzung gepaarter Aufgaben mit Referenzantworten sowie einen vergleichsweise hohen Rechenaufwand, da Feintuning und Bewertung pro Self-Edit etwa 30–45 Sekunden dauern. Der RL-Ansatz scheint Forgetting besser zu dämpfen als reines SFT, dennoch erfordert der produktive Einsatz zusätzliche Schutz- und Deployment-Systeme. Q: Ist SEAL Open Source und für Unternehmen nutzbar? A: SEAL selbstanpassende Sprachmodelle sind als Open-Source-Projekt auf GitHub unter einer MIT-Lizenz veröffentlicht, was Forschung, Unternehmensnutzung und kommerzielle Anwendungen erlaubt. Die Veröffentlichung enthält Code und Dokumentation, sodass Teams Experimente durchführen können, sofern sie die nötige Infrastruktur bereitstellen. Q: Welche Infrastruktur ist für den produktiven Einsatz von SEAL nötig? A: Für SEAL selbstanpassende Sprachmodelle werden Laufzeit-Systeme benötigt, die SFT-Schritte sicher und reproduzierbar ausführen sowie Workflows und Bewertungsmechanismen bereitstellen, um Self-Edits zu prüfen und Gewichte zu aktualisieren. LoRA kann den Aufwand reduzieren, dennoch bleiben die zwei Optimierungsschleifen und die Bewertung jedes Edits technisch anspruchsvoll. Q: Welche Zukunftsperspektiven und Anwendungen nennt die Studie? A: Die Studie sieht SEAL selbstanpassende Sprachmodelle als Baustein für kontinuierliches Selbstvortraining, agentische Systeme und fortlaufende Wissenspflege, wobei die Selbstanpassungsfähigkeit mit größerer Modellgröße zunimmt. Mit passenden Reward-Funktionen und weiterem RL-Fortschritt könnten Anwendungen in datenarmen oder sicherheitskritischen Domänen möglich werden, erfordern aber noch weitere Tests und Infrastrukturentwicklung.

Contents