AceReason-Nemotron 1.1: Skalierung des Reasonings von LLMs mit Supervised Fine-Tuning und Reinforcement Learning

Was wäre, wenn wir KI-Modelle besser zum logischen Denken bringen könnten, indem wir ihnen mehr – und vor allem klügere – Fragen stellen und sie für die schwierigsten Antworten belohnen? Genau das hat das Team hinter AceReason-Nemotron 1.1 erforscht – und die Ergebnisse sind beeindruckend.

Ein neuer Maßstab für Reasoning in Sprachmodellen

AceReason-Nemotron 1.1 ist ein Sprachmodell mit 7 Milliarden Parametern, das neue Standards für mathematisches und programmiertechnisches Reasoning setzt. Durch die clevere Kombination von Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) zeigt das Paper, dass sich die Fähigkeit des Modells, schwierige Aufgaben zu lösen, massiv steigern lässt.

Das Wichtigste dabei: Die Skalierung der Anzahl einzigartiger Prompts – also die Vielfalt der Fragestellungen – ist sogar wichtiger als das Erzeugen vieler Antworten auf einzelne Prompts.

Wie wurde das Modell trainiert?

Supervised Fine-Tuning (SFT): Die Basis

Daten: Die Prompts stammen aus anspruchsvollen Mathe-Datensätzen (AceMath, NuminaMath, OpenMathReasoning) sowie Coding-Datensätzen (TACO, APPs, OpenCoder, OpenCodeReasoning).
Bereinigung: Doppelte und zu testähnliche Prompts wurden entfernt, um Fairness zu gewährleisten.
Antwortgenerierung: Erste Antworten wurden mit DeepSeek-R1 erstellt, besonders schwierige und längere Prompts erhielten Priorität.
Endgültiges Datenset: Über 383.000 einzigartige Prompts – 247K Mathe, 136K Programmierung.

Reinforcement Learning (RL): Der nächste Schritt

Das Training wurde in mehreren, gut geplanten Stufen durchgeführt:

Stufe 1 (Mathe, 8K Tokens): Ein „Warm-up“ mit einfacheren Fragen, um den Übergang von Imitation (SFT) zu RL zu schaffen.
Stufen 2–4 (Mathe, 16K–32K Tokens): Schrittweise schwierigere Aufgaben, das Modell lernt, längere und präzisere Antworten zu generieren.
Stufen 1–2 (Coding, 24K–32K Tokens): Hier werden nach jedem Trainingsdurchlauf die einfachen Coding-Probleme entfernt, sodass das Modell sich auf die kniffligen Fälle konzentrieren kann.

Der Clou: Das RL-Ziel belohnt detaillierte, richtige Antworten und bestraft Fehler besonders streng. Das Modell lernt nicht nur zu antworten, sondern wirklich nachvollziehbar zu argumentieren.

Was macht den Unterschied? Clevere Skalierung

Mehr Prompts > Mehr Antworten pro Prompt: Eine Regressionsanalyse zeigte, dass die Vielfalt der Problemstellungen den größten Einfluss auf den Modellfortschritt hat. Mehr Antworten je Prompt sind nützlich, aber nicht so entscheidend wie die Diversität der Fragen.
Feinabstimmung der Temperatur: Beim RL-Training ist das Gleichgewicht zwischen Exploration (Zufall) und Exploitation (Selbstsicherheit) entscheidend. Zu wenig Exploration bedeutet, das Modell lernt nichts Neues; zu viel, und es konsolidiert kein Wissen.

Wie schlägt sich AceReason-Nemotron 1.1?

Übertrifft Llama-Nemotron-Nano-8B-v1, Light-R1 und DeepSeek-R1-Distill-Qwen-7B auf Benchmarks für Mathe und Coding.
Deutliche Leistungssteigerungen nach RL-Training auf AIME24, AIME25 (Mathe) und LiveCodeBench v5/v6 (Coding).
Nachhaltige Verbesserungen: Auch wenn das SFT-Modell schon stark war, konnte das RL-Training schwierige Aufgaben lösen, an denen Vorgängermodelle gescheitert sind – besonders bei den komplexesten Programmieraufgaben.

Empfehlungen für KI-Praktiker

Skalierung der Prompt-Vielfalt ist entscheidend: Wer Reasoning-Modelle trainiert, sollte auf möglichst viele verschiedene Herausforderungen setzen.
Intelligentes RL schlägt Imitation: Modelle sollten für detailliertes, korrektes Argumentieren belohnt werden – nicht nur für oberflächliche oder knappe Antworten.
Stufenweises, „Curriculum“-RL wirkt: Starte mit einfachen Aufgaben, erhöhe die Schwierigkeit und filtere gelöste Probleme aus, um das Training effizient zu halten.

Selbst ausprobieren?

Das Modell AceReason-Nemotron 1.1 sowie die Datensätze sind Open Source und stehen auf HuggingFace zur Verfügung.

Mehr erfahren

Alle Details, Hintergründe und Grafiken findest du in Ritvik Rastogis Originalartikel.

Hast du Gedanken zu Curriculum Learning, RL oder Reasoning in LLMs? Schreib einen Kommentar oder vernetze dich mit uns auf LinkedIn!