AceReason-Nemotron 1.1: Scalarea raționamentului LLM cu Supervised Fine-Tuning și Reinforcement Learning

Cum ar fi dacă am putea învăța modelele AI să raționeze mai bine doar oferindu-le mai multe – și mai inteligente – întrebări și recompensându-le pentru cele mai dificile răspunsuri? Exact asta au urmărit autorii AceReason-Nemotron 1.1, iar rezultatele sunt remarcabile.

Un nou standard pentru raționamentul modelelor lingvistice

AceReason-Nemotron 1.1 este un model lingvistic cu 7 miliarde de parametri, care stabilește un nou reper pentru raționamentul matematic și de programare. Combinând inteligent Supervised Fine-Tuning (SFT) cu Reinforcement Learning (RL), autorii arată că poți îmbunătăți radical capacitatea modelului de a rezolva probleme dificile.

Dar iată secretul: scalarea numărului de prompturi unice – adică diversificarea întrebărilor sau problemelor pe care le vede modelul – contează mai mult decât generarea mai multor răspunsuri pentru aceeași întrebare.

Cum a fost antrenat modelul?

Supervised Fine-Tuning (SFT): Baza

Date: Echipa a selectat prompturi din seturi de date complexe de matematică (AceMath, NuminaMath, OpenMathReasoning) și programare (TACO, APPs, OpenCoder, OpenCodeReasoning).
Curățare: Au fost eliminate duplicatele și prompturile prea similare cu întrebările de test pentru corectitudine.
Generarea răspunsurilor: Răspunsurile inițiale au fost generate cu DeepSeek-R1, iar prompturile mai dificile și mai lungi au fost prioritizate.
Set final: Peste 383.000 de prompturi unice – 247K matematică și 136K programare.

Reinforcement Learning (RL): Nivelul următor

Antrenarea s-a făcut în etape atent gândite:

Etapa 1 (Matematică, 8K tokens): Un „warm-up” cu probleme mai simple, pentru a face trecerea de la imitare (SFT) la RL.
Etapele 2–4 (Matematică, 16K–32K tokens): Probleme tot mai dificile, modelul învățând să ofere răspunsuri mai lungi și mai corecte.
Etapele 1–2 (Programare, 24K–32K tokens): Probleme de cod, unde cele ușoare sunt eliminate după fiecare epocă, iar modelul se concentrează pe cazurile dificile.

Tehnică cheie: Obiectivul RL recompensează răspunsurile corecte, detaliate și penalizează sever răspunsurile greșite. Modelul învață nu doar să răspundă, ci să raționeze în detaliu.

Ce face diferența? Scalarea inteligentă

Mai multe prompturi > mai multe răspunsuri per prompt: Analiza de regresie arată că expunerea modelului la cât mai multe probleme diferite este cel mai important factor pentru progres. Să ai mai multe răspunsuri per întrebare ajută, dar nu la fel de mult ca diversitatea întrebărilor.
Ajustarea atentă a temperaturii: În RL, este esențial să găsești echilibrul între explorare (randomness) și exploatare (siguranță). Prea puțină explorare și modelul nu învață lucruri noi; prea multă și nu ajunge să stăpânească ce funcționează.

Cum s-a comportat AceReason-Nemotron 1.1?

A depășit Llama-Nemotron-Nano-8B-v1, Light-R1 și DeepSeek-R1-Distill-Qwen-7B pe benchmark-uri de matematică și programare.
Câștiguri semnificative după RL pe AIME24, AIME25 (matematică) și LiveCodeBench v5/v6 (programare).
Îmbunătățiri durabile: Chiar și plecând de la un model SFT puternic, RL-ul a permis modelului să rezolve probleme dificile pe care modelele anterioare nu le puteau rezolva – mai ales pe „long tail-ul” problemelor cele mai grele de programare.

Recomandări pentru practicienii AI

Scalarea diversității de prompturi este esențială: Dacă antrenezi modele de raționament, concentrează-te să expui modelul la cât mai multe provocări diferite.
RL-ul inteligent bate imitarea: Răsplătește modelele pentru raționamente detaliate, corecte – nu doar pentru răspunsuri scurte sau superficiale.
RL etapizat, ca un curriculum: Începe cu probleme simple, crește treptat dificultatea și elimină problemele deja rezolvate pentru a menține antrenarea eficientă.

Vrei să experimentezi?

Atât modelul AceReason-Nemotron 1.1, cât și datele folosite sunt open-source și disponibile pe HuggingFace.

Citește mai mult

Vezi analiza completă și figurile originale în postarea lui Ritvik Rastogi.

Ai idei sau întrebări despre curriculum learning, RL sau raționamentul LLM? Lasă-ne un comentariu sau urmărește-ne pe LinkedIn!