add grpo script

2025-03-12 15:16:03 +00:00
parent 1bd9cf1749
commit c4e0269cfc
2 changed files with 84 additions and 2 deletions
--- a/train_ppo.sh
+++ b/train_ppo.sh
@@ -77,11 +77,11 @@ PYTHONUNBUFFERED=1 python3 -m verl.trainer.main_ppo \
    trainer.n_gpus_per_node=8 \
    trainer.nnodes=1 \
    trainer.save_freq=100 \
-    trainer.test_freq=100 \
+    trainer.test_freq=50 \
    trainer.project_name=$WAND_PROJECT \
    trainer.experiment_name=$EXPERIMENT_NAME \
    trainer.total_epochs=15 \
-    trainer.total_training_steps=300 \
+    trainer.total_training_steps=305 \
    trainer.default_hdfs_dir=null \
    trainer.default_local_dir=verl_checkpoints/$EXPERIMENT_NAME \
    max_turns=2 \