RAC

mentions 1 type Organization feed RSS

// recent coverage 1 mentions

04:00

2026-06-29

arxiv.org

machine-learning

Retroactive Advantage Correction: Closed-Form V-Trace Bias Correction for Delay-Aware RLHF

Researchers introduced Retroactive Advantage Correction (RAC), a method for reinforcement learning from human feedback (RLHF) that handles delayed reward signals. RAC reduces policy bias by up to 47.9…

// co-occurs with top 4 entities

Retroactive Advantage Correction 1 PPO 1 GRPO 1 RLHF 1