Tomasz Jurczyk

mentions 1 type Person feed RSS

// recent coverage 1 mentions

00:00

2026-05-08

machinelearning.apple.com

machine-learning

RVPO: Risk-Sensitive Alignment via Variance Regularization

Researchers at Duke University introduced Reward-Variance Policy Optimization (RVPO), a risk-sensitive alignment method that penalizes inter-reward variance to prevent language models from neglecting …

// co-occurs with top 5 entities

Ivan Montero 1 Bhuwan Dhingra 1 Qwen2.5 1 HealthBench 1 GPQA-Diamond 1