# Trainsafe — behavioral health checks for HuggingFace/TRL fine-tuning

> Source: <https://discuss.huggingface.co/t/trainsafe-behavioral-health-checks-for-huggingface-trl-fine-tuning/176783#post_1>
> Published: 2026-06-14 13:19:09+00:00

I was fine-tuning an Arabic model using DPO. Loss looked perfect the

entire run. Training finished. It spoke Chinese.

So I built trainsafe — a TrainerCallback that runs behavioral checks

at every eval checkpoint and catches failures that loss never surfaces:

language drift, output collapse, repetition loops, prompt echoing,

format drift.

Two lines to add to any existing training script:

``` python
from trainsafe import TrainSafeCallback
trainer = SFTTrainer(..., callbacks=[TrainSafeCallback()])
```

Works with SFTTrainer, DPOTrainer, GRPOTrainer, and base Trainer.

pip install trainsafe

GitHub: [GitHub - AmmarHassona/trainsafe: Behavioral health checks for HuggingFace / TRL fine-tuning. Monitors outputs at each checkpoint and stops training if something goes wrong. · GitHub](https://github.com/AmmarHassona/trainsafe)

Happy to answer questions or if anyone has any comments, it’s still early and feedback is welcome