HealthBench

mentions 6 type Organization feed RSS

// recent coverage 6 mentions

04:00

2026-06-30

arxiv.org

artificial-intelligence

Expert Evaluation of Clinical AI Tools on Real Point-of-Care Clinical Queries

A study evaluating AI tools on real clinical queries from physicians found that a specialized clinical tool (OpenEvidence) outperformed frontier general-purpose models (Claude Opus 4.8, Gemini 3.1 Pro…

01:00

2026-06-24

scmp.com

artificial-intelligence

China’s medical AI breaks ground as surgical robot wins EU approval, model tops benchmark

China's medical AI achieved two milestones: Shanghai MicroPort MedBot's Toumai Remote surgical robot received EU CE mark approval, and Baichuan-M4 clinical AI topped OpenAI's HealthBench benchmark. Th…

21:15

2026-06-18

cryptobriefing.com

large-language-models

OpenAI’s GPT-5.5 Instant matches frontier models for health queries with 52.5% fewer hallucinations

OpenAI made GPT-5.5 Instant the default ChatGPT model on May 5, achieving a 52.5% reduction in hallucinated medical claims while matching frontier reasoning models on health benchmarks. The model scor…

18:01

2026-06-18

businessinsider.com

large-language-models

Meet the top OpenAI researcher trying to make ChatGPT into a Google-sized healthcare juggernaut

OpenAI researcher Karan Singhal is leading the company's push to make ChatGPT a trusted healthcare tool, with over 230 million weekly users seeking health advice. Singhal, formerly of Google, is build…

04:00

2026-06-05

arxiv.org

large-language-models

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Researchers developed a variance-aware reward framework using Group Relative Policy Optimization (GRPO) to improve heart-focused medical question answering in large language models. The approach, whic…

00:00

2026-05-08

machinelearning.apple.com

machine-learning

RVPO: Risk-Sensitive Alignment via Variance Regularization

Researchers at Duke University introduced Reward-Variance Policy Optimization (RVPO), a risk-sensitive alignment method that penalizes inter-reward variance to prevent language models from neglecting …

// co-occurs with top 8 entities

OpenAI 3 ChatGPT 2 Ivan Montero 1 Tomasz Jurczyk 1 Bhuwan Dhingra 1 Qwen2.5 1 GPQA-Diamond 1 Karan Singhal 1