Yeni AI Modelleri ve Eğitim

A recent study comparing general-purpose AI models to specialized medical models found that general models outperformed experts on benchmark tests. However, the results highlight issues with how medical AI benchmarks are designed, as general models excel at language comprehension while specialized models struggle with unfamiliar formats. The findings suggest that before training custom models, developers should first optimize prompts and context for existing general models.

Tıp dünyası için özel geliştirilen yapay zekalar mı daha iyi yoksa her işe koşan genel modeller mi? Son dönemde çıkan bir makale, genel modellerin uzman modelleri benchmark testlerinde tokatladığını iddia edince ortalık karıştı. Olay aslında modellerin gücünden ziyade, bu testlerin benchmark nasıl hazırlandığıyla ilgili. Bir modeli "uzman" ilan etmek için önce onu test etmen gerekiyor. Ama tıbbi yapay zeka testleri genelde çoktan seçmeli sorular veya klinik vaka özetleri üzerinden yürüyor. Sorun şu ki, genel amaçlı modeller dili çok iyi anladığı için soruyu kafasında güzelce çerçeveleyebiliyor. Uzman modeller ise sadece dar bir veri kümesiyle eğitildiği için, testin formatı alıştığı düzenin dışına çıktığı an çuvallayabiliyor. Yani "X modeli Y modelini geçti" dendiğinde, önce o testin nasıl hazırlandığına bakmak lazım. Genel modellerin olayı esneklik. Soruyu farklı açılardan yorumlayıp belirsiz ifadelerin içinden çıkabiliyorlar. Uzman modeller ise format bağımlısı. Eğitim verisindeki dile çok sıkıştıkları için genelleme yapma yetenekleri düşük kalıyor. Bu da bizi şu soruya getiriyor: Bu testler gerçekten doktorun karar verme sürecini mi ölçüyor, yoksa sadece belirli bir veri formatının ne kadar ezberlendiğini mi? Diyelim ki klinik notları özetleyen bir uygulama yapacaksın. Hemen "özel bir model eğitelim" kafasına girmek mantıklı olmayabilir. Eğer genel modeller düzgün testlerde uzmanları geçebiliyorsa, önce eldeki modeli ne kadar iyi yönlendirdiğine bakmalısın. Prompt yapısını ve bağlamı doğru kurmak, özel model eğitmek için harcayacağın zaman ve paradan seni kurtarabilir. Genel modelin sınırlarını zorlamak genelde daha hızlı sonuç veriyor. Tıbbi yapay zekayı ölçmenin standart bir yolu hala yok. Hangi hasta grubu veya hangi başarı kriteri baz alınacak, kimse emin değil. Metodoloji sağlam kurulmadığı sürece "genel model kazandı" demekle "uzman model kazandı" demek aynı derecede güvenilmez kalıyor. Önemli olan model seçmekten ziyade, yapılan testin klinik gerçekliği ne kadar yansıttığını çözmek.