Niyə ən yaxşı Al modelləri hələ də halüsinasiya edir? - ARAŞDIRMA
Bu gün, 10:08

"OpenAI" GPT-5 kimi böyük dil modellərinin niyə halüsinasiya etməyə davam etdiyini və bu barədə bir şey edilib edilə bilməyəcəyini öyrənən genişmiqyaslı araşdırmanın nəticələrini təqdim edib.
Valyuta.az xəbər verir ki, müəlliflər neyron şəbəkələri imtahandakı şagirdlərlə müqayisə edir: əgər "bilmirəm" cavabı sıfır bal gətirirsə, risk edib ən azı müəyyən qədər cavab vermək daha sərfəlidir.Bu üsul, Al-ın düzgün cavabı təxmin etməsinin kiçik bir şansı qaldığı üçün halüsinasiyaları təşviq edir.
Müəlliflərə görə, səbəb özü qiymətləndirmə sistemində yatır. MMLU-dan "SWE-bench"ə qədər populyar benchmarklar ikili "düzgün/səhv" prinsipindən istifadə edir. Nəticədə modellər qeyri-müəyyənliyi dürüstcəsinə etiraf etmək əvəzinə təxmin etməyə məcbur olur. Bu, aşağıdakı cədvəldə aydın görünür:
Hətta "GPT-5-Thinking-mini"də səhvr nisbəti açıq-aşkar aşağı olsa da, dəqiqlik metrikasına görə o, yaşlı "o4-mini"dən bir qədər və yalnız dəqiqlik əsasında olan testlərdə geridə qalır.
"Minlərlə test sualından sonra təxmin edən model, reytinqdə qeyri-müəyyənliyə yol verən dəqiq modeldən daha yaxşı görünüşə malik olur", deyə "OpenAI" yazıb.
"OpenAI" qiymətləndirmə sistemini təkmilləşdirməyi təklif edir: əmin olunmayan yalanlar üçün dürüst "mən bilmirəm"dən daha böyük cəza vermək və qeyri-müəyyənliyin düzgün ifadəsi üçün qismən ballar hesablamaq. Müəlliflər hesab edirlər ki, belə bir bal yenidən bölgüsü təxmin etmək stimulunu azaldacaq.
Şirkət həmçinin qeyd edir ki, GPT-5-də halüsinasiyaların sayını əhəmiyyətli dərəcədə azaltmağı bacarıb, baxmayaraq ki, model hələ də mükəmməl deyil. Əvvəllər istifadəçilər Al-ın cavablarının daha qısa və qaneedici olmadığından, hətta yaradıcılıq tapşırıqları barədə suallarda belə şikayətlənirdilər.
Yeni araşdırmaya görə, ChatGPT və digər aparıcı çatbotlar iki dəfə tez-tez yalan danışmağa başlayıblar. Səhvlərin artması ilə izah olunur ki, neyron şəbəkələr artıq suallara cavab verməkdən imtina etmir - hətta kifayət qədər doğrulama olmadan.