Niyə ən yaxşı Al modelləri hələ də halüsinasiya edir? - ARAŞDIRMA » Tərəf

Niyə ən yaxşı Al modelləri hələ də halüsinasiya edir? - ARAŞDIRMA

Bu gün, 10:08

"OpenAI" GPT-5 kimi böyük dil modellərinin niyə halüsinasiya etməyə davam etdiyini və bu barədə bir şey edilib edilə bilməyəcəyini öyrənən genişmiqyaslı araşdırmanın nəticələrini təqdim edib.

Valyuta.az xəbər verir ki, müəlliflər neyron şəbəkələri imtahandakı şagirdlərlə müqayisə edir: əgər "bilmirəm" cavabı sıfır bal gətirirsə, risk edib ən azı müəyyən qədər cavab vermək daha sərfəlidir.Bu üsul, Al-ın düzgün cavabı təxmin etməsinin kiçik bir şansı qaldığı üçün halüsinasiyaları təşviq edir.

Müəlliflərə görə, səbəb özü qiymətləndirmə sistemində yatır. MMLU-dan "SWE-bench"ə qədər populyar benchmarklar ikili "düzgün/səhv" prinsipindən istifadə edir. Nəticədə modellər qeyri-müəyyənliyi dürüstcəsinə etiraf etmək əvəzinə təxmin etməyə məcbur olur. Bu, aşağıdakı cədvəldə aydın görünür:

Hətta "GPT-5-Thinking-mini"də səhvr nisbəti açıq-aşkar aşağı olsa da, dəqiqlik metrikasına görə o, yaşlı "o4-mini"dən bir qədər və yalnız dəqiqlik əsasında olan testlərdə geridə qalır.

"Minlərlə test sualından sonra təxmin edən model, reytinqdə qeyri-müəyyənliyə yol verən dəqiq modeldən daha yaxşı görünüşə malik olur", deyə "OpenAI" yazıb.

"OpenAI" qiymətləndirmə sistemini təkmilləşdirməyi təklif edir: əmin olunmayan yalanlar üçün dürüst "mən bilmirəm"dən daha böyük cəza vermək və qeyri-müəyyənliyin düzgün ifadəsi üçün qismən ballar hesablamaq. Müəlliflər hesab edirlər ki, belə bir bal yenidən bölgüsü təxmin etmək stimulunu azaldacaq.

Şirkət həmçinin qeyd edir ki, GPT-5-də halüsinasiyaların sayını əhəmiyyətli dərəcədə azaltmağı bacarıb, baxmayaraq ki, model hələ də mükəmməl deyil. Əvvəllər istifadəçilər Al-ın cavablarının daha qısa və qaneedici olmadığından, hətta yaradıcılıq tapşırıqları barədə suallarda belə şikayətlənirdilər.

Yeni araşdırmaya görə, ChatGPT və digər aparıcı çatbotlar iki dəfə tez-tez yalan danışmağa başlayıblar. Səhvlərin artması ilə izah olunur ki, neyron şəbəkələr artıq suallara cavab verməkdən imtina etmir - hətta kifayət qədər doğrulama olmadan.

Facebook-da paylaş

“Azəriqaz”dan Qarabağ qazisinə qarşı növbəti dələduzluq -TƏFSİLAT

Milli Arxiv İdarəsi üç yüz manata icarəyə götürdüyü Sumqayıt filialının təmir-tikintisindən nə qədər dövlət vəsaiti talayıb

Yasamalda “Avant” MTK özbaşınalığı… VİDEO

Şəki Ağır Cinayətlər Məhkəməsində nə baş verir?- Hakim qəsdən işi uzadır? İDDİA/FOTO

“Yolüstü Restoran”ında kartdan-karta əməliyyatı - Vergidən yayınma

Bir qrup adam ölkəyə gizli yolla mal gətirir - Şəbəkənin başında kimlər dayanır?

Su Ehtiyatları Agentliyində "qeyri-səlis iş metodu": belə ağır işdə işləyən fəhlə və... - VİDEO

Niyə ən yaxşı Al modelləri hələ də halüsinasiya edir? - ARAŞDIRMA

“Nar” ilin ən uğurlu abituriyentlərini mükafatlandırdı

Bakı şəhərində piyada zonalarının yaradılması və geniş abadlıq-quruculuq işləri davam etdirilir.

VAQİF SULTANLININ “ÖLÜM YUXUSU” KİTABI GÜRCÜSTANDA YAYINLANDI

“Nar” uşaqlar üçün maarifləndirici tədbirlərə dəstək verir - FOTO

Paytaxt meriyası Xəzər rayonunda müşavirə keçirdi

Sentyabrın 4-də gözlənilən hava şəraiti

Azərbaycanın ŞƏT üçün strateji əhəmiyyəti

Azərbaycanın ŞƏT-də iştirakı Asiya-Avropa əlaqələrinin güclənməsinə xidmət edir

Azərbaycanın beynəlxalq siyasətdə mövqelərini gücləndirən səfər

Azərbaycan regionda Çinin etibarlı tərəfdaşıdır - İsrafil Kərimovun yazısı

Xəbər lenti

Foto Xəbər

Çox oxunanlar