Олий математика сунъий интеллектнинг заиф томони бўлиб қолмоқда — тадқиқот
АҚШ ва Буюк Британия тадқиқотчилари сунъий интеллект тизимларининг мураккаб математик масалаларини қандай ечишини текшириш учун FrontierMath номли янги тест ишлаб чиқди.

Фото: The AI Whisperer
Сўнгги йилларда ChatGPT каби сунъий интеллект моделлари матнларни қайта ишлаш ва генерация қилишда сезиларли даражада олдинга силжиди. Моделларнинг жавоблари шу қадар ҳайратланарлики, улар ҳатто юқори даражадаги «интеллект»дан дарак бермоқда. Бироқ мутахассисларнинг таъкидлашича, мураккаб математик масалаларни ечиш замонавий моделларнинг заиф нуқтаси бўлиб қолмоқда. Ажобий муваффаиқят ва бошланғич ҳамда ўрта даражадаги математик масалаларни ечиш қобилиятига қарамай, гап олий математика ҳақида кетганида сунъий интеллект (СИ) имкониятлари чекланиб қоляпти.
СИ моделларини баҳолашда олимлар турли эталон тестлар ёки бенчмарклардан фойдаланади. Бугунги кунда MATH ва GSM8K энг машҳур тестлардан ҳисобланади. Ушбу тестларда кўплаб тил моделлари 90 фоизга яқин тўғри жавобни топмоқда. Бироқ янги тест муаллифларига кўра, бундай тестлар чекланган мураккабликка эга ва СИнинг имкониятини тўлиқ баҳолашга хизмат қилмайди. Математикани юқори даражада тушунишини аниқлаш учун мураккаб бенчмарк талаб этилади. FrontierMath шу сабабли пайдо бўлди.
Янги тестни тайёрлаш жараёнида экспертлар машҳур математикларга мурожаат қилиб, уларнинг олдинлари ҳеч қаерда эълон қилинмаган энг мураккаб масалаларини олган. Қўлга киритилган юзлаб масалаларнинг айримлари шу қадар мураккаблигидан оддий инсон уни ечишга бир неча кунини сарфлайди.
FrontierMath’нинг ўзига хослиги шундаки, у сонлар назариясидан алгебраик геометриягача бўлган мавзуларни қамраб олади. Бундай ёндашув СИнинг оддий алгоритмлардан фойдаланиш имкониятини чеклаб, чуқур билим талаб этади. Шу боисдан мазкур тестда юқори натижага эришмоқчи бўлган моделлар нафақат кўп миқдорда маълумотга, балки масалани ечишда таҳлил қилиш ва ижодкорлик қобилиятига ҳам эга бўлиши керак.
Дастлабки синовлар FrontierMath замонавий сунъий интеллектлар учун қанчалик мураккаб эканини кўрсатиб берди. Олдинги тестларда юқори натижаларни қайд этган моделлар янги тестда 2 фоиз ҳам тўғри жавоб топа олмади. Ушбу натижа СИнинг ҳозирги даражаси математик фикрлашни талаб этадиган мураккаб масалаларни ечиш имкониятидан ҳали анча узоқда эканини намойиш этди.
Тавсия этамиз
Ўқитувчиларни овоз йиғишга мажбурлаган мактаб директори ишдан олинди
Ўзбекистон | 11:20 / 14.03.2025
Путин АҚШ ва Украинанинг 30 кунлик оташкесим таклифига рози бўлди
Жаҳон | 23:00 / 13.03.2025
“Хитой билан орамиз бузилишини истовчи давлатлар бор” – тармоқдаги долзарб мавзу ҳақида суҳбат
Ўзбекистон | 15:17 / 13.03.2025
«Credit House» иши: Минглаб одамлар уйсиз ва пулсиз қоляпти
Ўзбекистон | 12:30 / 13.03.2025
Мавзуга оид

12:40 / 03.03.2025
Ҳиндистон Тошкентда сунъий интеллект бўйича биринчи маълумот марказини қуради

18:47 / 24.02.2025
Сингапур банки сунъий интеллект жорий этилиши фонида 4 минг ходимини ишдан бўшатади

12:08 / 23.02.2025
Илон Маскдан янги СИ, “арзон” iPhone 16 ва актёр робот — ҳафта технодайжести

08:42 / 21.02.2025