Олий математика сунъий интеллектнинг заиф томони бўлиб қолмоқда — тадқиқот

АҚШ ва Буюк Британия тадқиқотчилари сунъий интеллект тизимларининг мураккаб математик масалаларини қандай ечишини текшириш учун FrontierMath номли янги тест ишлаб чиқди.

Фото: The AI Whisperer

Сўнгги йилларда ChatGPT каби сунъий интеллект моделлари матнларни қайта ишлаш ва генерация қилишда сезиларли даражада олдинга силжиди. Моделларнинг жавоблари шу қадар ҳайратланарлики, улар ҳатто юқори даражадаги «интеллект»дан дарак бермоқда. Бироқ мутахассисларнинг таъкидлашича, мураккаб математик масалаларни ечиш замонавий моделларнинг заиф нуқтаси бўлиб қолмоқда. Ажобий муваффаиқят ва бошланғич ҳамда ўрта даражадаги математик масалаларни ечиш қобилиятига қарамай, гап олий математика ҳақида кетганида сунъий интеллект (СИ) имкониятлари чекланиб қоляпти.

СИ моделларини баҳолашда олимлар турли эталон тестлар ёки бенчмарклардан фойдаланади. Бугунги кунда MATH ва GSM8K энг машҳур тестлардан ҳисобланади. Ушбу тестларда кўплаб тил моделлари 90 фоизга яқин тўғри жавобни топмоқда. Бироқ янги тест муаллифларига кўра, бундай тестлар чекланган мураккабликка эга ва СИнинг имкониятини тўлиқ баҳолашга хизмат қилмайди. Математикани юқори даражада тушунишини аниқлаш учун мураккаб бенчмарк талаб этилади. FrontierMath шу сабабли пайдо бўлди.

Янги тестни тайёрлаш жараёнида экспертлар машҳур математикларга мурожаат қилиб, уларнинг олдинлари ҳеч қаерда эълон қилинмаган энг мураккаб масалаларини олган. Қўлга киритилган юзлаб масалаларнинг айримлари шу қадар мураккаблигидан оддий инсон уни ечишга бир неча кунини сарфлайди.

FrontierMath’нинг ўзига хослиги шундаки, у сонлар назариясидан алгебраик геометриягача бўлган мавзуларни қамраб олади. Бундай ёндашув СИнинг оддий алгоритмлардан фойдаланиш имкониятини чеклаб, чуқур билим талаб этади. Шу боисдан мазкур тестда юқори натижага эришмоқчи бўлган моделлар нафақат кўп миқдорда маълумотга, балки масалани ечишда таҳлил қилиш ва ижодкорлик қобилиятига ҳам эга бўлиши керак.

Дастлабки синовлар FrontierMath замонавий сунъий интеллектлар учун қанчалик мураккаб эканини кўрсатиб берди. Олдинги тестларда юқори натижаларни қайд этган моделлар янги тестда 2 фоиз ҳам тўғри жавоб топа олмади. Ушбу натижа СИнинг ҳозирги даражаси математик фикрлашни талаб этадиган мураккаб масалаларни ечиш имкониятидан ҳали анча узоқда эканини намойиш этди.