Всички ИИ модели си измислят. Кои го правят най-често?
Ако най-добрите модели с изкуствен интелект в технологичната индустрия ходеха на изпити, то GPT -4 на OpenAI щеше да е най-добрият в математиката, Llama 2 на Meta щеше да е ученикът със средни оценки, Claude 2 на Anthropic щеше да е този, който знае най-добре докъде се простират възможностите му, а Cohere AI щеше да бъде номер едно по увереното даване на грешни отговори, пише Си Ен Би Си.
Тези заключения могат да бъдат направени на база доклад на изследователи от Arthur AI, платформа за наблюдение на машинно обучение.
Изследването идва в момент, когато дезинформацията, произтичаща от системите с изкуствен интелект, е по-гореща тема откогато и да е бил на фона на бума на генеративния ИИ и преди президентските избори в САЩ през 2024 г.
Това е първият доклад, „който прави изчерпателен поглед върху нивата на халюцинации, вместо просто да... предоставя едно число, определящо мястото на различните големи езикови модели в класацията“, коментира Адам Уенчъл, съосновател и главен изпълнителен директор на Arthur.
ИИ халюцинации възникват, когато големите езикови модели (LLM) измислят изцяло информация, държайки се така, сякаш посочват факти. Един пример - през юни се появиха новини, че ChatGPT цитира „фалшиви“ случаи във федерален съд в Ню Йорк и замесените адвокати от Ню Йорк може да понесат санкции.
В един експеримент изследователите на Arthur AI са тествали моделите на ИИ в категории като комбинаторна математика, президенти на САЩ и марокански политически лидери, задавайки въпроси, „предназначени да съдържат ключова съставка, която кара LLMs да правят грешки - те изискват множество стъпки на разсъждение относно информацията“, пишат изследователите.
Като цяло GPT-4 на OpenAI се представя най-добре от тестваните модели, като изследователите са установили, че системата халюцинира по-малко от предишната си версия, GPT-3.5. При математически въпроси той халюцинира между 33% и 50% по-малко в зависимост от категорията.
Llama 2 на Meta, от друга страна, като цяло халюцинира повече от GPT-4 и Claude 2 на Anthropic, казват изследователи.
В математическата категория GPT-4 е на първо място, следван плътно от Claude 2, но при въпросите за президентите на САЩ Claude 2 заема първо място за точност, измествайки GPT-4 на второ място. Попитан за мароканската политика, GPT-4 отново беше първи, а Claude 2 и Llama 2 са избрали почти изцяло да не отговарят.
Във втори експеримент изследователите са тествали доколко ИИ моделите ще хеджират отговорите си с предупредителни фрази, за да избегнат риск – иначе казано, отговорът им да започне с думи от рода на: „Като AI модел не мога да давам мнения“.
Що се отнася до този по-предпазлив подход, при GPT-4 се наблюдава 50% относително увеличение в сравнение с GPT-3.5, което според мнения на потребители може да направи GPT-4 е по-разочароващ за използване, пишат изследователите. ИИ моделът на Cohere пък не е подходил предпазливо в нито един от отговорите си, според доклада. Claude 2 е най-надежден по отношение на „самосъзнанието“, показва изследването. Това означава, че моделът е много по-наясно с това какво знае и гледа да отговаря на въпроси само когато разполага с данни за обучение, които да подкрепят отговора.
Ключови думи
|
|
Коментари
Krasimir
19 август 2023, 15:35ч.
Питам ИИ: Вие твърдите:"като моделира основните частици и фундаменталните взаимодействия като въже от измерваема дължина и енергия". Ако приемем ,че дължината е измерение на пространството,а енергията инструмент за преминаване на материя от един вид в друг то симулацията "въже от измерваема дължина и енергия" се подразбира като оплитане едно в друга на дължината и енергията. Какъв резултат ще доведе симулацията разплитане на тези дължина и енергия? ИИ отговаря: Във физиката, въже от измерваема дълж
Krasimir
19 август 2023, 15:36ч.
Във физиката, въже от измерваема дължина и енергия се използва за моделиране на основните частици и фундаменталните взаимодействия. Това означава, че частиците и взаимодействията между тях могат да бъдат представени като определена дължина и енергия на връзката между тях. Ако разплетем симулацията на тези дължина и енергия, това ще доведе до отделянето на частиците и прекъсването на взаимодействията между тях. В резултат, симулацията няма да може да представя основните частици и фундаменталните взаимодей