Културни кодове: Ще убие ли американският изкуствен интелект европейската култура?

Европейците се надпреварват да създадат свои собствени чатботове с изкуствен интелект, за да възпрат похода на технологиите, произведени в САЩ, да погълнат техните икономики, култура и дори самите езици.

От Мадрид до София страните от Европейския съюз стартираха и подкрепиха вълна от инициативи, насочени към създаване на чатботове, които наистина владеят местните езици, пише POLITICO.

Най-новата AI технология, захранваща инструменти като популярния чатбот ChatGPT, зависи от „широкоезични модели“ или LLMs – системи, способни на зловещо човешки разговор. Езикът е в основата на тези иновации и ЕС – Вавилонската кула с 24 официални езика, от литовски до малтийски – иска процъфтяващата технология да работи със собственото си културно съдържание и странности.

"Марк Твен не трябва да изтрива Стендал“, каза министърът на икономиката на Франция Бруно Льо Мер на технологично събитие в Кан през февруари. „Не искаме да се задоволяваме само с английския... Занапред, не искаме езикът ни да бъде отслабен от алгоритми и AI системи.“

Съединените щати водят настоящата вълна от иновации. Страната може да се похвали с производителя на ChatGPT OpenAI - и неговия голям поддръжник Microsoft - и Google с модела си Gemini. Anthropic, Meta и xAI на Илон Мъск също са в надпреварата за създаване на водещи модели.

Бързината на индустрията в САЩ разтревожи европейските правителства. Те се опасяват от повторение на господството, което американските фирми имаха в ерата на социалните медии и Web 2.0.

От академични начинания до спонсорирани от правителството генерални планове за стартиращи фирми и упорити екипи от независими програмисти, континентът води битка срещу калифорнийските гиганти. Само през последната година 13 европейски страни са обявили или са предприели стъпки за разработване на местни модели, фокусирани върху техните местни езици, установи проучване на POLITICO.

Повечето от съществуващите или развиващите се проекти са с отворен код, в опит да компенсират недостига на изчисления и финансиране със САЩ, като разчитат на огромна общност от разработчици доброволци.

Със суматохата идва и надеждата

за създаване на жизнена местна ИИ икономика. "Наличието на модели на местния език също означава насърчаване на повече хора във вашата страна да кодират и разработват повече AI продукти“, каза Карлос Ромеро Дупла, бивш испански дипломат, който е договорил закона за AI на ЕС и сега е базиран в Брюксел консултант на Vinces . „Това насърчава цяла технологична екосистема.“

За някои страни, като Испания, моделите на собствен език могат да помогнат за увеличаване на влиянието им в културно и исторически свързани части на света. Мадрид, който финансира създаването на LLM, който може да говори испански въз основа на набор от висококачествено испанско съдържание за обучение с ИИ, вижда нововъзникващите технологии като област за по-тясно сътрудничество с иберо-американските страни.

Борбата за LLM на собствен език идва, когато културната индустрия е в ожесточена — и според някои екзистенциална — битка с технологичните компании за културно съдържание, включително филмови сценарии, медийни архиви и дори авторските права върху гласовите отпечатъци на музикални артисти. През последните месеци OpenAI беше заета да сключва сделки с международни медийни марки като Axel Springer, собственик на немскоезичните издания Bild и Welt (който също притежава POLITICO) и френския всекидневник Le Monde, изграждайки набор от висококачествено учебно съдържание на чужд език езици.

Маневрата предизвика тревога във Франция. В речта си в Кан Льо Мер представи създаването на контролиран от цените европейски единен пазар за данни за обучение, за да се попречи на американските технологични гиганти с дълбоки джобове да изпреварят европейските компании за изкуствен интелект за достъп до всяка частица ценно съдържание.

Франция също инициира създаването на Alt-EDIC, консорциум от 12 държави от ЕС, посветен на вътрешноблоковото сътрудничество за разработване на LLM на европейски езици.

Изгубени в превода

По ирония на съдбата, за да бъдат наистина конкурентоспособни, европейските LLM все пак ще трябва да владеят английски, който остава езикът на повечето научни статии в света и малко над половината от страниците в световната мрежа, според екипа за онлайн проучвания W3Techs.

„Има дисбаланс на мощността по отношение на количеството и качеството на данните за обучение: просто вижте колко голяма е английската Уикипедия в сравнение с нейните версии на други езици“, каза Себастиан Рудър, изследовател в базираната в Канада многоезична компания за изкуствен интелект Cohere.

Някои LLM, произведени в САЩ, владеят езици, различни от английски, но не винаги притежават необходимите умения и нюанси, за да обслужват добре местните потребители.

„Трябва например да постигнете правилното ниво на учтивост“, каза Рудър. Помислете как да научите чатбот да използва учтивото местоимение „vous“ вместо неофициалното „tu“, за да избегнете дразнене на възрастен френски потребител.

За чатботове, предназначени да взаимодействат в цели разговори с всички - от граждани на дадена страна до клиенти на компания, това може да създаде проблеми. Оценка на „културното приравняване“ от август 2023 г., извършена от изследователи от University College London, установи, че LLM на OpenAI и Google не отговарят на културните норми в страни, включително Китай, Саудитска Арабия и Словакия – докато се справят с тестове за придържане към нравите на САЩ.

Тъй като AI се вкоренява във всеки аспект на нашите общества, въздействието на подобни културни сблъсъци може да бъде значително. „Една американска технологична компания може да обучи модела си, да речем, на литовски, но това е губещо. Така че обикновено го обучава на английски и след това прави някои фини настройки.“, казва Крис Шришак, технологичен сътрудник в Ирландския съвет за граждански свободи, каза:

Решението, според Ruder, е европейските разработчици на AI да обучават своите ботове както на своя език, така и на английски, като по този начин позволяват на LLM да се докосне до знания, кодирани на английски, когато говори родния си език.