You’re viewing a text-only version of this website that uses less data. View the main version of the website including all images and videos.
Вештачка интелигенција: Да ли је ЧетГПТ пристрасан према енглеском језику
Стручњаци упозоравају да су неенглески говорници из читавог света запостављени зато што су системи вештачке интелигенције направљени тако да буду пристрасни према енглеском језику.
Алати генеративне вештачке интелигенције као што су ЧетГПТ или Гуглов Бард доносе новооткривене вештине и пословне идеје милионима, али потенцијално остављају још много њих више у подређеном положају.
Последњих неколико месеци, компаније, често уз подршку влада, утркују се у лансирању или отпочињању израде вештачке интелигенције за властите матерње језике међу којима су индонезијски, јапански, кинески, корејски и бројни индијски језици.
Али хоће ли икада моћи да буду конкурентни или понуде озбиљну алтернативу ботовима вештачке интелигенције из Силицијумске долине?
Ево три начина како су неенглески говорници запостављени у таласу генеративне вештачке интелигенције и зашто је то важно.
1. Мање су прецизни и скупљи за неенглеске говорнике
Инжењерка за машинско учење Јени Џун почела је да примећује овај проблем кад је тестирала ЧетГПТ на различитим језицима.
„Приметила сам да је спорији и да напросто није једнако добар кад користим корејски и кинески, који обично у понуди имају податке за обуку доброг квалитета", каже она.
У октобру је Јени одлучила да тестира ГПТ-4 - најновију верзију модела вештачке интелигенције ОпенАИ-ја - на неким незгодним математичким проблемима.
Поставила је иста математичка питања на 16 различитих језика и открила да много боље решава проблеме на неким језицима, као што су енглески, немачки и шпански.
Штавише, ГПТ-4 је могао тачно да реши математичке проблеме на енглеском више него три пута чешће него на другим језицима, као што су јерменски и фарси.
Није могао да реши ниједно од тешких питања на бурманском или амхарском.
То је само најновији експеримент који је Јени спровела да би истакла неравноправност ЧетГПТ-ја и других такозваних Великих језичких модела вештачке интелигенције.
У другом тесту спроведеном летос, Јени је направила алат назван „Токенајзер" , који илуструје зашто се ови модели вештачке интелигенције муче са неенглеским језицима.
Вештачка интелигенција разбија реченице у мање, разумљивије комаде илити токене - што мање разуме неки језик, то више токена прави.
На пример, ако убаците једноставан промпт „реци ми више о гљивама смрчцима" у њен Токенајзер на различитим језицима, број токена умногоме варира:
- Енглески: 6 токена
- Шпански: 8 токена
- Кинески: 14 токена
- Бурмански: 65 токена.
Ово је важно, зато што то значи да се неенглески корисници суочавају са незнатно споријим резултатима и такође не могу да убаце једнак број речи у просторе за промптове као енглески говорници, зато што те квадратиће ограничава број токена.
Али Јени каже да прави хендикеп ове неједнакости наступа кад компаније желе да праве производе и услуге уз помоћ ове вештачке интелигенције.
На пример, ако компанија за узгој гљива угради Чет-4 у властиту апликацију за одговарање на питања муштерија, то ће компанију коштати 10 пута више да би услужила бурманске муштерије него енглеске, због броја токена који су јој потребни да испуни захтев.
И не ради се само о ЧетГПТ-у, сви велики језички модели имају сличне диспаритете.
Гуглов Бард то отворено признаје кад га упитате за ово питање: „Бардова токенизација неенглеских језика може да учини споријим и скупљим тражење промптова на другим језицима зато што је процес токенизације за неенглеске језике сложенији него за енглеске", одговара сама вештачка интелигенција.
2. Вештачка интелигенција рађена примарно за енглески не одражава друге културе
Енглески језик доминира интернетом, а тренутно доминира и вештачком интелигенцијом.
Разлог је што се већина модела вештачке интелигенције обучава уз помоћ података сакупљених са отвореног интернета који је у огромној већини на енглеском.
У свом извештају о пристрасности вештачке интелигенције, Центар за демократију и технологију (ЦДТ) каже да на енглески одлази 63,7 одсто интернет страница, упркос томе што га говори само 16 одсто светске популације.
Енглески се често описује као језик „екстремно високих ресурса", са обиљем текстова из свих области, од објава на друштвеним мрежама до пословних извештаја и научних радова.
Али колико ресурса језик има онлајн није у пропорцији са бројем људи који га говоре.
На пример, истраживачи из ЦДТ-а кажу да упркос томе што има скоро 600 милиона корисника интернета широм афричког континента, скоро сви афрички језици су и даље „ниских ресурса".
Категоризације варирају у зависности од академика, али ово је општи преглед колико добре ресурсе имају језици:
- Језици изузетно високих ресурса: Енглески
- Језици високих ресурса: Кинески, јапански, шпански, немачки, француски, руски, арапски
- Језици средњих ресурса: Хинди, португалски, вијетнамски, холандски, корејски, индонезијски, фински, пољски, чешки
- Језици ниских ресурса: Баскијски, хаићански, креолски, свахили, амхарски, бурмански, чероки, зулу и већина других језика
ОпенАи није открио у ком проценту су Кетгатови подаци за обучавање били на енглеском.
Ако питате вештачку интелигенцију, она одговара да су „конкретан пресек језика и процената у оквиру сета података службене информације".
Гуглов Бард такође каже да су те информације „поверљиве" кад га питате.
Као што каже ЦДТ у свом извештају, „овај неравноправни нагласак не одражава разноврсност језика које говоре светски корисници интернета и додатно продубљује доминацију енглеског језика".
Јени Џун каже да су њени експерименти такође показали изражену западњачку пристрасност.
„Радила сам неке експерименте као што су да питам вештачку интелигенцију за историјски важне догађаје и људе и чак и ако то питање поставите на другим језицима, добићете наглашено западњачке личности и догађаје", каже она.
3. Силицијумска долина највероватније неће исправити ову неравноправност
ЦДТ тврди да америчке компаније не улажу исту количину новца у побољшање искуства за неенглеске муштерије зато што мање новца може да се заради на, на пример, глобалном југу.
Један члан особља ОпенАИ-ја признао је на развојном форуму прошле године да се модели компаније „свесно обучавају на енглеском", а да су „добри шпански резултати само бонус", као што је тада први известио Вајерд.
На саслушању америчког сенатског одбора, Сем Алтман, тадашњи извршни директор ОпенАИ-ја био је упитан за пристрасност према говорницима енглеског језика и рекао је да је компанија „једнако усредсређена" на то да и друге културе буду обухваћене.
Ни ОпенАИ ни Гугл нису одговорили на питања која смо послали њиховим прес службама.
Други велики гигант вештачке интелигенције Мета улаже у велики преводилачки пројекат зван No Language Left Behind (Ниједан језик неће бити запостављен), да би унапредио преводилачке алате машинског учења за стотине језика.
Међутим, чак и он признаје да је његов најновији велики језички модел звани Лама 2 „и даље крхак и да га треба користити са опрезом" међу неенглеским говорницима.
Ник Адамс, оснивачки партнер из Диференшел венчерса, фонда за венчер капитал усредсређен на вештачку интелигенцију, каже да ако ствари остану овакве какве јесу, онда ће новац и инвестиције наставити да се сливају у већ ионако богате компаније, земље и језике.
„Мислим да ће садашње стање вештачке интелигенције убрзати неравноправност, а не исправити је. Нова тржишта напросто немају компјутерску снагу, сетове података или средства за вештачку интелигенцију да би се такмичили да моделом западног света", каже он.
Поред недостатка улагања у неенглеску вештачку интелигенцију, питање података ће бити тешко разрешено чак и мимо америчких технолошких гиганата.
У једном тренутку се мислило да ће развијање мултилингвалних језичких модела решити диспаритет у подацима обучавањем модела вештачке интелигенције тако да открију обрасце у језицима са вишим ресурсима и примене их на језике са нижим ресурсима.
Али неки, међу којима су ЦДТ и други истраживачи, кажу да мултилингвални језички модели и даље имају слабији учинак по неенглеске кориснике.
Један обећавајући пројекат који је лансирало индијско Министарство за електронику и информативне технологије жели да унапреди количину података за обучавање у језицима са слабијим ресурсима преко краудсорсинга.
Иницијатива Баша Дан позива људе да „унапреде властите језичке моделе вештачке интелигенције потврђивањем података".
Учесницима се пуштају аудио записи из подкаста или емисија на различитим индијским језицима а потом дони обијају дигиталне медаље као награду за превођење на властите језике.
Али то је огромна планина која мора да се савлада.
Упркос огромним популацијама говорника на тим језицима, свега неколико хиљада људи је до сада узело учешће у пројекту.
Пратите нас на Фејсбуку,Твитеру и Вајберу. Ако имате предлог теме за нас, јавите се на [email protected]