Як ваша мова приховує від вас важливу інформацію в інтернеті

Колаж з екраном компʼютера

Автор фото, Serenity Strull/Getty Images

    • Author, Раян Макгрейді
    • Role, BBC Future

Величезна частина інтернету залишається поза вашим доступом - і перешкодою для цього є не лише алгоритми. Одні й ті самі платформи різними мовами перетворюються на зовсім інші світи.

Коли ви заходите в інтернет, здається, що ви отримуєте доступ до всієї інформації світу. Але стосунки у соцмережах ви формуєте на базі спільної мови.

Ви шукаєте у Google мовою, якою думаєте. А алгоритми, створені для максимізації уваги, не мають причин рекомендувати вам те, чого ви не зрозумієте. Тож більша частина інтернету залишається за межами вашого поля зору, на іншому боці мовного фільтра – і ви втрачаєте значно більше, ніж просто контент.

Більша частина активності в інтернеті концентрується на невеликій кількості великих платформ, і з нашої мовної перспективи легко припустити, що всі користуються ними однаково. Але чому це має бути саме так?

Ми звикли, що музика, література та кухня у різних культурах відрізняються - тож чому б інтернету бути винятком?

Команда з Ініціативи цифрової суспільної інфраструктури Університету Массачусетсу в Емерсті розкрила суттєві відмінності у тому, як різні культури використовують інтернет.

Подальші дослідження можуть змінити наше уявлення про сервіси, що домінують у мережі. Ми лише починаємо усвідомлювати наслідки.

Історія інтернету має яскраві приклади. Візьмімо російську соціальну мережу та блог-платформу LiveJournal. Коли вона була популярною в середині 2000-х, англомовні користувачі знали її як простір для молоді, де можна поділитися почуттями або обговорити Гаррі Поттера.

Пропустити Viber і продовжити
Як дізнатися головне про Україну та світ?

Стежте за BBC News Україна у Viber!

Підписуйтеся на канал тут!

Кінець Viber

Але для російськомовних користувачів LiveJournal, або ЖЖ, виглядав зовсім інакше – як важливий сайт публічного інтелектуалізму та політичних дискусій, що зокрема відігравав рідкісну роль у висвітленні голосів опозиції.

Найбільші технологічні компанії базуються у США, і через це виникла культурна "сліпа зона", коли ми часто припускаємо, що англомовний інтернет є репрезентативним для всього світу. Дослідження щодо YouTube особливо мають значний англомовний перекіс – зазвичай пишуться англійською, публікуються в англомовних країнах і зосереджуються на відео англійською мовою.

Провідні платформи інтернету виявляються складнішими для дослідження, ніж може здатися. Комп'ютери можуть швидко обробляти текст, але відео важче аналізувати в масштабі. Такі платформи, як YouTube, найпопулярніший відеосервіс у світі, не надають інструментів для створення великих репрезентативних вибірок, необхідних для розуміння платформи в цілому або її великих сегментів, наприклад мовних спільнот.

У результаті YouTube часто сприймають через легкодоступну "верхівку айсберга": його найпопулярніші відео.

Коли користувачі, творці, науковці, освітяни, батьки, вчителі і навіть політики говорять про платформи на кшталт YouTube, зазвичай вони мають на увазі лише ту частину, яка найбільш видима для них - маленьку, нерепрезентативну частку.

Як же досліджувати те, що під поверхнею? Кілька років тому ми придумали спосіб зробити те, що не могли інструменти YouTube: ми випадково вгадували URL-адреси відео - понад 18 трильйонів разів - доки не набрали достатньо відео, щоб скласти уявлення про реальний стан справ на YouTube.

Те, що ми зібрали, стало першим поглядом на внутрішню роботу одного з найвпливовіших сайтів на планеті. Маючи велику репрезентативну вибірку, ми змогли почати робити ширші порівняння. Як відео, завантажені у 2019 році, відрізняються від відео 2021 року? Чи відео з тваринами отримують більше коментарів, ніж відео зі спортивними сюжетами? Що можна побачити, порівнюючи популярні відео з тими, що мають лише кілька переглядів?

Найбільше нас цікавили мовні відмінності: як мова та культура формують поведінку онлайн у глобальному масштабі.

Тож у 2024 році ми проаналізували мовно-специфічні вибірки YouTube англійською, хінді, російською та іспанською, працюючи з носіями мови для перевірки наших інструментів розпізнавання мови.

Наша мета полягала в тому, щоб отримати загальний огляд YouTube для кожної мови та шукати широкі закономірності. Ми мусили врахувати, що YouTube може виявитися таким же простим, як багато хто вважає: більш-менш однаковим у різних мовах. Але це зовсім не те, що ми виявили.

Кожна мова відрізняється за кількома параметрами, проте один сегмент платформи виділявся найбільше. Коротко кажучи, YouTube на хінді радикально відрізняється від своїх аналогів.

Здається, що користувачі хінді взаємодіють один з одним з динамікою, якої ми не бачили в жодному іншому сегменті, і серед цифр ми змогли розгледіти історію великих геополітичних конфліктів.

Почнемо з росту. Якщо подивитися на кількість відео, які завантажували щороку кожною мовою з 2014 по 2023 рік, то видно, що усі чотири мови швидко зростають, але тоді як для трьох мов це зростання відносно рівномірне, більше половини всіх відео на YouTube на хінді були завантажені саме у 2023 році.

Телефон з логотипом YouTube Shorts

Автор фото, Avishek Das/SOPA Images/LightRocket via Getty Images

Підпис до фото, Понад половина контенту на YouTube хінді - 58% - це Shorts

Далі йдеться про тривалість. Іспанські відео трохи довші за інші - медіана становить близько двох з половиною хвилин. Англійські відео майже не відстають - близько двох хвилин, російські - 1 хвилина 38 секунд. Але медіанна тривалість відео на YouTube хінді становить лише 29 секунд.

Ці деталі можуть здатися просто цікавими особливостями, але насправді вони відображають історію інтернету в Індії. TikTok був неймовірно популярним в Індії задовго до того, як цей додаток став відомим у США та Європі, але все змінилося після того, як Індія заборонила його на тлі прикордонних конфліктів з Китаєм у 2020 році. За одну ніч сотні мільйонів користувачів втратили доступ до своїх відео, коментарів, бізнесу та можливостей самовираження.

YouTube поспішив заповнити цю порожнечу, зробивши Індію першим ринком для YouTube Shorts - функції, створеної для коротких вертикальних відео, що зробили популярним TikTok.

Це, схоже, виявилося успішним. Понад половина контенту на YouTube хінді - 58% - це Shorts, тоді як для інших мов цей показник становить лише 25–31%. У багатьох країнах Shorts є просто копією TikTok, але в Індії це стало значно більшим екосистемним явищем.

Вплив TikTok і Shorts проявляється й у інших аспектах. Якщо розглянути всі відео тривалістю 30 секунд і менше, то піковий показник у всіх мовах - і особливо він виражений у хінді - спостерігається на 15 секундах. Це стандартна довжина для TikTok, яку потім взяли за стандарт для Shorts.

Колаж з відкритими ротами та символами

Автор фото, Getty Images

Підпис до фото, Від мови дуже залежить, що саме ми бачимо в інтернеті

Нарешті ми помітили показову різницю в тому, як люди описували власні відео. YouTube пропонує користувачам категоризувати свої відео. Більшість користувачів навіть не намагаються змінити стандартну категорію "Люди та блоги". Але коли ми виключили її з аналізу, відмінності між мовами стали ще помітнішими.

У російському сегменті домінують відео про ігри. Це також найпопулярніша категорія серед англомовних та іспаномовних користувачів. Але на YouTube хінді на першому місці розваги та освіта. І хоча англійськомовний політичний контент отримує багато уваги в популярних дискусіях, англійська має найменшу кількість відео у категорії "Новини та політика".

Терміни на кшталт "медіанна тривалість за мовою" можуть спершу здатися сухими, але ці дані приховують свої історії. Тут вони вказують на радикальні зміни у способі використання відео у багатьох частинах світу.

Далі ми проаналізували показники популярності - перегляди, лайки та коментарі - і знову YouTube хінді виявився аутсайдером.

Він демонстрував надзвичайну нерівність: лише 0,1% відео хінді отримували 79% переглядів (у інших мов цей показник коливався від 54% до 59%). Але є цікавий нюанс: менш популярні відео значно частіше отримували лайки.

Це свідчить про дещо глибше. На YouTube хінді навіть відео, які майже ніхто не дивиться, оцінюють і помічають. Наші нові дослідження припускають, що YouTube в Індії часто використовують як сервіс відеоповідомлень для спілкування з друзями та родиною, а публічні відео часто призначені для приватної аудиторії.

Ми вважаємо, що частково такі відмінності пояснюються тим, як Індія адаптувала інтернет, а також спадщиною TikTok у країні.

Це може бути інший тип економіки уваги - коли йдеться не стільки про масове охоплення, скільки про невеликі, але змістовні взаємодії. Це може свідчити про щось більш інтимне і, можливо, навіть більш людяне.

Ці категорії - не просто метадані. Вони показують, як різні культури використовують платформу для різних цілей. Те, що ми спостерігаємо, - це "паралельні інтернети", сформовані місцевими потребами, очікуваннями та нормами.

Але ці дані свідчать і про дещо інше: люди у різних мовних спільнотах не просто створюють різні відео і взаємодіють із ними по-різному - вони можуть використовувати YouTube зовсім для інших цілей.

Нам ще потрібно зробити багато роботи і переглянути ще безліч відео, перш ніж ми зможемо робити такі твердження остаточно. Але вже зараз зрозуміло: мова формує не лише ваш погляд на цифрове життя, вона може приховувати різноманітні, культурно специфічні способи використання цих платформ.

Ми будуємо бізнеси, журналістику та регуляторну політику на штучно обмеженому погляді на інтернет, який часто фільтрується через англійську мову, популярність і зручність.

Час поглянути глибше.

Раян Макгрейді - старший науковий співробітник Ініціативи з цифрової суспільної інфраструктури при Університеті Массачусетсу в Амгерсті. Його стаття, у якій порівнюються мовні спільноти YouTube, у співавторстві з Кевіном Чженгом та Ітаном Цукерманом, буде опублікована в журналі Social Media & Society.

Підписуйтеся на нас у соцмережах