Українська - сучасно і своєчасно! Проект Університету Грінченка

Чи загрожує людству «коперніканський переворот» і чому національний пріоритет для України – вивчення європейських мов

Русудан Махачашвілі – відома в Україні і світі молода професорка, яка володіє унікальними знаннями зі сфер штучного інтелекту, цифрової лінгвістики, гуманітаристики, цифрових трансформаційних моделей у мові тощо.
Студенти про неї жартома кажуть, що з великих мовних моделей у них є ChatGPT, Bard, Claude і Русудан Кирилевна.
Її досягнення вражають.

Вона – доктор філологічних наук, фахівець з англійської та іспанської мов, завідувач кафедри германської філології Київського столичного університету імені Бориса Грінченка, заступник головного редактора «Синопсис»,
експерт з оцінки грантових проєктів Європейської комісії.
Виконавець проєкту COST Action: Universality, Diversity and Idiosynchracy in Language Technology.
Координатор від Університету Грінченка проєкту TERMCOORD Європейського Парламенту.
Член Міжнародної Ініціативи Цифрового Гуманізму.
Член-засновник Міжнародної Асоціації Трансдисциплінарної комунікації.
Вдень вона з колегами й студентами під час тривоги спускалася кілька разів у бомбосховище. Вечір видався відносно спокійним для #Вечірньої розмови. Вулиці Києва пахнуть квітами й ранньолітнім дощем, а їхній ритм схожий на прискорене серцебиття.
Ми говоримо з Русудан про те, що, можливо, й не лежить на поверхні, але дуже впливає й буде впливати надалі на наше життя. Ми говоримо з нею про штучний інтелект, цифрові технології і про те, чи є шанси в людства виграти в «коперніканському перевороті», який уже відбувся.

Русудан, Ви належите до небагаточисленної групи європейських цифрових лінгвістів і досліджуєте цифрові мовні дані для штучного інтелекту. Що в пріоритеті зараз для вас, як дослідників, бо про цю сферу мало що відомо.

Якщо до 2022 – 2023 років ми працювали над тим, щоб система нейромережі, система штучного інтелекту допомагала живим користувачам, живим лінгвістам аналізувати мову програмування, то зараз наші ролі помінялися. Зараз живі лінгвісти, живі користувачі мови мають готувати дані для того, щоб ними могли послуговуватися нейронні мережі у формі великих мовних моделей. Це робиться, щоб великі мовні моделі могли тренуватися, а натренована велика мовна модель LLM лягає в основу штучного інтелекту. Пересічні мовні користувачі знають їх у формі ChatGPT, Bard, Claude. Це – генеративні моделі, і це лише частина того, що може велика мовна модель.
Тепер ми готуємо дані, аналізуємо їх, вивчаємо потреби машини для роботи з цими даними та можливістю генерувати мовний продукт, включатись адекватно в комунікацію, мати можливість фактично розвивати ту частину ШІ, яка називається інтелект.

А що так суттєво змінилося минулого року?

Фактично були випущені із загородочки, з обмежувальних тренувальних просторів великі мовні моделі. Натренувалися нейронні мережі такою мірою, що можуть уже адекватно брати участь в комунікації, реагувати на мовні стимули, генерувати мовні дані, процесувати інформацію.
До того ми збирали дані, робили величезну інфраструктуру словників поміж всіма європейськими мовами, до яких могли дотягнутися. І от маємо узагальнений результат. Мовні моделі тренувалися на всьому, що є в соціальних мережах, на всьому, що ми постимо в фейсбуці, твіттері, на всіх статтях, які лежать у нас в репозиторії, на всьому, що викладається в сучасних медіа, газетах, журналах і т д. Ці мовні моделі натренувались такою мірою, що можуть тепер генерувати тексти і включатися в комунікацію на стимули. Тобто до того йшов етап накопичення, машину навчали спілкуватись природною мовою.
Насправді відбувся «коперніканський переворот», і я думаю, що це дуже важлива ера, в яку ми вступили, вступила лінгвістика, вступило людство.
Справа в тому, що дуже довго всі – футурологи, автори наукової фантастики і навіть лінгвісти передбачали майбутнє спілкування з машиною шляхом якоїсь спеціально штучно згенерованої мови.
Насправді машині треба було пояснити природну мову. Нарешті це стало зрозуміло. Через технології великих даних це стало можливим. І нарешті наступила ера, коли для того, щоб спілкуватися з машиною, потрібні натреновані лінгвісти.
Потрібні люди, які володіють мовою так, щоби зробити її зрозумілою машині. Які зможуть розвинути нейронну мережу, розвинтити ті дані, на яких вона тренується, перепрофілювати їх, пересистематизувати, запропонувати машині в якості тих тренувань, які ми використовуємо для навчання своїх студентів, коли ми їх вчимо іноземним мовам.
Усім своїм студентам я кажу: нарешті, нарешті ви виходите на ринок праці, на якому вас чекають, тому що легше навчити лінгвіста працювати з комп’ютерною системою та програмним забезпеченням, яке буде тренувати нейронну мережу, ніж повноцінно навчити комп’ютерника лінгвістиці.

А чи ми зможемо обігнати цей нейронний розум і чи не зазнаємо поразки в «коперніканському перевороті»?

Зрозуміло, я б не хотіла, щоб у нас настало те майбутнє, яке описували в книгах фантасти та показували фільми сай-фай.
Матриця в принципі у нас уже настала, нам вона вже не загрожує, ми вже в ній живемо, ми побудували механізм доповненої реальності, радісно з нею співпрацюємо.
Чесно, я не знаю. У нас єдиний шанс не загубити себе як фахівців, як робочу силу, як економіку світову, як цивілізацію, яка генерує культуру, мистецтво і так далі, не загубити себе в машині, в тому продукті, який буде генерувати машина – це розуміти, як вона це робить. Розуміти різницю між ширпотребом і мистецтвом, між справжньою поезією і хайпоботом, і в принципі співпрацювати з машиною як із одним із механізмів.
В історії було повстання луддитів, громили станки проти механізації та автоматизації роботи на фабриках. Ну нічого, якось справилися, перевчилися фахівці, почали працювати ефективніше. Кожна технологія вимагає від людини підвищити свою творчу кваліфікацію, підвищити свою людяність, умовно кажучи, переосмислити свої потужності і своє місце у світі, в якому допомагає технологія. Це незалежно від того, чи було віднайдено колесо, чи йдеться про велику мовну модель.

Студенти і не лише люблять останнім часом послуговуватись текстами, які повністю генерують нейромережі і до якості яких величезні питання.

Нагалюцинував чат-бот?

Так. Як впливати, як унеможливлювати споживання такої неякісної інформації?

По-перше, залежить від того, якою нейронною мережею вони послуговуються.
ChatGPT, наприклад, замкнена модель на певній кількості інфорації, яку він до певного періоду накопичував. Він багато галюцинує, оскільки вся інформація, яку він уже згенерував, надходить у нейронну мережу за принципом замкненої петлі, тобто він далі послуговується тими фактами, які сам напридумував. Тому це проблема величезна.
Хоча насправді так працює і людська свідомість. Принцип «одна баба сказала», хтось десь комусь розповів якісь чутки, і так далі, і це вже видається як щось достовірне.
Але є моделі, які підтягують посилання, наприклад, я завжди кажу, якщо дуже хочеться згенерувати текст, хоча б розібратися в темі, де вам складно добрати посилання, то зверніться до майкрософтівського Bingo, він підтягає посилання, а далі вручну.
У принципі все, що написано в будь-якій книжці, будь-де, теж треба перевіряти. Тому що папір все стерпить, а інтернет тим більше, особливо в анонімному спілкуванні. Тож перевіряти потрібно все, привчати людей до культури інформаційної гігієни. Особливо зараз, у світі пропаганди й дезинформації. Бо ми вже навіть не в світі постправди, ми вже в задзеркаллі, особливо з тими потоками дезінформації, які дуже, на превеликий жаль, ефективно і дуже системно виливає наш ворог у соцмережах. Вони підтягуються у посиланнях, вони підтягуються за мовними моделями, алгоритмами соцмереж і видаються на-гора.
Згідно з принципами нейролінгвістичного програмування, якщо людина постійно бачить одну й ту ж інформацію, вона починає звикати до неї як до частини своєї реальності.
Тому тут тільки виховувати й плекати вручну, як Маленький Принц у Сент- Екзюпері казав: треба баобаби проріджувати, інакше вони розірвуть твою планету. Проріджувати баобаба, перевіряти, щоразу запитувати себе: те, що написане, чи є це правдою? Де написано? Одна справа, якщо це в підручнику з квантової фізики, а інша – якщо з анонімного твіту. Це не означає, що інформація в анонімному твіті буде неправдива, вона може бути написана автором з квантової фізики, але варто перевірити. Є достовірні й недостовірні джерела, є джерела, які проходять академічну верифікацію, є джерела, які опираються на принцип: у мене є право свободи слова, і я цим правом користуюсь так, як мені заманеться.

Як правильно вибудувати співпрацю медіа і штучного інтелекту? Які можуть і повинні бути рамки й правила?

Насправді рамки й правила запропонував Європарламент, Єврокомісія.
У грудні 2023 року було нарешті ухвалено Євросоюзом перший в історії Закон про штучний інтелект, який ратифікував Європарламент. Я особисто входжу до групи ініціативи цифрового гуманізму, яка розробляла рекомендації до драфту цього закону: як сприймати штучний інтелект в контексті, що є людина, що є права, місце людини і тд. Так от, цей Закон фактично є не таким, що дозволяє, а обмежуючим. Там визначено, якщо я не помиляюсь, 5 рівнів ризиків для різних типів систем ШІ. Відповідно, йдеться про розвиток систем, і фактично цей закон є орієнтиром для навігації, йдеться про захист обмеження прав і свобод людини шляхом генерації, умовно кажучи, галюцинації чи неправдивої інформацію, чи розповсюдження такої інформації, запобігання цьому тощо. Якби система штучного інтелекту ввела цензуру, а, може, якщо вона буде розвиватись, вона б якусь інформацію позначала б прапорцем, або вона її переформулювала, або взагалі прибрала як таку, яку вважає шкідливою, тоді так, ця система переходить в іншу, що обмежує свободу інформації.

Але таке може бути?

Так, може.

Ми не повинні втрачати пильність?

В принципі це стосується будь-якого функціонування людини в медіа просторі. Не втратачи пильність – все, що може робити людина в медіапросторі, особливо в такому перенасиченому. Ми бачимо, що робить безумовна довіра до телевізора, до інформації, яку створює пропаганда в сусідній країні росії, де для населення це продовжується знищенням нас, тому що їм у телевізорі сказали: так правильно. Питання критичного мислення, пошуку альтернативних джерел інформації – це питання там не ставиться. Наша країна, ми всі платимо величезну ціну за те, щоб виростити наступне покоління людей, які вміють критично мислити і ставити питання постійно до всього. До всього, що вони чують, до всього, що їм кажуть, до всього, що їм кажуть, як правильно, або до всього, що їм кажуть як неправильно. Ми є громадянами суспільства, яке має справжню свободу.
Тому штучний інтелект тут скоріше симптом інформаційного здоров’я суспільства, і не є причиною сам по собі.

На ці речі впливає багато факторів, у тому числі й корпус мови. Чи змінився корпус української мови, наприклад, за час війни?

Так, безперечно, українська мова зробила феноменальний ривок у цифровому просторі. По-перше, збільшився сам сегмент і розширився значно українськомовний простір інтернету, це колосальний прорив.


А можете назвати відсоток?

Не можу точно сказати, порівнюючи з англійською й іспанською, він буде маленьким. Але ми зробили цей ривок в тому числі й за рахунок наших українськомовних співвітчизників, які переїхали за кордон, але які все одно спілкуються в соцмережах українською.
Це все якісний прорив. Багато російськомовних блогерів перейшли на українську мову. Значно покращилась система на основі ШІ, автоматичного перекладу в фейсбуці і твіттері, тому, відповідно, стало більше привабливого простору публікувати не англійською мовою, а українською, не всі блогери так вільно володіють англійською, але кожен користувач прочитає, виставивши відповідні налаштування в соцмережі. Це якраз заслуга ШІ, який постійно натреновується на кожному наступному пості, то він якраз став на допомогу розширення україномовного сегменту.

Із розвитком штучного інтелекту багато хто прогнозує, що зникатиме необхідність вивчення мов, що Google Translate автоматично перекладатиме з будь-якої мови на будь-яку. І в людей не буде необхідності як зараз, як раніше, вивчати мови.

Автоматичні асистенти на основі штучного інтелекту можуть допомогти перекласти. Але людина все одно матиме у спілкуванні посередника, і цим посередником будуть субтитри, які не дають того, що дає нам живе спілкування.
Повертаючись до питання про збільшення кількості української мови в світовому інформаційному просторі. Треба не забувати, що на сьогодні українська не є мовою міжнародного спілкування, хоча цікавість до її вивчення різко збільшилась.
Але мовами світового спілкування досі залишаються англійська, іспанська, французька. Німецька не належить до цього переліку, але також дуже розповсюджена в світі.
Про українську культуру, про Україну все одно треба збільшувати частку говоріння цими мовами. Тими мовами, які світ зрозуміє. Оце дуже важливо і для академічної спільноти, й для суспільно-політичної спільноти, і для аналітичної експертної спільноти І для медійної, має бути медійне покриття.
Вчора я з колегою брала участь у роботі іспанськомовного онлайн-телебачення для Латинської Америки. Латинська Америка дуже запаролена і зашлакована російською пропагандою. Інформація з України доходить туди дуже туго. І тому треба розповідати, говорити про Україну, але тією мовою, яку зрозуміє цілий регіон.
Про Україну, про українське і українськість потрібно говорити ще й поширеними мовами світу.

Медійники повинні вивчати мови. Не очікувати, що скоро з’явиться оцей штучний інтелект, який автоматично буде там все перекладати.

Титри ніколи не замінять привабливість людини, яка говорить, в очах людини, яка слухає.

Переклади шляхом титрів – це все одно подвійне кодування.
Чим більше переключень коду, чим більше перешкод між джерелом інформації до реципієнта інформації -. тим менше інформації доходить.
Якби я зараз говорила англійською, а штучний інтелект перекладав би субтитри українською, все одно інформаційні втрати були би значними, тому що ви би спілкувалися не зі мною, ви б спілкувалися з субтитром.

Тобто національний пріоритет зараз – це вивчення європейських мов першочергово в медійній сфері?

Так, і він не змінюється у нас за всі роки Незалежності.

Ми є частиною європейської спільноти, особливо тепер, ми маємо говорити мовами Європейського парламенту і обов’язково мовами міжнародного трибуналу. Ми маємо говорити мовами Європи.

Я би дуже хотіла, щоб наші медійники, окрім англійської, підтягнули би і французьку, й іспанську, й німецьку, й італійську. Особливо італійську й іспанську, тому що там велика частка наших людей. Це провідні країни з провідним голосом в європейській спільноті, але потужність рупору пропаганди проросійської там особливо сильна. Нашим людям, які виїхали туди, дуже не вистачає інформації від нас, це я бачу по академічній спільноті, які постійно запитують інформацію і не знають, де знайти.

Розмовляла Тамара Куцай

(Уривок з інтерв’ю, опублікованого в друкованій версії газети “Вечірній Київ”)