ЯК ВИЖИВАТИМУТЬ МОВИ В ЦИФРОВУ ЕПОХУ

Наша співрозмовниця: сучасна відома дослідниця Русудан Махачашвілі, доктор філологічних наук, фахівець з англійської та іспанської мов, завідувач кафедри романської філології та порівняльно-типологічного мовознавства Київського університету імені Бориса Грінченка. Головний редактор журналу «Синопсис: Текст. Контекст. Медіа”.

Провідні академічні інтереси: цифрова гуманітаристика, розвиток цифрової грамотності, цифрова лінгвістика та лексикографія, цифрова освіта. Експерт з оцінки грантових проєктів Європейської комісії. Координатор від Університету Грінченка у міжнародному рамковому проєкті Горизонт 2020: ELEXIS (Європейська лексикографічна мережа).

Русудан, у світі на сьогодні, згідно з даними ООН, нараховують від 6,5 до 7 тисяч мов, але, згідно з прогнозами, половина з них може зникнути вже до кінця нинішнього століття. Що з цим робити? Як нам захистити наші рідні мови?

Цифровізувати. Збереження мов – це питання їх цифровізації. Про що йдеться? Я можу навести приклад.

Є одна з давніх мов – фризька мова. Носіїв мови до 400 тисяч осіб, вони всі переважно живуть на одному острові. І мають одну конкретну державну програму, підтриману європейською унією зі збереження цієї мови. І Асоціація носіїв фризької мови і національного корпусу захисту фризької мови доєдналися до європейської лексикографічної мережі – це на сьогодні найбільший лінгвістичний рамковий проект, який реалізується в Європі, це проєкт Горизонт 2020. Він має таку дуже амбітну філософію – відкрити і об’єднати мовні дані максимальної кількості європейських мов.

Що робити з мовами, які зникають, що може робити цифровізація? Можна перекалібровувати словники в цифровий формат. Можна анотувати корпуси, по-перше, цифровізувати, якщо це якісь писемні пам’ятки, якщо це усні мови (наприклад, мови полінезійських народів – там, де немає писемності, або немає письмових пам’яток, якщо навіть писемність є). Записувати, не просто зберігати в аудіофайлах, як картотеку, а перетворювати на живий діючий корпус.

Про що саме йдеться, як це робити?

– Це означає, що дані цих мов оцифровані, проанотовані лінгвістами, розмічені системою значень, системою контекстів та зв’язків між мовними одиницями. Можна надати цифровим комп’ ютерним програмам обробки даних для того, щоб вони могли ці мовні дані включати у пари перекладу.

Наприклад, наш улюблений Google Translate має величезний доступ до баз даних і зв’язків між мовами. Можна до цієї мережі, до цих баз даних додавати мови, що зникають. Ці розмічені корпуси можна залучати до пошукових інструментів для того, щоб вони були постійно в актуальному контексті навіть не носіїв, щоб вони постійно фігурували, якщо потрібні приклади на певні мовні явища. От якщо ми шукаємо щось у пошуковику – добре, щоб нам ще випадали мови народів Полінезії.

Тобто потрібно мову перетворювати на базу даних?

Так, на таку, яку може розпізнати просунута комп’ютерна програма, або система комп’ютерних програм. Це один із способів і консервації мови, і винесення мови за межі контексту лише носіїв. І донесення мови до широкого загалу та залучення її до універсальної лінгвосфери мовних даних, яким на сьогодні є інтернет.

Я цифровий оптиміст і всі мої варіанти з приводу розвитку мов пов’язані так чи інакше з цифровим простором. Клієнтом перетвореної на базу даних мови може бути не лише носій цієї мови, яких може бути обмежена кількість чи вони можуть бути представниками іншого покоління, які не працюють із цифровими технологіями ( це теж треба враховувати). Клієнтом цієї бази повинна бути машина – комп’ютерна програма обробки мовних даних. Тоді мова буде фігурувати в глобальному інтегрованому контексті, коли нам буде випадати у пошуковику Google не лише англійською мовою, а й іншими, менш представленими мовами, або мовами, що зникають. Це робиться не людиною, це робиться пошуковим движком. Ми готуємо інформацію для машин – це реалії, це не погано чи добре, це реалія.

Другий момент – це створення (я ж кажу – я цифровий оптиміст) мовного онлайн-простору. Спілкування в соціальних мережах цією мовою, переклад інтерфейсу у соціальних мережах тією мовою, що потребує підтримки, створення контенту тощо.

Також було доведено, що в національному мовному онлайн-середовищі більш ефективно вивчаються іноземні мови. Я особисто знаю людей, які вивчили іноземну мову через інтернет. Багато людей так покращують свої навички. Найголовніше – це створення контенту. Коли тобі потрібно писати, знімати відео, говорити, брати участь у дискусії – так вона й вивчається набагато краще. Створення оцього онлайн-простору – один із дієвих способів розвитку мови. У такий спосіб мова відкривається для залучення актуальних контекстів та запозичень.

Мовні запозичення – це часто досить дискусійне питання.
Так, але залучення актуальних контекстів та запозичень – дуже важливо для збереження мови. Я тільки за нові цікавинки, нові тренди й можливості, які можуть навіть йти всупереч з типологічними характеристиками мови. От як ми міряємо одяг на себе: щось пасує, щось ні, але ми не знатимемо, що не пасує, якщо ми не спробуємо. Я ось сьогодні взяла ось цей шалик, коли збиралася на зустріч з вами, спочатку приміряла інший, але ні, той не пасував. Так само й мова – це абсолютно живий організм. Вона знайде собі шлях, якщо вона не обмежується штучно. Мова завтра буде не такою, як сьогодні, але ми сьогодні маємо дивитися й розуміти, якою вона може бути. Мова ніколи не може бути гірша самої себе, або краща. Вона така, яка потрібна зараз.
Зрештою, будь-яка мова завжди вбирає з інших мов. Ось я зараз вчу також італійську, і бачу, як багато схожого, багато від латині в нашій мові, і для мене це певним чином відкриття.

– Тут нічого дивного, це була мова навчання, філософії, книжності. Тому українська мова така сама європейська мова, як і решта європейських мов. І свій інтелектуальний шлях проходила через більш-менш схожі принципи. Це абсолютно природний шлях розвитку мови, яка проходила через інтелектуальне становлення фону й фонду нації.

Відомі дослідження вчених, що чим більше людина мов знає і вживає – то в неї спостерігається більша концентрація уваги та гнучкість мислення. Але ж із розвитком штучного інтелекту багато хто прогнозує, що зникатиме необхідність вивчення мов, що Google Translate автоматично перекладатиме з будь-якої мови на будь-яку. І в людей не буде необхідності як зараз, як раніше, вивчати мови.
У нас буде необхідність вивчати мови, лише мови програмування (сміється). Я дуже чекаю на розвиток штучного інтелекту, буде з ким поговорити, як з розумною людиною (сміється).

Справа в тому, що мовою може вважатись будь – який набір знаків, значення яких не прив’ язане безпосередньо до об’ єкту, або прив’язане до об’єктів, які знаходяться між собою у певному наборі логічних зв’язків. Ці зв’язки називаються кодифікативними. Відповідно, необхідність володіти цією системою знаків – вона в людському суспільстві в найближчий час нікуди не подінеться, раз вона вже одного разу виникла. Ми будемо оволодівати системами знаків. Це можуть бути мови програмування, Я ж кажу, у нас тепер нашими клієнтами комунікації є не лише інші люди, а тепер це й машини. Мій закордонний колега, айтішник, своїм студентам, які прийшли до нього вивчати комп’ютерні технології, каже, що за перший семестр ви маєте освоїти будь-яку природню мову, яка має не латиничну алфавітну систему, тобто не рідну. На вибір – арабська, азійська, кирилична. Для того, щоб ваш мозок привчився бачити зв’язки між мовними знаками. Тільки тоді ви починаєте опановувати мову програмування.

– Цікаво.

Тобто принцип освоєння – принцип мови – один і той самий. Це перебільшення чи спрощення, але в якомусь зерні проблеми це так. Ми будемо вивчати мови, і не обов’язково це будуть мови Шекспіра чи Гете. Ми будемо вивчати мови, щоб спілкуватись із Google Translate, що робити, щоб він працював краще. Це перше. Друге – це питання стосується того, а хто буде навчати Google Translate. На сьогодні зі штучним інтелектом це не так просто, і ми зараз живемо в певному контексті, який до того був описаний лише художніми засобами, в утопіях.

Але ситуація така: на наше покоління, частково на покоління наших студентів ми ще не будемо мати такої проблеми, тому що ми застаємо друге покоління штучного інтелекту, нейронні мережі, які мають обмежений спектр дії, вони можуть бути автономні, але вони ще не повністю самостійні, тому вони не повністю відтворюють функції людського мозку. Але Google Translate, наприклад, працює вже як нейронна мережа. Я дуже його люблю.

Я теж.

– Я ставлюсь до нього як до котика, як до тваринки, як до дельфіна, я думаю, що це найбільш проривне, те, що вже є на побутовому рівні.

Але ще не досконале.

– Це те, що ми побачимо на своїй пам’яті й те, що буде зрозуміло. Багато комп’ютерних систем працюють вже за принципом машинного навчання, самотренування. Комп’ ютерна програма, яка вміє ті дані, яких у неї не було, абсорбувати, сортувати й систематизувати і від цього покращувати свій результат взаємодії – це і є нейронна мережа, це основа штучного інтелекту. Так як і людина, тільки він це робить швидше, краще, більше абсорбує інформації… Це буде загальнодоступна система штучного інтелекту, про яку будуть знати всі, спілкуватись, мати контакти, використовувати так чи інакше в своїй побутовій діяльності. Тому це буде наше вікно, мені здається, у прориви штучного інтелекту.

Своїм студентам я дуже люблю розповідати історію нещодавню, яка відбулася з розробниками Google Translate. Це система перекладу, яка працює на пари мов, перекладає з мови на мову. Відповідно, це комп’ютерна програма, в якій, як пазлики, існують закладені, запрограмовані пари мов: з української – на англійську, з англійської – на німецьку і так далі. І ось розробники – ті, що є налаштовувачами Google Translate, нещодавно виступили з програмною статтею, в якій зазначили, що Google Translate сам собі зіставив пари мов, це були якісь азійські мови, я зараз не пригадаю, які саме. Це означає, що програма в себе в глибині коду проаналізувала, що є відповідності між цими мовами, зіставила вокабуляр і морфологічні особливості, і вирішила: о, я можу це перекладати. В принципі так само, як ми розпізнаємо в мові, наприклад, польській, навіть якщо її не знаємо, якісь знайомі корені, слова і т д. Суть цієї статті була не в тому, що Google Translate сам собі проаналізував дві системи мов і зіставив пару, на яку не був запрограмований. Висновок, який вони зробили, був такий: шари коду програми, які зробили це зіставлення, знаходяться так глибоко ( називається: глибинний код), що вони не знають, як це було зроблено. Оце вже і є прояв того, що вже можна назвати штучний інтелект в дії.

Нейронного фактору, можна сказати, штучного інтелекту?

– Так. Так само, як ми, коли мислимо, коли розпізнаємо певні мовні знаки у себе в свідомості. Бо людина не зупиняється й не каже, тут у мене цей нейрон туди пішов, а цей – туди. Не всю діяльність людського мозку можна відслідкувати, от так само не змогли відслідкувати й тут. Тобто десь там всередині штучного коду програма спрацювала так, як спрацювала б будь-яка мовна свідомість – вона побачила відповідності і зробила висновки, і в такий спосіб розпізнала мовну систему, близьку за змістом, за типом, за характеристикою. Для мене це такий феноменальний приклад того, наскільки близько підібралося майбутнє, як ми будемо працювати з системами штучного інтелекту.

Цей ковідний рік ще більше наблизив нас до цього майбутнього.
Ми зараз з вами живемо через буремний рік у вік тотального онлайну. І дуже багато питань щодо відтворення характеристик живої людської комунікації. Це найбільша проблема. Спільно з моїм колегою зі східних мов ми проводимо масштабне дослідження на всю Європу про те, як трансформується уявлення, як трансформується комунікативний простір в освіті, в мовній освіті найголовніше, в умовах екстремального невідворотного онлайну. Як інформовані ці трансформації тими мовами, які вивчаються. Багато жартів було цього року, ну як розмовляти італійською без відозв’язку, ну тут же половина мають бути жести, зрозуміло, що це жарт, але в цьому жарті є і текстуальна, і енергетична характеристика певної мови, яка не транслюється через екран. Проводяться серйозні нейропсихологічні дослідження щодо ефекту екрана, і програма штучного інтелекту пропонує їх добудовувати до програми відео конференцій.

Що наша свідомість робить, коли ми комунікуємо? Насправді ми відстежуємо величезну кількість даних: хто як реагує, в кого очі загоряються, хто нудиться, ми не фіксуємо ці дані свідомо, але підсвідомо ми підлаштовуємо свою комунікацію під ту цільову аудиторію, яка найбільше зацікавлена. Формат зуму не дозволяє це відслідкувати в тому ж обсязі, як це відбувалось в живій аудиторії. Саме через те відчуття спустошеності, порожності дуже багатьма фіксується саме в онлайн комунікації, особливо коли її дуже багато.

Що пропонує нам штучний інтелект? Він пропонує фіксувати цю інформацію за нас – хто дивиться, хто не дивиться, хто як зреагував, у кого розширились зіниці на певний тип інформації, хто взагалі не слухає, хто відволікся, яка мова тіла, як реагують на спікера, як реагують на інформацію, на стимули риторичні, і т д. Всю цю інформацію пропонується вже потихеньку фіксувати спеціальними програмами, які б могли її сповіщати спікерам, і, відповідно, допомагати аналізувати комунікацію через онлайн, і допомагати її наблизити за враженнями до комунікації офлайн. Наскільки це буде реально – важко сказати, але це один із шляхів залучення штучного інтелекту саме до комунікативного простору. Не просто до простору обробки мовних даних опосередковано, а до живої комунікації людини з людиною.

Ясно, що світ не буде таким, як раніше. Уже зміни відбулися.

Так, світ буде іншим.

Які основні тренди розвитку європейських мов і якими інструментами підтримують цей розвиток?
Я якраз дослідник сучасних мов, що з ними відбувається. Давно цим займаюсь – 15 років. Тренди загалом по європейських, і не лише (я нещодавно додала й азійські також) – це тренди, які є спільними і зумовлені використанням мов в онлайн – контекстах і онлайн-умовах. Це тенденції до тяжіння і спрощення мовних форм, до гібридизації, в тому числі й текстів. Усі ці жарти, що ми пишемо тексти у формі емоцій – це не жарти, а тепер спробуйте пояснити програмі обробки корпусу там на кілька мільйонів мовних знаків, як розпізнавати емоджі. Це одне із моїх завдань, завдань моєї дослідницької групи. Це тяжіння до тотальної неологізації, оптової її називають, коли є певні моделі творення нових знаків, за цими моделями просто масово будуть утворюватися нові знаки. За цей час (коронавірусний рік) використання зум всього – зум в якості морфеми, атрибуту, зумізація повністю мови в нас є. Зум побачення, зум класи, зум пари, зум наради, будь що. Поєднання цифрових знаків з морфологічними і граматичними формами – завдання моєї дослідницької групи в проекті ELEXIS Європейської лексикографічної мережі.

Як розпізнавати емоджі? Ми б’ємося з нашою дослідницькою групою для того, щоб комп’ютерній програмі пояснити, як емоджі можна вписати в текст – от воно де, де в нього префікс, суфікс? Ми вже знайшли спосіб, як обраховувати емоції цифровим словниковим способом. Тепер сподіваємось, що дані цифрового словника дозволять перетренувати корпусну систему. Для того цифровий словник потрібно перетворити на нейронну мережу – це зараз те, чим ми займаємось.

Зараз готуються публікації дуже серйозні, будуть скоро опубліковані серйозні дослідження, які будуть з програмних, проривних, про те, як трансформується система текстових, умовно кажучи, текстових зв’язків в межах одного знаку, який може мати іконічну або ієрографічну форму. Це буде важливо й для розвитку європейських мов в онлайні, які гібридизуються через такого типу цифрові знаки, і для розвитку східних.

Ми – свідки бурхливого розвитку мови комп’ютерних технологій.
З мого досвіду дослідження того, що відбувається в мові комп’ютерних технологій, мало де в яких сферах так багато залучається засобів образності та виразності для того, щоб виразити свій досвід взаємодії з абсолютно неприроднім для людини середовищем.

Знаєте, що відбулося з нашою свідомістю за останні 10 – 15 років? Свідомість людства переструктурувала свої уявлення про дійсність, щоб залучити цю дійсність цифрову в ці уявлення, якої раніше у людства просто не було. Коли виникло позначення – зовнішня мережа – Outernet – для позначення оцієї реальної дійсності, тоді стало зрозуміло, що наша свідомість вже абсолютно інакше взаємодіє зі світом. Ми ту реальність цифрову, яка стала для нас такою постійною для спілкування, життя, актуалізації, ми її беремо за еталон. Дауншифтинг цифровий – вже ніяк не спрацює. Цифра – єдине середовище доступу до світу. Ми повністю перемістили фокус своїх еталонних уявлень про те, як побудований світ, зі світу реального на світ віртуальний, комп’ютерний. Це монументальний зсув у структурі мислення. Я думаю, що він буде усвідомлений ще набагато пізніше. Але він відбувся, це реальність.

Тож яким буде подальший розвиток мов, на Вашу думку?
Буде спрацьовувати синергія соціальних факторів. Сучасний філолог має бути трошки айтішником, трохи програмістом, розробником електронних освітніх просторів, цифровим гуманітаристом, і т д.

Розвиток технологій – це ще один соціальний фактор, який додається до того звичного набору факторів, який зазвичай впливає на розвиток і динаміку мовних систем. Це історичні умови, культурні, парадигма мислення, релігійних вірувань, еміграції, зміни кордонів будь-що. Епідемії – це також соціокультурний фактор, який впливає на розвиток мовних систем, і завжди впливав в історії людства, тепер до цього додаються цифрові технології. Вони викарбували собі дуже потужний впливовий важель в динаміці мовних систем.

Який вплив епідеміологічного фактору?
Згадаймо чуму в Європі. Після неї «Кентерберійські оповіді» Чосера, п’ єси Шекспіра, творчість Леонардо да Вінчі, поява нової термінології, розвиток технологій, медичних, і, відповідно, поява нових термінів і концептів на позначення.

У нас не було активовано нових концептів – зум-побачення, зум-нарада, у нас не було активовано – безсимптомний носій, симптомний носій і т д. Тепер вони з’явились і нікуди вже не підуть, мабуть що. Епідеміологічні умови впливають на аранжування суспільних зв’язків невідворотно, ну і, відповідно, вони будуть впливати на розвиток комунікативного простору.

Ваш прогноз – яким буде розвиток, подальший?
Захопливим. Перспектива мовного простору захоплива. Я дослідник і переконана, що мовні технології – це технології штучного інтелекту, відповідно, за мовними технологіями – технології майбутнього. Не спрацювала утопія створення штучних мов, які були би мовою спілкування зі штучним розумом. Ми все одно маємо навчити штучну комп’ютерну програму нашої природної мови, відповідно, це відкриває захопливі перспективи, тому що коли ми говоримо про мовну свідомість, яка є носієм певної національної мови, ми говоримо про національні культурні особливості, про національну картину світу, національну ідентичність, така дуже складна сфера характеристик, які інформують, як свідомість використовує мову, як послуговується мовою в контексті.

Можете собі уявити штучний інтелект, який є носіями діалектних картин світу? Я можу. Мені дуже цікаво, як це можливо транслювати, пояснити машині, в чому особливість львівської ґвари, в чому її відмінність від полтавського діалекту, чи регіональної вимови на Слобожанщині. (Я сама з Запоріжжя, фонетисти почують це в особливостях моєї вимови, я це чую – різницю з вимовою тих, хто є киянами за народженням).

Мені дуже цікаво. Це все матеріал, як розвинути технологію обробки мовних даних, мені дуже цікаво, як це буде використано, мені дуже цікаво, куди заведе ця технологія. Які у неї перспективи? Безперечно, є багато застережень і небезпек. Я думаю, ми, як цивілізація, їх зрештою подолаємо. Я цифровий оптиміст, я не бачу апокаліптичного майбутнього, в якому відбудеться повстання штучного інтелекту, який навчений однієї мови. Я думаю, що якраз в розмаїтті мовних можливостей наш спосіб гуманізувати штучний інтелект, а йому – наблизитися до того дива, яким є людський розум. Абсолютно невимовного дива.

Це правда. Дуже дякую Вам за цікаву розмову.

Розмовляла Тамара Куцай, керівник проекту СловОпис