• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024)

Bangkok: Association for Computational Linguistics, 2024.

Статья
История стиховедения и формализм

Орехов Б. В.

Слово.ру: балтийский акцент. 2024. Т. 15. № 4. С. 147-157.

Глава в книге
The Parallel Corpus of Russian and Ruska Romani Languages

Kirill Koncha, Abina Kukanova, Kazakova Tatiana et al.

In bk.: Proceedings of the 3rd Workshop on NLP Applications to Field Linguistics (Field Matters 2024). Bangkok: Association for Computational Linguistics, 2024. Ch. 1. P. 1-5.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

«Языку нужно иметь 40 тысяч носителей, чтобы выйти в соцсеть»

Доцент школы лингвистики Борис Орехов – о жизни горных марийцев во «ВКонтакте» и том, как социальные медиа помогают поддерживать культурное разнообразие.

«Языку нужно иметь 40 тысяч носителей, чтобы выйти в соцсеть»

Исследователи НИУ ВШЭ изучили, как языки российских этносов чувствуют себя в интернете. В рамках проекта «Языки России» под руководством доцента школы лингвистики Бориса Орехова студенты магистратуры по компьютерной лингвистике Ирина Крылова и Людмила Зайдельман, используя инструменты программирования, проанализировали большой объем данных во «ВКонтакте». Борис Орехов рассказал порталу IQ.HSE о результатах проекта.


Борис Орехов 
 доцент Школы лингвистики НИУ ВШЭ

Диспозиция

Малые языки – большая сфера, в которой есть очень разные представители. Если у «локального» языка на территории России полтора миллиона носителей, то по отношению к русскому он действительно малый, потому что на русском говорят сотни миллионов человек. Но он не такой уж и малый по сравнению с языком одного аула или района, где носителей лишь несколько тысяч или даже сотен.

Из материала о малых языках России в интернете: самые распространённые языки — татарский, чеченский, башкирский и чувашский: у них больше миллиона говорящих. Почти исчезли водский, энецкий, южноюкагирский, негидальский языки, на которых говорят несколько десятков человек.

Крупные национальные языки чувствуют себя уверенно. Так, у удмуртского языка сотни тысяч носителей, есть государственная поддержка: целый титульный регион, в котором на удмуртском издаются газеты, книги, есть телевидение и радио. В национальных республиках даже вывески на учреждениях продублированы на соответствующем языке. Зато в Дагестане, где десятки малых языков сосредоточены на небольшом пятачке, – другая история. Люди из соседних аулов, говорящие на этих языках, не понимают друг друга. Они могут общаться только на русском. Для них это – надрегиональный, общий язык.

В целом ситуация с малыми языками в России отличается от аналогичной ситуации в западных странах. Там, в основном, мононациональные государства, хотя бывают и исключения: например, во Франции есть бретонцы, в Испании – каталонцы, галисийцы. А на территории России около ста малых языков. В Европе такого разнообразия не найти.

На момент исследования хотя бы один сайт был только у тридцати языков. В ходе проекта также выяснилось, что сообщества «ВКонтакте» есть на 31 малом языке России (см. сводную информацию). Больше всего сообществ – вокруг удмуртского, якутского, башкирского, татарского и тувинского (подробнее здесь). Чем больше сообщений в группе, тем выше там доля постов на национальном языке.

 Сетевые «мейджоры» среди малых языков

На Западе уже какое-то время говорят о том, как общение в социальных сетях влияет на жизнь малых языков. Но это применимо к России лишь отчасти. В приведенном материале шла речь о языках, существовавших в компактной области проживания их носителей. Люди из этой области разъезжались в более экономически благополучные регионы. На такую ситуацию, как выяснили исследователи, социальные сети влияют благотворно.

Проблема подобного малого языка в том, что его носители живут в разных местах, у них нет «своей» среды общения вокруг, и язык не используется в повседневном общении, не развивается. К счастью, его жизнь во многом поддерживают социальные сети: человек, даже находясь на большом расстоянии от своего круга общения, может не прекращать коммуникаций. Язык живет, с ним все хорошо.

Однако башкирский, якутский, татарский и другие крупные малые языки существуют в другой ситуации. Речь идет не о компактном проживании, а о больших этносах. И там в сетевых сообществах в миниатюре происходит то же общение, что и на русском.

В принципе, с технической точки зрения социальная сеть ничем не хуже и не лучше любого другого сайта. Интерфейс в соцсетях есть только на самых крупных языках народов России. Круг общения у представителей разных этносов – во многом русскоязычный. Интернет-мемы, демотиваторы – тоже часто на русском. В итоге даже в специализированных сообществах на национальном языке пишут меньше, чем на русском.

Средоточия сообществ

В случае с крупными языками (башкирским, бурятским, удмуртским, чувашским, якутским и пр.) большинство говорящих живёт в столице титульного региона. Чеченский, хотя и относится к самым крупным по числу носителей среди языков России, выделяется на этом фоне. Значительная доля пишущих на нем в тематических сообществах локализуется в Москве.

С менее распространенными языками дело обстоит так: шанс встретить в Москве пишущего в социальной сети на своём родном языке несколько выше, чем в титульном регионе. Исключение – чукотский язык: здесь доминирует Санкт-Петербург. У народов крайнего Севера тесные исторические связи с Питером.

Как соцсети помогают малым языкам

Возможно, в некотором отношении было бы удобнее, если бы, как в фантастическом романе, у нас существовал один язык общения. С точки зрения «идеального» мира антиутопических произведений (типа романа «1984» Оруэлла), в котором все серое и одинаковое, малые языки не нужны. Но есть и некоторые «нерациональные» соображения, связанные с национальной идентичностью, культурой в широком смысле слова, памятью предков, консолидацией сообществ. Все эти факторы теснят «рациональность» и говорят в пользу нужности малых языков.

Возможно, их носители, включаясь в общение на своем языке, не думают о высоких материях вроде сохранения культуры. Но интуитивно они понимают, что такое общение нужно, и получают от него удовольствие. «Нерациональные» факторы содействуют мультикультурализму и не позволяют умирать таким сообществам.

В истории мы находим примеры того, как языки и культуры выживали без государственного обеспечения и даже вопреки политике (скажем, сербский язык под турецким владычеством или чешский – под немецким). Но это не была ситуация глобализации. А сейчас мир стремится к языковой унификации. И без государственной поддержки малый язык чахнет. Ему трудно жить без собственной печати, театра, телевидения и кино, которые существуют на государственные средства. В соцсетях же, что очень важно, малому языку специальная поддержка не нужна: приходи и общайся на нем.

В исследовании мы установили, что языку нужно иметь 40 тысяч носителей, чтобы выйти в соцсеть.

Здесь есть прямая демографическая зависимость: чем больше носителей языка, тем больше сообществ и постов. В то же время эта простая арифметика не всегда работает. Значима и активность сообществ, и отдельных людей в соцсетях. Меньшее, но более активное сообщество порой лучше представлено в интернете, чем большее, но не такое активное. Такова ситуация с горно-марийским и луговым марийским языками. Горных марийцев меньше, но они активнее луговых.

Вероятно, со временем порог в 40 тысяч носителей будет снижаться. Интернетизация продолжается. Сеть приходит даже в отдаленные аулы, и со временем люди там, возможно, станут что-то писать на своем языке.

Сродни берестяным грамотам

Из-за недостатка софта на малых языках буквы их алфавитов графически искажаются. Буквы с хвостиками, завитками теряют эти элементы. В постах на башкирском языке вместо «ҡ» (с флажком влево) пишут просто русскую «к» (алфавиты в большинстве случаев сделаны на основе кириллицы). Это неправильно с точки зрения орфографии, но носители поймут.

Подобные искажения мы вслед за исследователем новгородских берестяных грамот Андреем Зализняком называем «бытовой системой письма». Изучая грамоты, знаменитый лингвист увидел эти процессы в письменности древних новгородцев. То же происходит в письменности языков, которые не вполне обеспечены нужными клавиатурами.

Однако это едва ли языковая игра типа эрративов – намеренных искажений в рунете: «превед» вместо «привет», «аффтар» вместо «автор», «красавчег» вместо «красавчик». В русском языке эрративы появились, видимо, потому, что накопилась критическая масса творческих интернет-пользователей, которые хотели освободиться от «репрессивного», чересчур влиятельного правильного дискурса. В малых языках критическая масса таких пользователей еще не набрана.

Для представителей этносов России, которые приходят в социальные сети, есть граница: они ощущают, когда говорят на местном языке, когда – на русском, по крайней мере, в публичной сфере. Но для человека, который пишет что-то на своём языке в соцсети, обычна ситуация, когда он не задумываясь употребляет в одном предложении элементы и родного языка, и русского. Такой эффект называется лингвистами «смешением кодов» – code-mixing. Но это, скорее всего, осознается как монолог на своем языке, которому русский «помогает», достраивая те высказывания, которые по разным причинам не вполне адекватно звучат на малом языке. Скажем, не очень развиты в контексте национальных языков общественно-деловая сфера коммуникации, научная, техническая. Термины и стилистические шаблоны для них неизбежно и не всегда осознанно заимствуются из русского. 

Есть и намеренный code-mixing – например, в интернет-мемах. Там «смешению кодов» сопутствуют ирония, эффект остранения и пародийное переосмысление национальных реалий.

О чем пишут в соцсетях

В проекте мы собирали тексты не с личных страниц, а в сообществах (анализировались посты «ВКонтакте»). Это была работа с большими массивами данных (об инструментарии см. здесь). Мы выделили ключевые слова на малых языках, а затем выявили тематические кластеры в сообществах. В теории метод работает так: если ключевые слова – «картина», «художник», «живописец», то это, скорее всего, сообщество «про искусство». В другом случае упоминаются «фьючерсы», «дивиденды», – это уже сфера финансов.

Темы постов разнообразны. Для некоторых языков, в частности, чеченского, вычленились хорошие кластеры, которые мало пересекались между собой. Один касался шуток, другой – религиозной тематики. Но это кейс чеченского языка: интернет в республику пришел позже, чем в более благополучные регионы, и сообщества в чеченском сегменте рунета проще устроены. А вот, к примеру, башкирских сообществ сотни, они сложнее и тематически более разнообразны.

При этом разные этносы могут выбирать разные соцсети . Совсем малые языки обычно существуют в местностях, удаленных от центра, и там сложно с интернетом. Но при плохом интернете некоторые средства коммуникации работают лучше, чем другие. Это те, где не нужно загружать много данных и где при плохом канале мы получаем нужный результат. Это, например, Telegram, который, как свидетельствуют социологи, очень хорошо работает на Сахалине. Этот технический аспект может определять выбор соцсети.