Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.
М.: Издательский дом НИУ ВШЭ, 2024.
Svetlana Iu. Toldova, Elena O. Sokur.
Journal of Siberian Federal University. Series: Humanities & Social Sciences. 2024. Vol. 17. No. 5. P. 905-915.
Rykov E., Zaytsev K., Anisimov I. et al.
In bk.: CLEF 2024 Working Notes. CEUR Workshop Proceedings, 2024. P. 2866-2871.
arxiv.org. Computer Science. Cornell University, 2024
В 2011 году Президент США Барак Обама выпустил указ, Executive Order, «E.O. 1356 — Improving Regulation and Regulatory Review», согласно которому законы должны быть доступными, написанными простым языком и легко понимаемым. Теперь управление социальной защиты США используют специальное программное обеспечение StyleWriter, которое помогает упрощать тексты, а администрация штата Орегон подстраивает все публикуемые документы до уровня 10 класса. Кроме того, многие государственные учреждения, ведущие дела со сложными документами, проверяют их на понимание с помощью специальных алгоритмов — формул удобочитаемости.
Формулы удобочитаемости — это алгоритмы, которые предназначены для оценки того, насколько легко (или трудно) читать ваш текст. Некоторые алгоритмы определяют норму сложности определенного текста в соответствии с уровнем образования читателя. Например, газеты должны быть написаны для уровня чтения школьников 9-11 классов, а речи Дональда Трампа должны быть понятны 5-класснику.
Существует несколько способов измерения читабельности текста.
Самый популярный — индекс Флеша.
Рудольф Флеш — американский писатель, эксперт по удобочитаемости и консультант по письму. Индекс Флеша вычисляется на основе многих параметров, например, длины предложений и слов в слогах, количества редких слов и т.д. Рассчитывается индекс Флеша по такой формуле:
206.835 − 1.015 × ASL − 84.6 × ASW, где
ASL (англ. average sentence length) — средняя длина предложения в словах,
ASW (англ. average number of syllables per word) — средняя длина слова в слогах.
По шкале FRES (англ. Flesch reading ease scale) индекс распределяется от 0 до 100, где 0 — неудобочитаемый текст, предложение в среднем состоит из 37 слов, а 100 — легко читаемый текст, где длина предложения не превышает 15 слов.
Проверка этой шкалой книг о Гарри Поттере показала, что средний балл всех книг составляет 72,83, то есть книги были написаны простым английским языком, понятным для учащихся средних классов.
Шкала Флеша-Кинкейда — это та же формула Флеша, но она была доработана его коллегой Питером Кинкейдом для Военно-морских сил США. Она рассматривает не уровень сложности текста, а уровень образования читателя, при котором чтение текста будет комфортным. При этом она использует те же параметры для оценки сложности, что и шкала Флеша: длину слов и длину предложений. Согласно результатам проверки текстов по шкале Флеша-Кинкейда стихотворение А.С. Пушкина “Зимнее утро” понятно для учащихся 4-6-х классов, то есть детей 9-11 лет. Тем временем большинство статей на “Википедии” очень трудны для восприятия. А российский закон о запрете курения в общественных местах и вовсе могут понять лишь люди с высшим образованием и профессоры.
Еще один довольно популярный, особенно в сфере управления, индекс — индекс туманности Ганнинга (фог-индекс). Фог-индекс в основном используется для оценки годовых отчетов.
В этом тесте оцениваются количество слов, количество предложений, количество слов с тремя и более слогами, т.е. сложных слов. Фог-индекс рассчитывается по такой формуле:
0.4x[(В/П)+100x(CC/C)], где
С — количество слов в тексте,
П — количество предложений в тексте,
СС — количество сложных слов.
Менее популярный тест — тест Колман-Лиау. В отличие от всех предыдущих тестов, в нем используется не количество слогов, а буквы. В этой формуле удобочитаемости рассчитывается среднее количество букв на слово и среднее количество слов на предложение.
Формула для этого теста выглядит так:
0.0588L − 0.296S − 15.8 , где
L — среднее число букв на 100 слов
S — среднее число предложений на 100 слов
Существует еще как минимум 10 тестов для проверки уровня сложности текстов. Изначально все эти меры были созданы только для английского языка. По сравнению с ним в русском языке длина предложения, как правило, короче, а количество слогов в словах больше. Поэтому для русского языка была разработана немного измененная версия с другими индексами. Например, измененная мера Флеша для русского языка выглядит так:
206,835 − 1,52 × ASL − 65,14 × ASW, де
ASL — средняя длина предложения в словах,
ASW — средняя длина слова в слогах.
Проверить текст на сложность и удобочитаемость сегодня можно благодаря многим сайтам, специальным ресурсам и даже в самом Microsoft Word. Помимо этого, существуют интернет-ресурсы, которые предлагают возможности исправления или упрощения текста с помощью подбора синонимов, выделения сложных, повторяющихся слов и канцелярита. Однако пользоваться всеми этими ресурсами необходимо крайне аккуратно, так как зачастую они дают ошибочные результаты, не подстроенные под особенности русского языка.