• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Книга
Митрополиты, мудрецы, переводчики в cредневековой Европе

Белов Н. В., Бойцов М. А., Виноградов А. Ю. и др.

М.: Издательский дом НИУ ВШЭ, 2024.

Статья
Building an Open Corpus and a Morphological Parser for Corpus Annotation for Standard Dargwa

Svetlana Iu. Toldova, Elena O. Sokur.

Journal of Siberian Federal University. Series: Humanities & Social Sciences. 2024. Vol. 17. No. 5. P. 905-915.

Глава в книге
SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification

Rykov E., Zaytsev K., Anisimov I. et al.

In bk.: CLEF 2024 Working Notes. CEUR Workshop Proceedings, 2024. P. 2866-2871.

Препринт
Exploring the Effectiveness of Methods for Persona Extraction
В печати

Konstantin Zaitsev.

arxiv.org. Computer Science. Cornell University, 2024

Методы оценки сложности текстов на есте­ствен­ном языке

Случалось ли вам читать какой-нибудь текст (скажем, текст того или иного закона), и осознавать, что его было бы неплохо перевести "с русского на русский" — настолько трудно понять, о чём именно в нём идёт речь. Но как можно формализовать это ощущение того, что текст — трудный для чтения? И как можно, скажем, сравнить два текста и показать, что один из них труднее другого?

Image by <a href="https://pixabay.com/users/kerttu-569708/?utm_source=link-attribution&utm_medium=referral&utm_campaign=image&utm_content=1151405">kerttu</a> from <a href="https://pixabay.com/?utm_source=link-attribution&utm_medium=referral&utm_campaign=image&utm_content=1151405">Pixabay</a>

Image by kerttu from Pixabay
Free

В 2011 году Президент США Барак Обама выпустил указ, Executive Order, «E.O. 1356 — Improving Regulation and Regulatory Review», согласно которому законы должны быть доступными, написанными простым языком и легко понимаемым. Теперь управление социальной защиты США используют специальное программное обеспечение StyleWriter, которое помогает упрощать тексты, а администрация штата Орегон подстраивает все публикуемые документы до уровня 10 класса. Кроме того, многие государственные учреждения, ведущие дела со сложными документами, проверяют их на понимание с помощью специальных алгоритмов — формул удобочитаемости. 


Формулы удобочитаемости — это алгоритмы, которые предназначены для оценки того, насколько легко (или трудно) читать ваш текст. Некоторые алгоритмы определяют норму сложности определенного текста в соответствии с уровнем образования читателя. Например, газеты должны быть написаны для уровня чтения школьников 9-11 классов, а речи Дональда Трампа должны быть понятны 5-класснику.

Существует несколько способов измерения читабельности текста.

Самый популярный — индекс Флеша. 

Рудольф Флеш — американский писатель, эксперт по удобочитаемости и консультант по письму. Индекс Флеша вычисляется на основе многих параметров, например, длины предложений и слов в слогах, количества редких слов и т.д. Рассчитывается индекс Флеша по такой формуле:

206.835 − 1.015 × ASL − 84.6 × ASW, где

ASL (англ. average sentence length) — средняя длина предложения в словах,

ASW (англ. average number of syllables per word) — средняя длина слова в слогах.

По шкале FRES (англ. Flesch reading ease scale) индекс распределяется от 0 до 100, где 0 — неудобочитаемый текст, предложение в среднем состоит из 37 слов, а 100 — легко читаемый текст, где длина предложения не превышает 15 слов.  

Проверка этой шкалой книг о Гарри Поттере показала, что средний балл всех книг составляет 72,83, то есть книги были написаны простым английским языком, понятным для учащихся средних классов.

 

Шкала Флеша-Кинкейда — это та же формула Флеша, но она была доработана его коллегой Питером Кинкейдом для Военно-морских сил США. Она рассматривает не уровень сложности текста, а уровень образования читателя, при котором чтение текста будет комфортным. При этом она использует те же параметры для оценки сложности, что и шкала Флеша: длину слов и длину предложений. Согласно результатам проверки текстов по шкале Флеша-Кинкейда стихотворение А.С. Пушкина “Зимнее утро” понятно для учащихся 4-6-х классов, то есть детей 9-11 лет. Тем временем большинство статей на “Википедии” очень трудны для восприятия. А российский закон о запрете курения в общественных местах и вовсе могут понять лишь люди с высшим образованием и профессоры.

 

Еще один довольно популярный, особенно в сфере управления, индекс — индекс туманности Ганнинга (фог-индекс). Фог-индекс в основном используется для оценки годовых отчетов.

В этом тесте оцениваются количество слов, количество предложений, количество слов с тремя и более слогами, т.е. сложных слов. Фог-индекс рассчитывается по такой формуле:

0.4x[(В/П)+100x(CC/C)], где

С — количество слов в тексте,

П — количество предложений в тексте,

СС — количество сложных слов.

 

Менее популярный тест — тест Колман-Лиау. В отличие от всех предыдущих тестов, в нем используется не количество слогов, а буквы. В этой формуле удобочитаемости рассчитывается среднее количество букв на слово и среднее количество слов на предложение.

Формула для этого теста выглядит так:

0.0588L − 0.296S − 15.8 , где

L — среднее число букв на 100 слов

S — среднее число предложений на 100 слов

 

Существует еще как минимум 10 тестов для проверки уровня сложности текстов. Изначально все эти меры были созданы только для английского языка. По сравнению с ним в русском языке длина предложения, как правило, короче, а количество слогов в словах больше. Поэтому для русского языка была разработана немного измененная версия с другими индексами. Например, измененная мера Флеша для русского языка выглядит так: 

206,835 − 1,52 × ASL − 65,14 × ASW, де

ASL — средняя длина предложения в словах,

ASW — средняя длина слова в слогах.

 

Проверить текст на сложность и удобочитаемость сегодня можно благодаря многим сайтам, специальным ресурсам и даже в самом Microsoft Word. Помимо этого, существуют интернет-ресурсы, которые предлагают возможности исправления или упрощения текста с помощью подбора синонимов, выделения сложных, повторяющихся слов и канцелярита. Однако пользоваться всеми этими ресурсами необходимо крайне аккуратно, так как зачастую они дают ошибочные результаты, не подстроенные под особенности русского языка.