• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

 

🧭 Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна

Редакторы сайта — Наталья Борисовна Пименова, Татьяна Брисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова

Статья
Adversarial Attacks and Defenses in Fault Detection and Diagnosis: A Comprehensive Benchmark on the Tennessee Eastman Process
В печати

Pozdnyakov V., Kovalenko A., Makarov I. et al.

IEEE Open Journal of the Industrial Electronics Society. 2024. No. 5. P. 428-440.

Глава в книге
Тест на распознавание книжных заголовков для младших школьников: пилотное исследование

Урывская Д. А., Староверова В. Н., Лопухина А. А. и др.

В кн.: Наука и образование: проблемы и перспективы [Электронный ресурс]: Материалы XXVI Международной научно-практической конференции молодых ученых и студентов, посвящённой 85-летию АГГПУ им. В. М. Шукшина (Бийск, 5 апреля 2024 г.). Бийск: АГГПУ им. В.М. Шукшина, 2024. С. 240-244.

Препринт
Grammar in Language Models: BERT Study

Chistyakova K., Kazakova Tatiana.

Linguistics. WP BRP. НИУ ВШЭ, 2023. No. 115.

От автоматической постановки диагнозов до протестов на Болотной

В минувший четверг в Школе лингвистики прошел мастер-класс заведующего лабораторией "Компьютерная лингвистика и интеллектуальный анализ информации" ИСА РАН Ивана Валентиновича Смирнова. Занятие было посвящено задачам интеллектуального анализа текста с опорой на его семантическое представление,  рассматривались вопросы создания вопросно-ответных систем, извлечения информации и автоматического принятия решений.

 Презентация И.В. Смирнова (PPT, 3.95 Мб)

Первая часть мастер-класса была посвящена интеллектуальному анализу текстов с использованием синтактико-семантического анализа. Стандартный синтаксический анализ позволяет получить лишь формальную структуру связей между элементами предложения, которая напрямую не соотносится с их значением. Так, мы можем говорить о том, что во фразе Мама мыла раму есть некоторая глагольная вершина (мыла), от которой зависят два именных узла - мама и раму, однако для корректного извлечения участников ситуации этого мало. Если же мы добавим в синтаксис семантические роли, т.е. определим, что мама является активным субъектом (агентом, агенсом) действия, а рама - претерпевающим объектом, пациенсом, это уже позволит нам извлекать из текста осмысленную информацию о происходящем событии, производить некоторый логический вывод и т.д. 

 

Результаты такого семантико-синтаксического анализа могут быть представлены в виде графа:

Такое представление текста может быть получено различными способами. В своем выступлении И.В. Смирнов рассказал об опыте применения подходов, основанных на выводе правил из специально составленного семантико-синтаксического словаря, а также на различных способах машинного обучения. При этом он показал, как результаты семантического анализа могут применяться в вопросно-ответных системах для получения ответов на вопросы, заданные на естественном языке.

 

Во второй части мастер-класса речь шла о задачах извлечения информации из научных и медицинских текстах. В первом случае требовалось извлечь из научных статей определения и формулировки научных результатов, выделить в тексте зоны аргументации, соответствующие постановке проблемы, обзору других работ, описанию предложенных в работе методов, результатов экспериментов, а также оценить грамотность текста, уровень использования в нем научной и псевдонаучной лексики. На основании этого предполагается автоматизированное формальное оценивание общего качества научного текста.

Во втором случае необходимо было анализировать клинические записи,, содержащие как числовую (возраст, пол, результаты анализов), так и текстовую (анамнезы, осмотры, эпикризы) информацию. Задача заклчалась в создании системы, позволяющей автоматически диагностировать хронические заболевания, выявлять наиболее значимые признаки и симптомы, а также устанавливать неочевидные, скрытые зависимости в клинических данных. Результаты показали, что анализ текстовых данных дает очень серьезный прирост в качестве диагностики по сравнению с использованием исключительно числовых параметров

Последний сюжет, о котором шла речь на мастер-классе, касался такой горячей темы, как анализ социальных сетей и мониторинг настроений. Система, о которой рассказывал докладчик, измеряла уровень напряженности в сетевых сообществах, опираясь на психолингвистические лексические и семантические признаки. При этом сообщества были изначально разделены на напряженные (политические, в т.ч. националистические) и относительно нейтральные (обсуждение детей, домашних животных, автомобилей). Полученные результаты показали, в частности, что политические протесты зимы 2011-2012 гг. характериовались в первую очередь повышением напряженности в нейтральных сообществах, в остальное время достаточно спокойных и аполитичных.