Мы используем файлы cookies для улучшения работы сайта НИУ ВШЭ и большего удобства его использования. Более подробную информацию об использовании файлов cookies можно найти здесь, наши правила обработки персональных данных – здесь. Продолжая пользоваться сайтом, вы подтверждаете, что были проинформированы об использовании файлов cookies сайтом НИУ ВШЭ и согласны с нашими правилами обработки персональных данных. Вы можете отключить файлы cookies в настройках Вашего браузера.
Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4
Телефон: +7 (495) 772-95-90 доб. 22734
E-mail: ling@hse.ru
Редакторы сайта — Наталья Борисовна Пименова, Татьяна Борисовна Казакова, Максим Олегович Бажуков, Юлия Геннадьевна Бадрызлова
Школа лингвистики была образована в декабре 2014 года. Сотрудники школы преподают на образовательных программах по теоретической и компьютерной лингвистике в бакалавриате и магистратуре. Лингвистика, которой занимаются в школе, — это не только знание иностранных языков, но прежде всего наука о языке и о способах его моделирования. Научные группы школы занимаются исследованиями в области типологии, социолингвистики и ареальной лингвистики, корпусной лингвистики и лексикографии, древних языков и истории языка. Кроме того, в школе создаются лингвистические технологии и ресурсы: корпуса, обучающие тренажеры, словари и тезаурусы, технологии для электронного представления текстов культурного наследия.
Bangkok: Association for Computational Linguistics, 2024.
Turkish Studies. 2025. P. 1-31.
В кн.: Двадцать первая конференция по типологии и грамматике для молодых исследователей: тезисы докладов. Санкт-Петербург, 21–23 ноября 2024 г.. ИЛИ РАН, 2024. С. 14-17.
arxiv.org. Computer Science. Cornell University, 2024
Я проходил практику в компании «Гарант». Компания занимается информационно-правовым обеспечением, по сути, там такой маленький «Яндекс» для юристов.
Я попал в отдел Research and Development, в этом отделе почти не пишут код, а в основном генерят идеи. Потом хорошие идеи отдают программистам, которые их реализовывают.
Мне дали отдельную задачу на весь месяц и ни в чем меня не ограничивали. У компании есть база судебных решений, она постоянно пополняется, и меня попросили сделать инструмент, который автоматически извлекал бы стороны (истец, ответчик) и потом классифицировал их по признаку государственная/негосударственная организация.
Выяснилось, что какими-то простыми правилами этого не сделать - судья из Хабаровска напишет одним способом, судья из Самары другим, судья из Ульяновска - третьим. Сделать для судей стандартный шаблон, где в определенное место вписывались бы стороны, никто не додумался. В итоге мне пришлось создать комбинированное решение, которое, в частности, опиралось на базу ОГРН (для ее обкачивания пришлось освоить асинхронное программирование). Работающее решение на Python я отдал нашим разработчикам.
Я проходил практику там же, где работаю - в Лаборатории Касперского. Вообще я попал туда как человек, способный отличить шведское порно от шведского «непорно» (по образованию я переводчик и преподаватель шведского языка). Да-да, в компании есть люди, которые получают деньги за то, что целыми днями изучают порнографический контент на разных языках. Потом это используется в «Родительском контроле» .
Кстати, речь идет не только о порнографии, есть десятки разных типов опасного контента. Например, серьезную опасность представляют интернет-магазины, где ребенок может купить много всего на привязанную к аккаунту родительскую карту.
Во время практики мы исследовали возможности автоматической классификации такого опасного контента с использованием методов машинного обучения. Когда у меня уже была версия на Python, программисты сказали, что это они к себе встраивать не будут, так как у них все на C#. Пришлось за неделю освоить С# и переписать программу на нем.
Мы с Мишей Поповым практиковались в НИИ КВАНТ. Я занималась извлечением англицизмов в русскоязычных соцсетях. Новые заимствования (айфон, селфи, скрапбукинг и т.п.) - серьезная проблема для задач автоматической обработки языка, поскольку они, как правило, не успевают попадать в словари, анализаторы ошибаются в определении их морфологической парадигмы. Вопрос в том, как их найти.
Поскольку написание англицизмов может варьироваться, мы пытались реконструировать звучание слова и совмещали в нашем методе фонетику с морфологией. Далее мы пытались отфильтровать кандидатов в англицизмы методами дистрибутивной семантики. В конце получился сложный алгоритм, я удивилась, но там даже нейронные сети появились. По итогам работы мы написали статью, которая подана на конференцию AINL.
У меня в НИИ КВАНТ была другая задача, связанная с разрешением омонимии в привязке к Википедии. Для определения семантической близости слов и классификации текстов успешно применяется модель дистрибутивной word2vec, однако омонимичные, то есть имеющие несколько разных значений слова, затрудняют ее использование. Каждое слово представляется в виде семантического вектора, и для многозначных слов получается склеенный вектор многих значений, что искажает картину.
Чтобы решить эту проблему, я применил адаптивную модель adagram, которая позволяет разделять значения слова и затем присваивать им отдельные вектора. Однако проблема состояла в том, что Adagram написан на не очень распространенном языке Julia, для которого мало инструментов для работы с текстом. Поэтому мне пришлось переписывать часть алгоритма на Python и немного «поженить» Python и Julia.
Я практиковалась в компании Semantic Hub. Решала задачу извлечения информации из базы патентов на изобретения. Пришлось много нового изучить в Python, в том числе, например, библиотеки для проектирования графических интерфейсов.
Моя практика проходила в компании «Паблик» - это база СМИ, которая не только предоставляет доступ по подписке к своим коллекциям, но и сама делает аналитику по текстам, занимается медиамониторингом. А еще одновременно с этим я принимала участие в Google Summer of Code - это стипендиальная программа Google по программированию. Google отбирает компании и проекты, где люди занимаются open-source разработкой, а затем объявляет конкурс на участие в этих проектах. Желающих очень много, поэтому они проходят довольно серьезный отбор, нужно показать, что ты владеешь нужными именно в этом проекте навыками, знаниями, технологиями.
Я участвовала в проекте Apertium - это система правилового машинного перевода, которая стремится в первую очередь связать пары языков, для которых нет Google-переводчика. Я разрабатывала проект по переводу между испанским и сицилийским. Итальянцы читают просторечным, но на самом деле этот язык имеет статус полного языка. Мне нужно было создать словари и машинные грамматики в том формате, который требуется для Apertium, и в конечном счете добиться хорошего качества работы переводчика. Найти грамматики для сицилийского оказалось непросто: я писала в различные европейские университеты, и в итоге мне ответили из Мюнхена - там нашелся студент-сицилиец, обучающийся по программе DAAD. Он-то и прислал мне отсканированную грамматику сицилийского языка.