• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
ФКН
Контакты

Адрес: 105066, г. Москва,
Старая Басманная ул., д. 21/4

Как до нас добраться

 

Телефон: +7 (495) 772-95-90 доб. 22734

E-mail: ling@hse.ru

По вопросам, связанным с сайтом: portalhseling@gmail.com

Руководство
Заместитель руководителя Ахапкина Яна Эмильевна
Книга
Proceedings of Third Workshop "Computational linguistics and language science",

Wohlgenannt G., von Waldenfels R., Toldova S. et al.

Iss. 4. EasyChair, 2019.

Статья
Нейрошағир

Orekhov B.

Ватандаш. 2019. No. 2. P. 136-139.

Глава в книге
Genre Classification Problem: in Pursuit of Systematics on a Big Webcorpus

Shavrina T.

In bk.: Proceedings of Third Workshop "Computational linguistics and language science",. Iss. 4. EasyChair, 2019. P. 70-83.

Опасный контент, машинный перевод сицилийского и нейронные сети: магистры Школы лингвистики рассказали о летней практике

В минувший понедельник второкурсники магистерсткой программы "Компьютерная лингвистика" поделились с первым курсом своими впечатлениями от летней практики в IT-компаниях, исследовательских центрах и стартапах.

Михаил Нефёдов

Я проходил практику в компании «Гарант». Компания занимается информационно-правовым обеспечением, по сути, там такой маленький «Яндекс» для юристов.

Я попал в отдел Research and Development,  в этом отделе почти не пишут код, а в основном генерят идеи. Потом хорошие идеи отдают программистам, которые их реализовывают.

Мне дали отдельную задачу на весь месяц и ни в чем меня не ограничивали. У компании есть база судебных решений, она постоянно пополняется, и меня попросили сделать инструмент, который автоматически извлекал бы стороны (истец, ответчик) и потом классифицировал их по признаку государственная/негосударственная организация.

Выяснилось, что какими-то простыми правилами этого не сделать - судья из Хабаровска напишет одним способом, судья из Самары другим, судья из Ульяновска - третьим. Сделать для судей стандартный шаблон, где в определенное место вписывались бы стороны, никто не додумался. В итоге мне пришлось создать комбинированное решение, которое, в частности, опиралось на базу ОГРН (для ее обкачивания пришлось освоить асинхронное программирование). Работающее решение на Python я отдал нашим разработчикам. 

Владислав Тушканов

Я проходил практику там же, где работаю - в Лаборатории Касперского.  Вообще я попал туда как человек, способный отличить шведское порно от шведского «непорно»  (по образованию я переводчик и преподаватель шведского языка). Да-да, в компании есть люди, которые получают деньги за то, что целыми днями изучают порнографический контент на разных языках. Потом это используется в «Родительском контроле» .

Кстати, речь идет не только о порнографии, есть десятки разных типов опасного контента. Например, серьезную опасность представляют интернет-магазины, где ребенок может купить много всего на привязанную к аккаунту родительскую карту.

Во время практики мы исследовали возможности автоматической классификации такого опасного контента с использованием методов машинного обучения. Когда у меня уже была версия на Python, программисты сказали, что это они к себе встраивать не будут, так как у них все на C#. Пришлось за неделю освоить С# и переписать программу на нем.

Алена Феногенова

Мы с Мишей Поповым практиковались в НИИ КВАНТ. Я занималась извлечением англицизмов в русскоязычных соцсетях. Новые заимствования (айфон, селфи, скрапбукинг и т.п.) - серьезная проблема для задач автоматической обработки языка, поскольку они, как правило, не успевают попадать в словари, анализаторы ошибаются в определении их морфологической парадигмы. Вопрос в том, как их найти.

Поскольку написание англицизмов может варьироваться, мы пытались реконструировать звучание слова и совмещали в нашем методе фонетику с морфологией. Далее мы пытались отфильтровать кандидатов в англицизмы методами дистрибутивной семантики.  В конце получился сложный алгоритм, я удивилась, но там даже нейронные сети появились. По итогам работы мы написали статью, которая подана на конференцию AINL.

Михаил Попов

У меня в НИИ КВАНТ была другая задача, связанная с разрешением омонимии в привязке к Википедии. Для определения семантической близости слов и классификации текстов успешно применяется модель дистрибутивной word2vec, однако омонимичные, то есть имеющие несколько разных значений слова, затрудняют ее использование. Каждое слово представляется в виде семантического вектора, и для многозначных слов получается склеенный вектор многих значений, что искажает картину.

Чтобы решить эту проблему, я применил адаптивную модель adagram, которая позволяет  разделять значения слова и затем присваивать им отдельные вектора. Однако проблема состояла в том, что Adagram написан на не очень распространенном языке Julia, для которого мало инструментов для работы с текстом. Поэтому мне пришлось переписывать часть алгоритма на Python и немного «поженить» Python и Julia.

Александра Малашина

Я практиковалась в компании Semantic Hub. Решала задачу извлечения информации из базы патентов на изобретения. Пришлось много нового изучить в Python, в том числе, например, библиотеки для проектирования графических интерфейсов.

Ульяна Сенцова

Моя практика проходила в компании «Паблик» - это база СМИ, которая не только предоставляет доступ по подписке к своим коллекциям, но и сама делает аналитику по текстам, занимается медиамониторингом. А  еще  одновременно с этим я  принимала участие в Google Summer of Code - это стипендиальная программа Google по программированию. Google отбирает компании и проекты, где люди занимаются open-source разработкой, а затем объявляет конкурс на участие в этих проектах. Желающих очень много, поэтому они проходят довольно серьезный отбор, нужно показать, что ты владеешь нужными именно в этом проекте навыками, знаниями, технологиями.

Я участвовала в проекте Apertium - это система правилового машинного перевода, которая стремится в первую очередь связать пары языков, для которых нет Google-переводчика. Я разрабатывала проект по переводу между испанским и сицилийским. Итальянцы читают просторечным, но на самом деле этот язык имеет статус полного языка. Мне нужно было создать словари и машинные грамматики в том формате, который требуется для Apertium, и в конечном счете добиться хорошего качества работы переводчика. Найти грамматики для сицилийского оказалось непросто: я писала в различные европейские университеты, и в итоге мне ответили из Мюнхена - там нашелся студент-сицилиец, обучающийся по программе DAAD. Он-то и прислал мне  отсканированную грамматику сицилийского языка.