• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Участники НУГ встретились с Фрэнсисом Тайерсом

Участники НУГ обсудили план по созданию парсера чукотского языка в сотрудничестве со специалистом в автоматическом морфологическом анализе.

23 марта участники НУГ встретились с Фрэнсисом Тайерсом, сотрудником Арктического университета Норвегии в Тромсё, разработчиком платформы для машинного перевода Apertium. Фрэнсис — специалист в области автоматического анализа естественного языка, молодой энтузиаст своего дела; некоторое время назад он заинтересовался чукотским — из-за своей уникальной структуры чукотский представляет серьёзный челлендж для компьютерного лингвиста. Участники НУГ вместе с Фрэнсисом будут дорабатывать чукотский парсер — автоматический разметчик, с помощью которого в итоге получится корпус чукотского языка. 

Данная работа участникам НУГ уже не в новинку — так, Даша Игнатенко в рамках предыдущей курсовой занималась созданием части парсера, отвечающей за разметку именной морфологии чукотского; работа в итоге получила первый приз на конкурсе НИРС. Катя Герасименко в настоящее время трудится над парсингом инкорпорации, это предмет её курсовой работы текущего учебного года. 

Если раньше участники НУГ пытались работать в рамках подхода, который подразумевает написание правил, последовательно применяющихся к языковому материалу, то Фрэнсис предлагает использовать для парсинга трансдьюсер — автомат, в котором одновременно прорабатываются различные стратегии парсинга и в итоге выявляется наиболее оптимальная. Такой подход позволит описать не только прогрессивные, но и регрессивные ассимиляции, а также автоматически разбирать композиты, образованные в результате инкорпорации. 

После разработки трансдьюсера можно будет разметить большой корпус из газетных статей, художественной литературы, записей теле- и радиопередач, собранный под руководством сотрудника ИЛИ РАН Марии Юрьевны Пупыниной — флагмана российского чукото-камчатоведения. Однако для доделки и отладки трансдьюсера предстоит ещё решить немало теоретических вопросов, касающихся структуры чукотского языка, а также разобраться с некоторыми более практическими трудностями.