Участники НУГ встретились с Фрэнсисом Тайерсом
Участники НУГ обсудили план по созданию парсера чукотского языка в сотрудничестве со специалистом в автоматическом морфологическом анализе.
23 марта участники НУГ встретились с Фрэнсисом Тайерсом, сотрудником Арктического университета Норвегии в Тромсё, разработчиком платформы для машинного перевода Apertium. Фрэнсис — специалист в области автоматического анализа естественного языка, молодой энтузиаст своего дела; некоторое время назад он заинтересовался чукотским — из-за своей уникальной структуры чукотский представляет серьёзный челлендж для компьютерного лингвиста. Участники НУГ вместе с Фрэнсисом будут дорабатывать чукотский парсер — автоматический разметчик, с помощью которого в итоге получится корпус чукотского языка.
Данная работа участникам НУГ уже не в новинку — так, Даша Игнатенко в рамках предыдущей курсовой занималась созданием части парсера, отвечающей за разметку именной морфологии чукотского; работа в итоге получила первый приз на конкурсе НИРС. Катя Герасименко в настоящее время трудится над парсингом инкорпорации, это предмет её курсовой работы текущего учебного года.
Если раньше участники НУГ пытались работать в рамках подхода, который подразумевает написание правил, последовательно применяющихся к языковому материалу, то Фрэнсис предлагает использовать для парсинга трансдьюсер — автомат, в котором одновременно прорабатываются различные стратегии парсинга и в итоге выявляется наиболее оптимальная. Такой подход позволит описать не только прогрессивные, но и регрессивные ассимиляции, а также автоматически разбирать композиты, образованные в результате инкорпорации.
После разработки трансдьюсера можно будет разметить большой корпус из газетных статей, художественной литературы, записей теле- и радиопередач, собранный под руководством сотрудника ИЛИ РАН Марии Юрьевны Пупыниной — флагмана российского чукото-камчатоведения. Однако для доделки и отладки трансдьюсера предстоит ещё решить немало теоретических вопросов, касающихся структуры чукотского языка, а также разобраться с некоторыми более практическими трудностями.