Разработка правил генерации именных словоформ для новописьменных вариантов карельского языка
Русский
Номер журнала:
Рубрика:
Филология
Информация об авторе:
И. П. Новак Институт языка, литературы и истории Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация,[email protected]
Н. Б. Крижановская Институт прикладных математических исследований Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация,[email protected]
Т. П. Бойко Институт языка, литературы и истории Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация, [email protected]
Н. А. Пеллинен Институт языка, литературы и истории Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация, [email protected]
АННОТАЦИЯ
Введение. Связывание слов текста (токенов) со значениями лемм в словаре корпуса ВепКар существенно облегчает дальнейшую работу по семантической разметке текстов. Для вепсского подкорпуса ВепКар в 2019 г. были разработаны флективные правила, на их основе в корпус была добавлена функция генерации полной парадигмы по базовым словоформам. При пополнении словарными статьями трёх подкорпусов карельского языка редакторам необходимо вводить
большое число словоформ (около 30 для имён и 150 для глаголов), поэтому разработка алгоритма и компьютерной программы генерации словоформ карельского языка оказалась своевременной.
Цель: проиллюстрировать, как с помощью списка основ именных частей речи двух новописьменных наречий карельского языка можно составить правила для автоматической генерации словоформ.
Материалы исследования: леммы и словоформы из Открытого корпуса вепсского и карельского языков, Корпуса Приграничной Карелии, электронной версии Словаря карельского языка.
Результаты и научная новизна. На основе изученных по теоретическим источникам и выявленных в ходе многолетних наблюдений грамматических закономерностей, а также проведённых в исследовании экспериментов сформирован список основ и псевдооснов именного словоизменения, разработана система правил генерации словоформ, написана и проверена соответствующая программа. Научная новизна исследования заключается во впервые предпринимаемой разработке системы единых правил автоматической генерации словоформ для двух наречий карельского языка.
Ключевые слова: карельский язык, новописьменный язык, корпусная лингвистика, морфология, именное слово-изменение, генерация словоформ.
Благодарности: Исследование проведено в рамках выполнения государственного задания КарНЦ РАН. Раздел «Разработка программы генерации» подготовлен Н.Б. Крижановской в рамках проекта РФФИ 18-012-00117. Для цитирования: Новак И. П., Крижановская Н. Б., Бойко Т. П., Пеллинен Н. А. Разработка правил генерации именных словоформ для новописьменных вариантов карельского языка // Вестник угроведения. 2020. Т. 10. № 4. С. 679–691.
Н. Б. Крижановская Институт прикладных математических исследований Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация,[email protected]
Т. П. Бойко Институт языка, литературы и истории Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация, [email protected]
Н. А. Пеллинен Институт языка, литературы и истории Карельского научного центра Российской академии наук, г. Петрозаводск, Российская Федерация, [email protected]
АННОТАЦИЯ
Введение. Связывание слов текста (токенов) со значениями лемм в словаре корпуса ВепКар существенно облегчает дальнейшую работу по семантической разметке текстов. Для вепсского подкорпуса ВепКар в 2019 г. были разработаны флективные правила, на их основе в корпус была добавлена функция генерации полной парадигмы по базовым словоформам. При пополнении словарными статьями трёх подкорпусов карельского языка редакторам необходимо вводить
большое число словоформ (около 30 для имён и 150 для глаголов), поэтому разработка алгоритма и компьютерной программы генерации словоформ карельского языка оказалась своевременной.
Цель: проиллюстрировать, как с помощью списка основ именных частей речи двух новописьменных наречий карельского языка можно составить правила для автоматической генерации словоформ.
Материалы исследования: леммы и словоформы из Открытого корпуса вепсского и карельского языков, Корпуса Приграничной Карелии, электронной версии Словаря карельского языка.
Результаты и научная новизна. На основе изученных по теоретическим источникам и выявленных в ходе многолетних наблюдений грамматических закономерностей, а также проведённых в исследовании экспериментов сформирован список основ и псевдооснов именного словоизменения, разработана система правил генерации словоформ, написана и проверена соответствующая программа. Научная новизна исследования заключается во впервые предпринимаемой разработке системы единых правил автоматической генерации словоформ для двух наречий карельского языка.
Ключевые слова: карельский язык, новописьменный язык, корпусная лингвистика, морфология, именное слово-изменение, генерация словоформ.
Благодарности: Исследование проведено в рамках выполнения государственного задания КарНЦ РАН. Раздел «Разработка программы генерации» подготовлен Н.Б. Крижановской в рамках проекта РФФИ 18-012-00117. Для цитирования: Новак И. П., Крижановская Н. Б., Бойко Т. П., Пеллинен Н. А. Разработка правил генерации именных словоформ для новописьменных вариантов карельского языка // Вестник угроведения. 2020. Т. 10. № 4. С. 679–691.