Извлечение коллокаций из корпуса украинских текстов
Extracting the collocation from corpus of Ukrainian texts
Author(s): Tatyana BobkovaSubject(s): Applied Linguistics, Computational linguistics
Published by: Kauno Technologijos Universitetas
Keywords: collocation; text; body; extraction; identification; linguistic approach; case-oriented approach
Summary/Abstract: В статье описывается методика извлечения двусловных коллокаций из корпуса украинских законодательных текстов. Существующие методики выделения коллокаций основываются на подходах, отличающихся критериями идентификации и последовательностью применяемых процедур. В работе обосновывается необходимость использования корпусно-ориентированного подхода, основанного на идентификации коллокации как статистически значимой единицы и применении корпусных методов обработки текстов. Коллокация определяется как неслучайное сочетание двух слов, регулярно встречающихся вместе, и характерное как для текстов определенного функционального стиля, так и для языка в целом. Разработанная методика идентификации двусловных коллокаций, позволяет на основе статистической обработки и использования программ лемматизации автоматически извлекать устойчивые двухсловные сочетания из подкорпуса украинских текстов. Результаты извлечения нуждаются в последующем редактировании с целью снятия омонимии и определения грамматически правильных коллокаций. Повышение эффективности результатов автоматического формирования списка обеспечит применение большего по объему корпуса текстов и лингвистических фильтров идентификации коллокаций.
Journal: Kalbų Studijos
- Issue Year: 2015
- Issue No: 27
- Page Range: 93-105
- Page Count: 13
- Language: Russian