Dynamics of Language Change: The Case of Polish barzo > bardzo
Dynamics of Language Change: The Case of Polish barzo > bardzo
Author(s): Rafał L. GórskiSubject(s): Language and Literature Studies, Theoretical Linguistics, Applied Linguistics, Historical Linguistics
Published by: Wydawnictwo Uniwersytetu Jagiellońskiego
Keywords: historical linguistics; language change; Middle Polish; corpus linguistics; Piotrowski’s law; logistic regression; językoznawstwo historyczne; zmiana językowa; okres średniopolski; językoznawstwo korp
Summary/Abstract: The paper discusses the benefits and shortcomings of modelling a language change with logistic regression, an approach often called the Piotrowski-Altmann law. It is shown with an example of an isolated change, which occurred in Middle Polish, namely barzo > bardzo. The study is based on a historical corpus of Polish consisting of several hundreds of texts with over 12 million running words. Logistic regression based on the entire dataset shows relatively high goodness of fit, still there are some data points, especially close to the end of the process, which are quite far removed from the idealised trajectory. In the article, the author seeks to answer the question: to what extent the quality of the corpus affects the model. An experiment was conducted: a number of texts were randomly removed in order to create a smaller corpus, containing 90%, 75% and 50% of the texts of the entire set. Since such procedure is repeated 200 times, it is possible to compare the distribution of the scores indicating the goodness of fit of the model. It turns out that the smaller the corpus, the more diverse the goodness of fit, and in some rare cases it is even better than its counterpart for a larger corpus. Still the larger the corpus, the scores indicating goodness of fit tend to be higher. [W artykule omówiono korzyści płynące z modelowania zmiany językowej za pomocą regresji logistycznej, a także ograniczenia tej metody. Fakt, że zmiana taka powinna dać się opisać we wspomniany sposób, jest nazywany prawem Piotrowskiego-Altmanna. Ilustrujemy to przykładem izolowanej zmiany, jaka wystąpiła w języku średniopolskim, a mianowicie przejściem barzo > bardzo. Dane pozyskano z historycznego korpusu języka polskiego składającego sięz kilkuset tekstów i liczącego około 12 milionów słów. Regresja logistyczna oparta na całym zbiorze danych wykazuje dobre dopasowanie, wciąż jednak istnieją pewne punkty, szczególnie pod koniec procesu, które są doś ćdaleko od wyidealizowanej trajektorii. W artykule autor stara się odpowiedzieć na pytanie, w jakim stopniu jakość korpusu wpływa na model. W tym celu przeprowadzano eksperyment: z istniejącego korpusu usuwana jest losowo pewna liczba tekstów, tak aby stworzyć mniejsze korpusy zawierające 90%, 75% i 50% tekstów korpusu wyjściowego. Ponieważ taką procedurę powtarza się 200 razy, możliwe jest porównanie rozkładu wyników wskazujących na dopasowanie modelu. Wyniki wskazują, że im mniejszy korpus, tym większy rozrzut miary dobroci dopasowania, w skrajnych wypadkach nawet lepszy niż dla pełnego korpusu. Większe korpusy dają jednak na ogół lepsze wyniki dopasowania.]
Journal: Studies in Polish Linguistics
- Issue Year: 16/2021
- Issue No: 3
- Page Range: 145-162
- Page Count: 18
- Language: English