Abstract:
Програми перевірки орфографії створюються для того, щоб контролювати та виправляти помилки в документі користувача. Робота таких програм базується на порівнянні кожного набраного слова зі списком правильно написаних слів та використанні алгоритмів визначення коректного написання. У статті розглядаються та аналізуються технології створення програми перевірки орфографії, а також методика навчання студентів цих технологій. Досліджено програму контролю правопису, написану Пітером Норвігом, та визначено шляхи модифікації цієї програми для опрацювання текстів українською мовою. Запропоновано підхід до реалізації мовної моделі, тобто створення списку правильно написаних слів, заснований на використанні матеріалів «Браунського корпусу української мови».
Визначено особливості побудови регулярного виразу для виокремлення слів із тексту українською мовою. У ролі матеріалу для тестування програми перевірки орфографії використано тексти, що містять субтитри українською мовою, які створено у межах волонтерського перекладацького проекту «To Be Announced». Описано програму, що опрацьовує цей текстовий масив з метою перевірки правопису, та проаналізовано отримані результати. Зроблено висновок про те, що отримані результати були коректними, що заохочує до подальших досліджень.
Spell checkers are created to control and correct mistakes in a user document. They are based on the comparison of every word against the spelling dictionary and on the use of correct spelling detection algorithms. The article dwells on technologies of creating spell checker, as well as methods of teaching this technology. Spell checker by Peter Norvig has been studied. Modifications for this program necessary to process Ukrainian texts have been defined. Approach to implementation of language model, that is creating spelling dictionary, based on the Ukrainian Brown Corpus has been suggested. Peculiarities of designing a regular expression for distinguishing words in Ukrainian text have been defined. Texts containing Ukrainian subtitles, created within the volunteer translation project «To Be Announced», have been used as a means of test material for the spell checker. The program that processes this text material in order to check spelling has been described and the obtained results have been analysed. The obtained resulted were concluded to be correct, which encourages further research.
Description:
Рєзіна, О. В. Технології створення програми перевірки орфографії / О.В. Рєзіна, Р. М. Косюг // Інформаційні технології в освіті. – 2019. – № 39 (2). – С. 78-88.