Компанія Grammarly створила перший GEC-корпус української мови та виклала його у відкритий доступ.
Цей корпус створений для виправлення граматичних помилок (GEC розшифровується як Grammatical Error Correction) і дослідження мови. Група волонтерів написала понад тисячу різножанрових текстів (понад 20 000 речень) — есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Цей масив потім опрацювали українські лінгвісти: позначили помилки й вказали, як їх виправити.
Тепер усі ці дані можна застосовувати для вивчення мови, досліджень, оптимізації застосунків. Ще один варіант — створення нових онлайн-систем для виправлення граматичних помилок.
Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. Створений корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів.
Завантажити GEC-корпус української мови можна на GitHub. Команда Grammarly зазначає, що проєкт буде постійним і його далі наповнюватимуть текстами. Щоб допомогти, можна написати власне есе, зробити переклад чи поділитися своїм текстом на сайті UA-GEC.
Ще немає коментарів