Grammarly опублікувала перший GEC-корпус української мови

1 хв. читання

Компанія Grammarly створила перший GEC-корпус української мови та виклала його у відкритий доступ.

Цей корпус створений для виправлення граматичних помилок (GEC розшифровується як Grammatical Error Correction) і дослідження мови. Група волонтерів написала понад тисячу різножанрових текстів (понад 20 000 речень) — есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Цей масив потім опрацювали українські лінгвісти: позначили помилки й вказали, як їх виправити.

Тепер усі ці дані можна застосовувати для вивчення мови, досліджень, оптимізації застосунків. Ще один варіант — створення нових онлайн-систем для виправлення граматичних помилок.

Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. Створений корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів.

Завантажити GEC-корпус української мови можна на GitHub. Команда Grammarly зазначає, що проєкт буде постійним і його далі наповнюватимуть текстами. Щоб допомогти, можна написати власне есе, зробити переклад чи поділитися своїм текстом на сайті UA-GEC.

Помітили помилку? Повідомте автору, для цього достатньо виділити текст з помилкою та натиснути Ctrl+Enter
Codeguida 5.6K
Приєднався: 8 місяців тому
Коментарі (0)

    Ще немає коментарів

Щоб залишити коментар необхідно авторизуватися.

Вхід / Реєстрація