IBM опублікувала CodeNet: набір даних для перекладу коду через ШІ

1 хв. читання

13 травня 2021

· 1 · 0

IBM представила свою нову розробку у галузі штучного інтелекту — CodeNet. Це набір даних, створений, щоб навчити ШІ та системи машинного навчання аналізувати й перекладати код.

CodeNet містить понад 14 млн фрагментів з 500 млн рядків коду, написаних 55 мовами. Серед них є застарілі й сучасні: від Java, Go чи C до COBOL, FORTRAN або Pascal. Проєкт опублікований на GitHub і поширюється під ліцензією Apache 2.0.

Основою для набору даних став код, надісланий на японські онлайн-конкурси з програмування: AIZU Online Judge й AtCoder. Приблизно половина цих фрагментів працює як слід, інша ж половина позначена як неправильна (або є вказівка, що це код з помилками).

IBM хоче, щоб CodeNet став новим ImageNet — це база даних зображень, на якій тренують застосунки комп'ютерного зору. Набір IBM міг би навчити ШІ робити те саме з кодом — розуміти, як він виглядає, як його порівнювати і як відрізняти правильний від неправильного.

Це можна використовувати для інших інструментів розробки, пошуку помилок й вдалих реалізацій, аналізу й виправлення коду тощо. В компанії сподіваються, що CodeNet стане еталонним набором для перекладу коду з застарілих на сучасні мови — і це прискорить розвиток й застосування ШІ.

Помітили помилку? Повідомте автору, для цього достатньо виділити текст з помилкою та натиснути Ctrl+Enter