IBM представила свою нову розробку у галузі штучного інтелекту — CodeNet. Це набір даних, створений, щоб навчити ШІ та системи машинного навчання аналізувати й перекладати код.
CodeNet містить понад 14 млн фрагментів з 500 млн рядків коду, написаних 55 мовами. Серед них є застарілі й сучасні: від Java, Go чи C до COBOL, FORTRAN або Pascal. Проєкт опублікований на GitHub і поширюється під ліцензією Apache 2.0.
Основою для набору даних став код, надісланий на японські онлайн-конкурси з програмування: AIZU Online Judge й AtCoder. Приблизно половина цих фрагментів працює як слід, інша ж половина позначена як неправильна (або є вказівка, що це код з помилками).
IBM хоче, щоб CodeNet став новим ImageNet — це база даних зображень, на якій тренують застосунки комп'ютерного зору. Набір IBM міг би навчити ШІ робити те саме з кодом — розуміти, як він виглядає, як його порівнювати і як відрізняти правильний від неправильного.
Це можна використовувати для інших інструментів розробки, пошуку помилок й вдалих реалізацій, аналізу й виправлення коду тощо. В компанії сподіваються, що CodeNet стане еталонним набором для перекладу коду з застарілих на сучасні мови — і це прискорить розвиток й застосування ШІ.
Ще немає коментарів