Google випустив TensorFlow.Text, бібліотеку для первинної обробки мовних моделей з TensorFlow (платформа машинного навчання з відкритим вихідним кодом, створена командою Google Brain і завантажена 41 мільйон разів).
Бібліотеку TensorFlow.Text можна встановити з PIP; за допомогою спеціальних символів (токенів) можна розділяти та аналізувати тексти зі слів, цифр і знаків пунктуації. TensorFlow.Text розпізнає пробіли, символи Unicode і послідовності фрагментів слів (як префікси та суфікси); Google називає ці фрагменти wordpieces.
Передбачені опції для нормалізації, застосування n-грам та обмеження послідовностей для маркування (sequence constraints for labeling).
У токенайзерах TensorFlow.Text використовуються RaggedTensors, новий різновид тензора для розпізнавання тексту. Підтримку RaggedTensors та Unicode для TensorFlow вперше описав розробник Google Марк Омернік (Mark Omernick):
У березні компанія випустила новий реліз фреймворку — TensorFlow 2.0. Розробники кажуть, що спеціалізовані бібліотеки TensorFlow.Text і TensorFlow.Graphics допоможуть людям глибше використовувати машинне навчання для вирішення своїх задач.
Ще немає коментарів