ШІ від Google визначає ефективність моделей машинного навчання

2 хв. читання

Дослідники Google створили штучний інтелект, що аналізує моделі машинного навчання і визначає, які працюватимуть найкраще. Технологія базується на методах Off-Policy Classification (або OPC) — оцінювання продуктивності агентів, керованих ШІ, на основі попередніх даних.

Для тренування агентів зазвичай використовується навчання з підкріпленням (далі RL). Це база, що дає змогу агентам робити вибір на основі попереднього досвіду.

Одним з багатьох варіантів такого навчання є off-policy RL. Агент вчиться на двох типах даних: тих, які зібрали інші агенти, і тих, котрі він набув сам. Другі — це зазвичай навички, на кшталт хапання чи ходьби.

Протилежний йому метод fully off-policy RL передбачає, що агент повністю вчиться на попередньо зібраних даних. Це означає, не потрібно використовувати фізичного робота. Можна навчити декілька моделей на одному і тому ж фіксованому наборі даних, а тоді вибрати найкращу.

Здавалося б оптимальний метод, але є недоліки. Якщо тренування можна проводити без робота, то оцінювання моделей — ніяк. Щоб перевірити ефективність, треба побачити модель в дії. А оцінювання за допомогою фізичних роботів не доцільне, коли треба проаналізувати багато моделей.

Тож вчені розробили штучний інтелект, щоб аналізути моделі й тестувати на роботах тільки найперспективніші.

Передбачається, що немає випадковостей і під час експерименту всі дії призводять або до успіху, або до провалу. Кожна дія отримує позначку «ефективна» чи «катастрофічна». Зрештою обираються лише ті моделі, які працюють найкраще. З цим методом можна проводити масштабні експерименти й не витрачатись на роботів.

Детальніше з методом можна ознайомитись за посиланням.

Помітили помилку? Повідомте автору, для цього достатньо виділити текст з помилкою та натиснути Ctrl+Enter
Codeguida 5.8K
Приєднався: 8 місяців тому
Коментарі (0)

    Ще немає коментарів

Щоб залишити коментар необхідно авторизуватися.

Вхід / Реєстрація