В Bing нашли новый способ сбора качественных данных для обучения ИИ
Исследователи команды поисковика Bing от Microsoft разработали новый метод сбора высококачественных данных для тренировки моделей машинного обучения. В своём блоге и научной работе команда рассказала о системе, которая способна с впечатляющей точностью различать верно и неверно маркированные данные, пишет VentureBeat.
Для тренировки алгоритмов нужно собрать сотни тысяч или миллионов выборок данных и рассортировать их. Часто эту задачу упрощают при помощи поисковиков: составляется список категорий, по каждой из них осуществляется веб-поиск и собираются результаты. Но не все они релевантны, а ошибки в датасетах могут привести к погрешностям и неточностям в модели. Один из способов уменьшить последствия неправильной маркировки — обучить второй алгоритм распознавать и исправлять несоответствия, но и он требует интенсивной обработки, так как модель нужно тренировать для каждой категории.
«Получение достаточного количества высококачественных данных для обучения часто является самым затруднительным этапом создания ИИ-сервисов. Обычно данные, маркированные людьми, достаточно качественны (содержат относительно немного ошибок), но это требует больших затрат — как средств, так и времени. С другой стороны, автоматизированные подходы позволяют удешевить создание массивных датасетов, но и допускают больше ошибок», — отмечают исследователи.
Метод исследователей Bing задействует ИИ-модель, которая способна проверять данные на ошибки в реальном времени. Во время тренировки одна часть системы — вектор вложения классов — учится автоматически отбирать изображения, лучше всего подходящие под заданную категорию. Вторая часть модели— вектор вложения запроса — учится вкладывать эталонные изображения в тот же вектор. Система построена так, что в ходе тренировки эти два вектора сходятся, если изображение подпадает под категорию, и расходятся — если нет.
В итоге система выявляет закономерности, с помощью которых находит релевантные изображения по каждой категории, причём её результаты надёжны, даже если маркировка не проверялась человеком. По словам учёных, этот подход можно использовать с равным успехом применять к видео, тексту или речи.