Компания Itglobal.com, представляющая международное облачное направление корпорации ITG, предоставила GPU-инфраструктуру для обучения моделей машинного обучения одной из российских компаний в сфере финтех. Это решение позволило ускорить запуск новых сервисов, повысить скорость подготовки и обучения моделей, а также устранить инфраструктурные ограничения, которые замедляли работу команд специалистов по машинному обучению и аналитике данных. Клиентом Itglobal.com стала компания из финтех-сектора, развивающая цифровые сервисы в области скоринга, персонализированных предложений и прогнозной аналитики. Для функционирования этих продуктов заказчик регулярно обучал модели машинного обучения на больших массивах транзакционных, поведенческих и CRM-данных. С увеличением числа сервисов и объема данных существующая инфраструктура перестала справляться: обучение моделей занимало слишком много времени, вычислительные ресурсы приходилось распределять между командами, а запуск новых инициатив замедлялся. Развертывание нового собственного on-prem-кластера требовало значительных капитальных вложений и на данном этапе оказалось для заказчика экономически нецелесообразным.
До перехода в облачную GPU-инфраструктуру часть моделей обучалась на CPU-ресурсах, а часть — на локальных GPU с ограниченным доступом. В результате обучение отдельных моделей занимало до 30–36 часов, а командам приходилось долго ждать свободные мощности, выстраивая очередь на доступ к единственному GPU-серверу. Такая последовательная работа снижала скорость проверки гипотез, усложняла A/B-тестирование и увеличивала срок вывода новых ML-сценариев в продакшн. Для решения этой задачи Itglobal.com предоставила заказчику облачную GPU-инфраструктуру на базе Nvidia H200 с несколькими конфигурациями для различных этапов работы — от пилотного тестирования до полноценной production-нагрузки. Выбор H200 был обусловлен спецификой задач заказчика: 141 ГБ памяти HBM3e и высокая пропускная способность позволяют обучать крупные модели без существенных ограничений по размеру пакета данных, а поддержка технологии MIG (разделения одного GPU на несколько изолированных экземпляров) дала возможность нескольким командам работать параллельно на одном графическом процессоре, не мешая друг другу.
На платформе были развернуты среды для обучения моделей классификации, прогнозирования оттока, рекомендательных алгоритмов и задач обработки естественного языка (NLP). Заказчик получил возможность гибко масштабировать ресурсы в зависимости от объема данных и сложности эксперимента, не закупая собственное оборудование и не резервируя мощности под пиковую нагрузку. Переход на GPU Cloud позволил сократить среднее время обучения моделей в 3-5 раз — с десятков часов до 5-7 часов. Время дообучения на обновленных данных уменьшилось с 8–10 часов до 2–3 часов. Благодаря технологии MIG команды перестали ждать в очереди и смогли запускать эксперименты параллельно, что увеличило общее количество проверяемых гипотез более чем на 60%. Срок вывода новых ML-сценариев в продакшн сократился примерно на 40%.
По оценке заказчика, совокупный экономический эффект от отказа от капитальных затрат на собственный GPU-кластер и ускорения запуска цифровых сервисов составил более 14 миллионов рублей в год. «Для проектов, связанных с обучением и дообучением моделей машинного обучения, критичны производительность инфраструктуры, возможность быстро масштабировать ресурсы и гибко подбирать конфигурацию под текущую задачу. Использование GPU Cloud позволяет сократить цикл подготовки моделей, ускорить запуск новых сервисов и эффективнее использовать вычислительные мощности без капитальных вложений в собственную инфраструктуру», — отметил Евгений Свидерский, директор облачного направления Itglobal.com, корпорация ITG.