Авторизация
Сброс пароля
Развернули MLOps-платформу для эффективного управления GPU-ресурсами научного центра
Заказчик: RElab
Страница кейса/результат: https://evrone.ru/portfolio/relab

Evrone разработала MLOps-инфраструктуру для научного центра RElab на базе Kubernetes и open-source решений. Платформа позволила централизованно распределять GPU-ресурсы, запускать вычисления параллельно и значительно повысить эффективность использования дорогостоящего оборудования.
1. Вводная задача от заказчика, проблематика, цели
RElab — научно-исследовательский центр, работающий с задачами машинного обучения, криптографии, анализа данных и искусственного интеллекта. Для вычислений компания использует собственный парк GPU-серверов с профессиональными видеокартами высокой стоимости.
Основная проблема заключалась в неэффективном использовании оборудования. Большинство задач задействовали только часть мощности GPU, однако инфраструктура резервировала видеокарту целиком. В результате значительная часть вычислительных ресурсов простаивала.
Дополнительной сложностью стало распределение доступа между подразделениями. Управление GPU происходило вручную, без централизованного контроля и прозрачной системы планирования.
Перед командой Evrone стояли следующие задачи:
- повысить коэффициент использования GPU-оборудования;
- реализовать безопасное разделение ресурсов между командами и задачами;
- обеспечить централизованное управление доступом;
- построить инфраструктуру исключительно на open-source решениях;
- сохранить возможность дальнейшего масштабирования платформы;
- автоматизировать развертывание и сопровождение среды.
Проект также предполагал работу в условиях повышенных требований к безопасности и полного размещения инфраструктуры на стороне заказчика.
2. Описание реализации кейса и творческого пути по поиску оптимального решения
На старте проекта команда Evrone провела исследование существующих подходов к совместному использованию GPU-ресурсов. Инженеры анализировали совместимость решений с различными типами видеокарт и тестировали несколько сценариев распределения вычислительных мощностей.
Мы рассматривали два основных подхода:
- разделение GPU по вычислительным ресурсам и памяти;
- time-slicing — поочередное использование GPU несколькими задачами.
После серии тестов была выбрана архитектура на базе Kubernetes с поддержкой гибкого шаринга GPU-ресурсов через MIG и time-slicing в зависимости от особенностей оборудования.
В рамках проекта команда Evrone:
- развернула Kubernetes-кластер для управления вычислительной инфраструктурой;
- реализовала централизованное распределение GPU между пользователями и задачами;
- автоматизировала настройку среды с помощью Ansible;
- внедрила GitOps-подход через FluxCD;
- настроила единую систему авторизации на базе Keycloak;
- реализовала политики безопасности через Kyverno;
- подключила стек мониторинга Prometheus, Loki, Vector и Grafana;
- внедрила Ray.io и Ray Serve для распределенных вычислений и ML-инференса;
- подготовила документацию и процессы самостоятельного сопровождения платформы командой заказчика.
Особое внимание уделялось отказоустойчивости и независимости от вендоров. Вся система построена на open-source компонентах и может масштабироваться без привязки к конкретным коммерческим решениям.
Проект реализовывался в тесной интеграции с инженерной командой клиента. Это позволило оперативно тестировать гипотезы на реальном оборудовании и быстро адаптировать архитектуру под требования исследовательской среды.
3. Результаты сотрудничества
В результате проекта RElab получила полноценную MLOps-платформу для централизованного управления GPU-ресурсами.
Ключевые результаты проекта:
- существенно снижены простои дорогостоящего GPU-оборудования;
- реализован параллельный запуск вычислительных задач;
- повышена эффективность использования вычислительных мощностей;
- автоматизировано управление инфраструктурой;
- обеспечен единый контур авторизации и контроля доступа;
- внедрена прозрачная система мониторинга и наблюдаемости;
- создана масштабируемая open-source платформа без vendor lock-in;
- команда заказчика получила возможность самостоятельно разворачивать и сопровождать инфраструктуру.
Проект был реализован в сжатые сроки — за два месяца команда Evrone провела исследование, спроектировала архитектуру, развернула инфраструктуру и подготовила платформу к продуктивной эксплуатации.
4. Заключение
Проект для RElab стал примером того, как современные DevOps- и MLOps-практики позволяют эффективно использовать дорогостоящую вычислительную инфраструктуру без перехода на закрытые enterprise-решения.
Команда Evrone помогла заказчику создать гибкую и масштабируемую платформу, которая отвечает требованиям безопасности, поддерживает развитие ML-направления и позволяет централизованно управлять GPU-ресурсами на уровне всей организации.
Сегодня мы продолжаем развивать экспертизу в области AI-инфраструктуры, Kubernetes и MLOps, помогая компаниям выстраивать надежные платформы для машинного обучения и высоконагруженных вычислений.


