Digital-кейс дня

Развернули MLOps-платформу для эффективного управления GPU-ресурсами научного центра

18 мая ‘26

Заказчик: RElab
Страница кейса/результат: https://evrone.ru/portfolio/relab

Evrone разработала MLOps-инфраструктуру для научного центра RElab на базе Kubernetes и open-source решений. Платформа позволила централизованно распределять GPU-ресурсы, запускать вычисления параллельно и значительно повысить эффективность использования дорогостоящего оборудования.

Агентство-исполнитель кейса

Evrone

Evrone помогает компаниям строить масштабируемые AI- и DevOps-платформы на базе open-source технологий. Мы проектируем инфраструктуру, автоматизируем процессы и создаем надежные решения для высоконагруженных вычислений и ML-задач.

Заказать похожий проект:

https://evrone.ru/
mail@evrone.com

Сделать заказ

1. Вводная задача от заказчика, проблематика, цели

RElab — научно-исследовательский центр, работающий с задачами машинного обучения, криптографии, анализа данных и искусственного интеллекта. Для вычислений компания использует собственный парк GPU-серверов с профессиональными видеокартами высокой стоимости.

Основная проблема заключалась в неэффективном использовании оборудования. Большинство задач задействовали только часть мощности GPU, однако инфраструктура резервировала видеокарту целиком. В результате значительная часть вычислительных ресурсов простаивала.

Дополнительной сложностью стало распределение доступа между подразделениями. Управление GPU происходило вручную, без централизованного контроля и прозрачной системы планирования.

Перед командой Evrone стояли следующие задачи:

повысить коэффициент использования GPU-оборудования;
реализовать безопасное разделение ресурсов между командами и задачами;
обеспечить централизованное управление доступом;
построить инфраструктуру исключительно на open-source решениях;
сохранить возможность дальнейшего масштабирования платформы;
автоматизировать развертывание и сопровождение среды.

Проект также предполагал работу в условиях повышенных требований к безопасности и полного размещения инфраструктуры на стороне заказчика.

DevOps сопровождение проектов

Разработка на Elixir

Разработка на Golang

2. Описание реализации кейса и творческого пути по поиску оптимального решения

На старте проекта команда Evrone провела исследование существующих подходов к совместному использованию GPU-ресурсов. Инженеры анализировали совместимость решений с различными типами видеокарт и тестировали несколько сценариев распределения вычислительных мощностей.

Мы рассматривали два основных подхода:

разделение GPU по вычислительным ресурсам и памяти;
time-slicing — поочередное использование GPU несколькими задачами.

После серии тестов была выбрана архитектура на базе Kubernetes с поддержкой гибкого шаринга GPU-ресурсов через MIG и time-slicing в зависимости от особенностей оборудования.

В рамках проекта команда Evrone:

развернула Kubernetes-кластер для управления вычислительной инфраструктурой;
реализовала централизованное распределение GPU между пользователями и задачами;
автоматизировала настройку среды с помощью Ansible;
внедрила GitOps-подход через FluxCD;
настроила единую систему авторизации на базе Keycloak;
реализовала политики безопасности через Kyverno;
подключила стек мониторинга Prometheus, Loki, Vector и Grafana;
внедрила Ray.io и Ray Serve для распределенных вычислений и ML-инференса;
подготовила документацию и процессы самостоятельного сопровождения платформы командой заказчика.

Особое внимание уделялось отказоустойчивости и независимости от вендоров. Вся система построена на open-source компонентах и может масштабироваться без привязки к конкретным коммерческим решениям.

Проект реализовывался в тесной интеграции с инженерной командой клиента. Это позволило оперативно тестировать гипотезы на реальном оборудовании и быстро адаптировать архитектуру под требования исследовательской среды.

Цифровая трансформация

Разработка AI (ИИ) решений для бизнеса

Разработка на Python

3. Результаты сотрудничества

В результате проекта RElab получила полноценную MLOps-платформу для централизованного управления GPU-ресурсами.

Ключевые результаты проекта:

существенно снижены простои дорогостоящего GPU-оборудования;
реализован параллельный запуск вычислительных задач;
повышена эффективность использования вычислительных мощностей;
автоматизировано управление инфраструктурой;
обеспечен единый контур авторизации и контроля доступа;
внедрена прозрачная система мониторинга и наблюдаемости;
создана масштабируемая open-source платформа без vendor lock-in;
команда заказчика получила возможность самостоятельно разворачивать и сопровождать инфраструктуру.

Проект был реализован в сжатые сроки — за два месяца команда Evrone провела исследование, спроектировала архитектуру, развернула инфраструктуру и подготовила платформу к продуктивной эксплуатации.

Аутсорсинг разработчиков

Разработка образовательных платформ и СДО

Машинное обучение в бизнесе

4. Заключение

Проект для RElab стал примером того, как современные DevOps- и MLOps-практики позволяют эффективно использовать дорогостоящую вычислительную инфраструктуру без перехода на закрытые enterprise-решения.

Команда Evrone помогла заказчику создать гибкую и масштабируемую платформу, которая отвечает требованиям безопасности, поддерживает развитие ML-направления и позволяет централизованно управлять GPU-ресурсами на уровне всей организации.

Сегодня мы продолжаем развивать экспертизу в области AI-инфраструктуры, Kubernetes и MLOps, помогая компаниям выстраивать надежные платформы для машинного обучения и высоконагруженных вычислений.