Авторизация
Забыли пароль?
Сброс пароля
Вернуться к авторизации
RUWARD AWARD #1

«Супермаркет данных» в «Сбере»: единое окно для заказа данных с доставкой пользователю

Весь digital-рынок / гран-при Кейс года

1. Вводная задача от заказчика, проблематика, цели

Сбер обладает гигантским массивом данных, получаемых из более 100 источников. Потребителями данных являются data science, аналитики данных, сервисы Сбера, представители бизнеса, которые используют данные для решения различных бизнес-задач от построения моделей для предиктивной аналитики, заканчивая созданием управленческой отчетности в режиме реального времени.

Развитие экосистемы «Сбера» потребовало перехода на новый уровень организации управления данными: возникла необходимость предоставить к ним доступ широкому кругу пользователей внутри компании и реализовать работу с данными, объем которых уже превысил 100 Пбайт, как сервис.

Главной болью была оптимизация работы с огромными массивами данных внутри компании: необходимо было разработать решение, которое позволило бы автоматизировать передачу и получение данных и обеспечило бы внутренним заказчикам легкий и быстрый способ находить нужную информацию, выбирать наиболее релевантную, при этом учитывало бы уровни и контроль доступа.

Цель – сократить time-to-data, упростить доступ к данным пользователей Сбера и при этом повысить контроль за доступом к данным и data governance.

2. Описание реализации кейса и творческого пути по поиску оптимального решения

Команда SberData совместно с командой ADV реализовала проект по созданию решения, которое собирает в себе и автоматизирует рутинные процессы по работе с данными внутри контура Сбера.

Это сложный архитектурный проект с каталогизацией данных и их дистрибуцией (в том числе потоковых данных) в формате подписки, выдерживающий высокие нагрузки, соответствующий требованиям кибербезопасности и реализованный в формате удобного и интуитивного self-сервиса.

Сегодня Супермаркет Данных используется для ряда промышленных трактов и снабжает разнородными данными от более чем 300 типов поставщиков данных витрины и аналитические решения бизнес блоков Сбера. Ежедневно через Супермаркет данных проходит около 3 Пб данных, включающих более 70 тыс. таблиц и миллиона атрибутов. И эти цифры продолжают расти.

С очень верхнего уровня, Супермаркет Данных состоит всего лишь из двух компонент:

- Портала, который является пользовательским представлением решения, содержит каталог данных и управляет контрактами на поставки данных

- Ядра, которое не имеет интерфейса и выполняет саму техническую поставку данных согласно зафиксированному контакту, как пакетную, в формате snapshot и diff, так и поставку в потоковом режиме данных около реального времени

Каждая из компонент при более детальном рассмотрении имеет кучу различных интеграций с внутренними системами. Портал, например, поддерживает регулярное получение метаданных и управляет процессом согласования доступа к заказанным данных. А Ядро, из главного, поддерживает защиту данных по технологиям токенизирования и набор различных площадок распространения, позволяя получать данные решениям, реализованных на разных платформах и с использованием различных технологических стеках, скрывая от пользователя всю эту сложную техническую логику.

Важные фичи:

  • Каталогизация доступных данных разных видов с возможностью поиска и фильтрации
  • Поставка данных в пакетном режиме как в виде snapshot, так и в формате diff, по расписанию и по факту обновления данных
  • Потоковая поставка обновлений данных в режиме near-real time
  • Доступ к чувствительным данным с использованием концепции тегирования
  • Единый пользовательский сценарий оформления подписки — общего контракта, описывающего метаданные запрошенных данных и условия поставки самих данных
  • Возможность заказа данных с использованием Единого Семантического Слоя (общей логической модели данных всего Сбера, структурированной по предметным областям и наполненной данными из разных источников)
  • Поставка данных в отдельный сервис Сбера, предназначенный для обмена данными с дочерними и зависимыми организациями
  • Поддержка различных сопроводительных процессов и систем, например общего механизма управления пользователями и ролями и централизованного механизма согласования доступа
  • Решение различных бизнес задач по использованию данных: от работы DataScience в «песочнице» до промышленных процессов, обеспечивающих работу ряда критичных пользовательских сервисов

3. Результаты сотрудничества

С бизнес-точки зрения решение позволяет превратить сложный технический поиск данных в удобный и знакомый формат выбора нужных товаров в интернет-магазине, поэтому решение получило название Супермаркет Данных.

Данный сервис, встроенный в инфраструктуру Сбера и поддерживающий единую систему авторизации и механизм согласования доступа пользователей к данным, позволил каталогизировать данные, предоставил удобные инструменты поиска, трансформации, и фильтрации данных, подписки на данные, пользователи могут получать необходимые данные в пакетном и потоковом режиме, а защита чувствительных данных обеспечивается при помощи токенизации и шифрования.

У Сбера, как и у многих других крупных компаний, огромное количеством данных разных форматов и глубины, которые хранятся в разных местах. На поиск необходимой информации у потребителей данных уходило много времени: найти источник данных, получить доступ, преобразовать в нужный формат, обеспечить регулярную доставку/получение данных и валидацию качества данных.

Стандартный сценарий поиска информации представлял собой поход по начальникам департаментов, формирование договоренностей и согласование получения доступов. При этом владельцы данных могли не знать о том, что кому-то вообще нужны данные, тем более в определенном формате, с определенной регулярностью, что их данные могут быть недостаточно качественными и тп. Даже после того, как данные были найдены и доступ был получен, для каждого такого потока данных должно было быть спроектировано и согласовано технологическое решение.

Если раньше для получения данных требовался опытный ИТ-специалист, то теперь процесс доступен любому сотруднику. Более того, прежде даже специалисту на поиск, доступ и выгрузку данных требовалось до 60 дней, а сейчас процесс занимает не более трех часов. Супермаркет данных снабжает разнородными данными от более чем 300 типов поставщиков данных витрины и аналитические решения бизнес блоков Сбера. Ежедневно через Супермаркет данных проходит около 3 Пб данных, включающих более 70 тыс. таблиц и миллиона атрибутов фильтрации.

4. Заключение

Это сложный архитектурный проект с data governance, каталогизацией данных и их дистрибуцией (в том числе потоковых данных) в формате подписки, выдерживающий высокие нагрузки, соответствующий требованиям кибербезопасности и реализованный в формате удобного и интуитивного self-сервиса для компании масштаба Сбера является уникальным для России.

На момент старта проекта были коробочные решения подобного формата, но в контуре Сбера, где уже существовала Фабрика данных со своими процессами, реализованными сервисами и гигантскими объемами колоссального разнообразия данных (один лишь каталог данных сейчас составляет более полутора миллионов элементов), они были не работоспособны. Исходя из этого было принято единственное и правильное решение — разрабатывать Супермаркет данным самим.

Результаты голосования

Средний балл: 8

Берегулина Светлана - оценка 10

Терехов Антон - оценка 10

Фролов Дмитрий - оценка 7

Десятых Макс - оценка 5

Лазарева Юлия - оценка 8

Тютюников Владислав - оценка 8

Кондратьева Екатерина - оценка 8