Page ID: 89921
Is Industry:
Is Category:
Query IDs:
Практика

Как большие компании управляют большими данными

Фото: Unsplash

Объемы данных стремительно растут. Их хранение и обработка требуют значительных финансовых затрат как с точки зрения построения инфраструктуры, так и с учетом дефицита и высокой стоимости труда квалифицированных специалистов. При этом далеко не все данные могут быть полезны. Информацию нужно тщательно подготовить к дальнейшему использованию. CDO2DAY расспросило экспертов, как эти проблемы решаются в крупных компаниях.

Большие данные на рынке

Аналитики IDC в 2021 году оценили объем мирового рынка Big Data и бизнес-аналитики в $215,7 млрд, что на 10,1% больше, чем в 2020 году. Главные потребители больших данных – финансовые организации, дискретное производство и сфера услуг: на них приходится около трети всех затрат. За ними следуют непрерывное производство, телеком и госведомства. В ближайшие годы расходы на Big Data быстрее всего будут расти в телекоммуникационном секторе.

$215,7 млрд
объем мирового рынка Big Data и бизнес-аналитики
59 зеттабайт
объем информации, накопленный в мире в 2020 году

В отчете Data Age Report аналитики IDC отмечают, что в 2020 году объемы информации в мире составили 59 зеттабайт. При этом около 90% этих данных являются реплицированными и лишь 10% – уникальными. В дальнейшем доля реплицированных данных будет только увеличиваться, а значит, что большинство данных потребляется и анализируется, а не генерируется.

К 2025 году в мире будет храниться и обрабатываться около 175 зеттабайт данных. Поставщиками большинства данных станут устройства Интернета вещей и метаданные. Доля информации от частных потребителей будет сокращаться, а от корпоративных – только расти.

Как работать с большими данными

Для работы с большими данными необходимы специальная инфраструктура и компетенции, которые доступны узкому кругу крупных компаний. Сбор и обработка Big Data, создание хранилищ, позволяющих формировать полноценную аналитику, требуют серьезных затрат и высококвалифицированных специалистов, которых на рынке явно не хватает.

Так, в крупнейшем российском ретейлере X5 Retail Group сегодня накоплено более 5 петабайт данных. В компании «Ростелеком» объемы данных также исчисляются петабайтами: они собираются из более чем 200 информационных систем и используются более чем 12 тысячами уникальных пользователей.

«С точки зрения функции «Управление данными» мы стараемся фокусироваться на тех данных, которые на горизонте года могут быть востребованы бизнесом для аналитических и операционных решений. То есть тех данных, которые доступны в контуре хранилища данных».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Эксперты отмечают изменение отношения к большим данным в последние годы: наконец‑то пришло понимание, что делиться ими выгоднее, чем просто хранить. Вместе с тем для многих компаний по-прежнему характерно стремление собрать все данные в единый репозиторий, а уже потом решать, что с ними делать. Но такой подход неэффективен: прежде чем создавать хранилище, надо подумать об управлении данными и их безопасности.

Как организовать управление
данными

В «Ростелекоме» подразделения по управлению данными, входящие в состав ИТ-блока, отвечают за весь цикл работы с данными: инфраструктуру работы с данными, построение хранилища данных, архитектуру данных, внедрение систем мастер-данных, построение аналитики и отчетности, построение решений с использованием технологий искусственного интеллекта, монетизацию данных и разработку data-продуктов для внешнего рынка.

«Технологические задачи решаются силами ИТ-блока за счет собственного бюджета. С точки зрения технологических решений мы изначально фокусировались на использовании open source решений и in-house–разработке. Это позволило нам практически полностью отказаться от решений иностранных вендоров и создать для рынка собственную платформу управления данными».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Работа по развитию отчетности в «Ростелекоме» выстроена по принципу одного окна. За каждый сегмент отвечает выделенный фронт-менеджер, в обязанности которого входит решение текущих задач бизнес-заказчиков. Такие работы выполняются за счет бюджета заказчика. Демократизация данных, единая методология решений и возможность переиспользования информационных сервисов – это важные принципы работы компании.

Необходимо не только загрузить данные из источников и реализовать конкретный отчет. Важно предоставить возможность для пользователей легко найти нужный информационный сервис, получить к нему доступ и обеспечить прозрачность методологии расчета, говорит Сергей Носов. В этом помогают глоссарий терминов, карта данных, реестр отчетов. Реализация операционных сервисов и сервисов монетизации данных реализуется также за счет бюджета заказчика в продуктовых командах, состоящих из бизнес- и ИТ-специалистов.

В X5 Retail Group, по словам директора по управлению данными в Х5 Tech Тиграна Саркисова, управление данными, как и всем технологическим блоком, организовано по доменно‑ориентированной модели. Однако ряд компетенций и сервисов предоставляются централизованно – например, мастер-данные, архитектура данных, безопасность.

Как построить сервис на больших данных

Данные сами по себе никому не интересны, и затраты на их хранение сложно обосновать. Поэтому управление данными подразумевает под собой в том числе формирование различных сервисов, которые могут принести пользу бизнесу.

«В Х5 внедрен доменно-ориентированный продуктовый подход: ценность из данных извлекают непосредственно бизнес-команды, усиленные компетенциями и экспертизой CDO. Тем не менее команда CDO/X5 Tech в целом оказывает и предоставляет бизнесу прежде всего платформенные сервисы, в части данных и аналитики. Это, например, DMP – платформа больших данных, CIP – сервис профиля клиента, X5ID – единый сервис авторизации».

Тигран Саркисов, директор по управлению данными в Х5 Tech

В «Ростелекоме» в разработке постоянно находятся десятки новых сервисов.

«Нельзя остановить развитие аналитики, ведь каждый день перед бизнесом встают новые задачи, требующие расчета новых метрик. Аналогично сервисы поиска информации и инфраструктурные сервисы должны обеспечивать больше гибкости в рамках возрастающего интереса к данным и повышения data-driven–культуры в компании. В части операционных сервисов уточнение клиентской информации, повышение конверсии продаж за счет развития рекомендательных моделей, добавление новых продуктов в предиктивные модели, повышение доли автоматизации чат-ботов и разработка голосовых помощников находятся в фокусе нашего внимания. Ведь даже десятые доли процентов на масштабах «Ростелекома» дают значимый экономический эффект».

Сергей Носов, директор по управлению данными компании «Ростелеком»

Основатель и президент группы компаний Cognitive Technologies Ольга Ускова уверена, что системы искусственного интеллекта, работающие на базе данных, получаемых от сельскохозяйственной техники, могут стать ядром для трансформации всей агросферы.

«Помимо того, что эти системы занимаются управлением техникой и навесными агрегатами, то есть роботизируют тяжелейший ручной процесс обработки поля, они еще и ежесекундно собирают видеоинформацию о состоянии земли, растений, погоды и людей, которые вовлечены в процесс сельхозпроизводства. На базе всей этой многочисленной информации естественным образом наращиваются дополнительные приложения, связанные с совершенно разными направлениями: обработкой и удалением сорняков, посевом и удобрением, оптимизацией работы людей, включая предупреждение о неправомерных хищениях, и т. д. Мы всю эту информацию собираем в облако для дальнейшей обработки. Фактически эта информация является основой для построения уникальных цифровых приложений и полной автоматизации всего процесса сельхозработ».

Ольга Ускова, основатель и президент группы компаний Cognitive Technologies

Кроме того, крупные компании создают облачные платформы данных, интегрированные с информационными системами, доступ к которым получают не только внутренние, но и внешние заказчики. Например, цифровая платформа Dialog предназначена для партнеров. Она помогает получать необходимые инсайты и принимать решения, основанные на аналитике больших данных.

На портале наш.дом.рф для граждан открыт доступ к аналитической информации о рынке строительства многоквартирных домов в разрезе каждого объекта. Впервые на основе данных, накапливаемых в системе, обеспечена возможность ежедневного мониторинга состояния долевого строительства в разрезе каждого дома и каждого застройщика.

«Недавно мы реализовали очень интересный пилот, в котором нейросеть оценивает возможность дефолта того или иного застройщика с точки зрения анализа фотографий, которые он выкладывает в нашу систему. Искусственный интеллект с вероятностью в 73% выдает желтую и красную зоны риска для команды проектного финансирования банка «ДОМ.РФ», просто анализируя по особому алгоритму динамику изменений на загруженных фотографиях. Просто, как светофор».

Николай Козак, управляющий директор по цифровой трансформации «ДОМ.РФ»

В планах компании — создать сервис DOM.Data для сквозного и прозрачного процесса управления, контроля, распространения и обработки данных.

Как оптимизировать затраты

По данным аналитиков, компании используют в среднем около 25% имеющихся у них данных. В то же время затраты на хранение информации очень велики. На первом этапе для хранения использовались классические Data Warehouse. Однако в силу того, что они не предназначены для обработки изображений, аудио и других видов NoSQL-данных, на их место пришли Data Lake, основанные на технологиях Hadoop.

Снижению затрат на организацию хранения способствует постоянный мониторинг объектов в хранилище и BI-контуре с целью выявления тех, которые используются редко или не используются совсем. По результатам мониторинга и анализа они могут быть перенесены на более дешевые носители или удалены.

«Но надо понимать, что необходимы постоянные инвестиции в технологическую платформу, требования к производительности которой растут каждый год с учетом увеличения количества сервисов, которые мы предоставляем бизнесу. На технологическую платформу мы тратим относительно небольшие деньги для компании такого размера, как «Ростелеком». В первую очередь благодаря тому, что мы практически полностью отказались от проприетарного ПО».

Сергей Носов, директор по управлению данными компании «Ростелеком»

В последнее время все большую популярность набирают виртуальные платформы управления данными Data Mesh. На них временно загружаются самые разные данные: операционные, аналитические, потоковые, которые затем используются для анализа, создания AI-сервисов, обрабатываются в режиме реального времени для оценки состояния объектов.

Еще один вариант: Data Fabric — дополнительный технологичесĸий слой над инфраструктурой, через который потребители получают доступ к данным. Он позволяет отказаться от создания единого хранилища в пользу единого интерфейса, обеспечивающего доступ к данным. Также для обработки данных, поступающих с датчиков, все чаще используются периферийные вычисления.

В последнее время к анализу больших данных все чаще привлекают искусственный интеллект. Он позволяет существенно повысить эффективность решений, принимаемых на основе данных. «Можно ли оставаться лидирующей компанией без использования искусственного интеллекта? Уверен, что нельзя», — заключает Тигран Саркисов.