Авторизация
Сброс пароля
Обработка сетевого трафика НДА
Заказчик: Обработка сетевого трафика НДА
Страница кейса/результат: https://myosminozhka.ru/case-obrabotka/
Выполнили задачу по подготовка данных и разработали и обучили классификаторы машинного обучения для обнаружения и классификации аномального сетевого трафика, связанного с сетевыми сканированиями.
1. Вводная задача от заказчика, проблематика, цели
Задача заключалась в подготовке данных сетевого трафика для использования в моделях машинного обучения с целью улучшения безопасности сети. Конкретно требовалось агрегировать данные, полученные с помощью инструмента Zeek, и преобразовать их в формат, пригодный для обучения машинных моделей. А далее разработать и обучить классификаторы машинного обучения для обнаружения и классификации аномального сетевого трафика, связанного с сетевыми сканированиями.
2. Описание реализации кейса и творческого пути по поиску оптимального решения
Сбор данных
Данные собирались с использованием виртуальных машин (zeek1 и zeek2) и инструмента Mininet для создания виртуальной сетевой топологии и генерации сетевого трафика.
Использовались два типа трафика: безвредный (benign) и вредоносный (malicious).
Агрегация данных
Объединение безвредного и вредоносного трафика для создания обучающего и тестового наборов данных.
Преобразование данных в числовой и номинальный формат, необходимый для алгоритмов машинного обучения.
Методы решения
Для решения задачи были использованы два метода:
Таблица решений
Дерево решений
Процесс решения
Импортирование и предобработка данных: Набор данных был импортирован в Weka, где атрибуты IP-адресов были преобразованы из строковых в числовые значения с использованием фильтра NumericToNominal.
Обучение классификаторов: Были обучены два типа классификаторов:
Таблица решений: Классификатор был обучен на тренировочном наборе данных и показал точность 96%.
Дерево решений: Классификатор также был обучен, но показал меньшую точность, ошибочно классифицировав один из вредоносных пакетов как безопасный.
Модификация классификаторов: Для улучшения точности дерева решений был удален атрибут времени, однако новая модель показала еще меньшую точность.
Тестирование и сохранение моделей: Таблица решений была выбрана как более точный классификатор и сохранена для последующего использования. Была проведена проверка на тестовом наборе данных.
3. Результаты сотрудничества
В результате выполнения данных шагов был получен структурированный и предварительно обработанный набор данных в формате ARFF, который можно использовать для обучения моделей машинного обучения с целью прогнозирования и обнаружения аномалий в сетевом трафике.
4. Заключение
Метод таблицы решений показал высокую точность и был выбран в качестве предпочтительного метода для классификации аномального сетевого трафика. Дерево решений потребовало дополнительных настроек и тестов для улучшения его точности.