Рекомендуем

Математические модели информационных потоков в высокоскоростных магистральных интернет-каналахПоршнев С.В. Математические модели информационных потоков в высокоскоростных магистральных интернет-каналах
Мультифракталы. Инфокоммуникационные приложенияШелухин О.И. Мультифракталы. Инфокоммуникационные приложения

Книга

Классификация IP-трафика методами машинного обучения

Под ред. профессора О. И. Шелухина
2018 г.
284 стр.
Тираж 500 экз.
Формат 60х90/16 (145x215 мм)
Исполнение: в твердом переплете
ISBN 978-5-9912-0719-5
ББК 32.973.2-018.2я73
УДК 004.732.056(075.8)
Аннотация

Рассмотрены задачи, методы и проблемы классификации сетевого трафика методами машинного обучения и интеллектуального анализа данных. Анализируются актуальные вопросы классификации IP-трафика на основе портов, полезной нагрузки, статистических методов. Рассмотрены важные для практического использования вопросы контроля и анализа сетевого трафика. Анализируются особенности формирования, оценки влияния структуры и объема обучающей и тестирующей выборок на эффективность классификации приложений на уровне пакетов и потоков. Рассмотрена контролируемая и неконтролируемая классификация сетевых приложений WEB (http, https), mail (smtp, imap), Ftp (Ftp-data, Ftp-commands), SSH, Skype, BitTorrent, P2P и др. с использованием алгоритмов классификации ID3, C4.5, CART, SVM, Randomforest, Bootstrap, Baggingи AdaBoost и др. Рассмотрены особенности классификации шифрованного трафика и трафика мобильных приложений Skype, Steam, BitTorrent, YouTube, Vkontakte, Tоrrent и др. Анализируется эволюция алгоритмов потоковой классификации сетевых приложений в режиме реального времени. Для повышения эффективности в условиях априорной неопределенности введено понятие неконтролируемой и полуконтролируемой кластеризации сетевого трафика.

Для широкого круга научных сотрудников и специалистов-практиков в области инфокоммуникаций и информационной безопасности, будет полезна аспирантам, магистрам и бакалаврам соответствующих специальностей.

Шелухин Олег Иванович – доктор технических наук, профессор, зав. кафедрой « Информационная безопасность» МТУСИ. Заслуженный деятель науки РФ. Область научных интересов – программная защита информации, машинное обучение, интеллектуальный анализ данных.

Ерохин Сергей Дмитриевич – кандидат технических наук, доцент. Ректор МТУСИ, доцент кафедры « Информационная безопасность» МТУСИ. Область научных интересов – методы машинного обучения, сетевые технологии, информационная безопасность нфокоммуникационных систем.

Ванюшина Анна Вячеславовна – старший преподаватель кафедры «Информационная безопасность» МТУСИ. Область научных интересов – сетевые технологии, машинное обучение, интеллектуальный анализ данных

Оглавление

Введение

1. КЛАССИФИКАЦИЯ. ОСНОВНЫЕ ПОНЯТИЯ, ЗАДАЧИ И ПРОБЛЕМЫ
1.1. Задачи классификации IP-трафика
1.2. Методы классификации сетевого трафика
1.2.1. Классификация IP-трафика на основе портов
1.2.2. Классификация сетевого трафика на основе полезной нагрузки
1.2.3. Классификация на основе статистических методов
1.2.4. Особенности применения методов машинного обучения для классификации сетевого трафика
1.2.5. Статистическая кластеризация
1.2.6. Иные подходы
Литература

2. КЛАССИЧЕСКИЕ ПАРАДИГМЫ МАШИННОГО ОБУЧЕНИЯ И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
2.1. Основные понятия. Технологии KDD и Data Mining
2.2. Классификация. Основы обучения с учителем
2.2.1. Классификация на основе ассоциативных правил
2.2.2. Искусственные нейронные сети (ИНС)
2.2.3. Метод опорных векторов
2.2.4. Решающие деревья
2.2.5. Алгоритм ID3
2.2.6. Алгоритм C4.5
2.2.7. Алгоритм CART
2.2.8. Алгоритм CHAID
2.2.9. Алгоритм QUEST
2.2.10. Алгоритм случайного леса
2.2.11. Алгоритмы Bootstrap, Bagging и AdaBoost
2.2.12. Наивный байесовский классификатор
2.2.13. Байесовские сети
2.2.14. Оценка устойчивости классификатора
2.2.15. Методы поиска аномалий, основанные на классификации
2.3. Кластеризация. Основы обучения с учителем
2.3.1. Основные понятия
2.3.2. Методы кластерного анализа данных
2.3.3. Иерархические методы
2.3.4. Неиерархические методы
2.3.5. Неинкрементальные алгоритмы
2.3.6. Сравнительный анализ методов кластеризации
2.3.7. Самоорганизующаяся карта Кохонена
2.3.8. Генетические алгоритмы
2.3.9. Достоинства и недостатки методов кластеризации
2.3.10. Методы поиска аномалий, основанные на кластеризации
2.4. Метрики оценки эффективности классификации и кластеризации
2.5. Инструменты для интеллектуального анализа данных
2.5.1. Rattle
2.5.2. Weka
2.5.3. MOA
2.5.4. Orange
2.5.5. RapidMiner
2.5.6. Scikitlearn
2.6. Проблемы машинного обучения (контролируемое и неконтролируемое обучение)
Литература

3. АНАЛИЗ И МОНИТОРИНГ СЕТЕВОГО ТРАФИКА
3.1. Проблемы контроля и анализа сетевого трафика
3.1.1. Место контроля трафика
3.1.2. Задачи контроля
3.2. Сетевые анализаторы трафика
3.2.1. Задачи анализа сетевого трафика
3.2.2. Средства анализа сетевого трафика
3.2.3. Программный сниффер Wireshark
3.2.4. Аппаратный сниффер network associates
3.2.5. Iris Network Traffic Analyzer
3.3. Сбор данных с помощью протокола NetFlow
3.3.1. Мониторинг
3.3.2. Примеры контрольных и аналитических инструментов потока сетевого трафика с помощью протокола NetFlow
3.4. Сбор данных с помощью протокола SNMP
3.4.1. Контроль сетевых устройств
3.4.2. Примеры контрольных и аналитических инструментов потока сетевого трафика помощью протокола SNMP
3.5. Программный сниффер Tcpdump
3.6. Другие технологии и подходы к сетевому мониторингу
3.6.1. Трассировка событий сетевого стека
3.6.2. Протокол ICMP
3.6.3. Анализ системных журналов
3.7. Инструменты классификации. Технология DPI
3.7.1. PACE
3.7.2. OpenDPI
3.7.3. nDPI
3.7.4. Libprotoident
3.7.5. Cisco NBAR
3.7.6. L7-фильтр
3.8. Использование инструментов DPI для классификации и учета трафика
3.8.1. Использование инструментов DPI для классификации трафика
3.8.2. Использование инструментов DPI для целей учета трафика
3.8.3. Влияние усечения пакетов и потоков на классификацию трафика
Литература

4. КЛАССИФИКАЦИЯ ТРАФИКА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
4.1. Анализ алгоритмов выбора атрибутов классификации
4.2. Формирование исходных данных и анализ программного обеспечения
4.2.1. Методы захвата трафика
4.2.2. Результаты применения программного обеспечения
4.2.3. Выбор атрибутов классификации
4.3. Влияние структуры обучающей выборки на эффективность классификации приложений
4.3.1. Процедура сбора трафика
4.3.2. Обучающие выборки
4.3.3. Выбор атрибутов для классификации
4.3.4. Результаты эксперимента
4.4. Эффективность алгоритмов выделения атрибутов
4.4.1. Формирование исходных данных
4.4.2. Сравнительные оценки алгоритмов выделения информативных признаков
4.4.3. Результаты классификации
4.5. Влияние объема обучающей выборки на качество классификации
4.5.1. Алгоритм SVM
4.5.2. Алгоритм AdaBoost
4.5.3. Классификатор наивный классификатор Байеса
4.5.4. Алгоритм CART
4.5.5. Случайный лес
4.6. Эффективность алгоритма RF в задачах классификации приложений
4.6.1. Формирование данных
4.6.2. Методология решения задачи классификации с помощью алгоритма Random Forest
4.6.3. Результаты классификации
4.7. Классификация трафика мобильных сетей
4.7.1. Захват и анализ сетевого трафика мобильных сетей (приложений)
4.7.2. Результаты классификации
4.8. Влияние прореживания пакетов на качество классификации
4.8.1. Формирование и анализ исходных данных
4.8.2. Результаты классификации
4.9. Влияние фонового трафика на качество классификации
4.9.1. Постановка задачи
4.9.2. Результаты классификации
4.9.3. Сравнительный ROC — анализ работы алгоритмов при наличии фонового трафика
4.10. Классификация шифрованного трафика
4.10.1. Формирование и характеристики используемых наборов данных
4.10.2. Классификация трафика с помощью формирования сетевых потоков
4.10.3. Классификация трафика на основе анализа каждого захваченного сетевого пакета
4.11. Интеграция множества классификаторов
4.11.1. Ансамбли классификаторов
4.11.2. Распространенные типы классификаторов
4.11.3. Мультиклассификационная модель классификации
4.12. Классификация в режиме реального времени
4.12.1. Сценарии обработки потоковых данных
4.12.2. Технология смещения концепций
4.12.3. Эволюция алгоритмов потоковой классификации
4.12.4. Алгоритмы классификации, основанные на потоковых деревьях принятия решений
4.12.5. Динамический потоковый Random Forests
4.13. Неконтролируемая кластеризация сетевого трафика
4.13.1. Технологии кластеризации
4.13.2. Кластеризация методом Random Forest и RF близость
4.13.3. Кластеризация на основе близости RF
4.13.4. Наборы данных
4.13.5. Методы оценки
4.14. Полуконтролируемая кластеризация сетевого трафика
4.14.1. Источники дополнительной информации
4.14.2. Алгоритм кластеризации с ограничениями
4.14.3. Статистика дополнительной информации
4.15. Проблемы классификации трафика
Литература