Проблема анализа больших веб-данных и использование технологии Data Mining для обработки и поиска закономерностей в большом массиве веб-данных на практическом примере
https://doi.org/10.21686/1818-4243-2019-2-42-49
Аннотация
Целью работы является исследование современных проблем и перспектив решения обработки больших данных, получаемых или сохраняемых в сети Интернет (веб-данных), а так же возможность практической реализации технологии Data Mining для больших веб-данных на практическом примере.
Материалы и методы. Исследование включало в себя обзор библиографических источников по проблемам анализа больших данных.
Была применена технология Data Mining для анализа больших веб-данных, а также компьютерное моделирование практической задачи с помощью языка программирования C# и создания структуры базы данных на языке описания данных DDL для накопления веб-данных.
Результаты. В ходе работы описана специфика больших данных, были выделены основные характеристики больших данных, а также были проанализированные современные подходы к обработке больших данных. Дана краткая характеристика горизонтально-масштабируемой архитектуры и архитектуры BI-решения для обработки больших данных. Сформулированы проблемы обработки больших веб – данных: ограничение скорости доступа к данным, организация доступа по сетевым протоколам через сети общего назначения.
Так же был реализован пример, показывающий подход к обработке больших веб-данных. На основе представления о больших данных, описанных сложностях обработки веб-данных и методах Data Mining, были предложены приёмы эффективного решения поставленной практической задачи обработки и поиска закономерностей в большом массиве данных.
Были разработаны следующие классы на языке программирования C#:
класс получения веб-данных через Интернет; класс преобразования данных;
класс интеллектуальной обработки данных.
Создан DDL-скрипт, создающий структуру для накопления веб-данных.
Разработана единая UML-диаграмма классов.
Построенная система данных и классов позволяет решить основную часть проблем обработки больших веб-данных и выполнить интеллектуальную обработку по технологии Data Mining с целью решения поставленной задачи выявления определенных записей в большом массиве. Сочетание объектно-ориентированного подхода, нейронных сетей и BI-анализа для фильтрации данных позволит максимально ускорить процесс обработки данных и получения результата исследования
Заключение. По результатам проведённого исследования, можно утверждать, что современное состояние технологии анализа больших веб-данных позволяет эффективно обрабатывать объекты данных, выявлять закономерности, получать скрытые данные и получать полноценные статистические данные.
Полученные результаты могут использоваться как в целях первичного изучения технологий обработки больших данных, так и в качестве основы разработки уже реального приложения для анализа веб-данных. Использование нейронных сетей и созданных универсальных классов-обработчиков делает созданную архитектуру гибкой и самообучаемой, а декларации классов и DDL-структура базы существенно упростят разработку программного кода.
Ключевые слова
Об авторах
К. В. МулюковаРоссия
Ксения Валериановна Мулюкова – аспирант, кафедра «Систем автоматического управления»
Ростов-на-Дону
В. М. Курейчик
Россия
Виктор Михайлович Курейчик– доктор технических наук, профессор, кафедра «Систем автоматического управления»
Ростов-на-Дону
Список литературы
1. Хашковский В. В., Шкурко А. Н. Современные подходы в организации систем обработки больших объемов данных // Известия Южного федерального университета. Технические науки. 2014. № 8 (157). С. 241–250.
2. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. 2 изд. СПб.: БХВ-Петербург, 2007. 384 с.
3. Марц Н., Уоррен Д. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. М.: Вильямс, 2017. 368 с.
4. Кошик А. Веб-аналитика 2.0 на практике. Тонкости и лучшие методики. М.: Вильямс, 2014. 528 с.
5. Большие Данные [Электрон. ресурс] // Толковый словарь на Академике. 2014. Режим доступа: https://dic.academic.ru/dic.nsf/ruwiki/1422719 (дата обращения: 04.04.2019).
6. Кузнецов С.Д., Посконин А.В. Распределенные горизонтально масштабируемые решения для управления данными // Труды Института системного программирования РАН. 2013. № 24. С. 327–358 .
7. Флегонтов А.В., Фомин В.В. Система интеллектуальной обработки данных // Известия Российского государственного педагогического университета им. А.И. Герцена. 2013. № 1 (154). С. 41–48.
8. Mitrovic S. Specifics of the integration of business intelligence and Big Data technologies in the processes of economic analysis // Бизнес-информатика. 2017. № 4 (42). С. 40–46.
9. Филяк П.Ю., Байларли Э.Э.О., Растворов В.В., Старченко В.И. Инструментальные средства для использования big data и data mining в целях обеспечения информационной безопасности – подходы, опыт применения // Вестник Московского финансово-юридического университета. 2017. №2. С. 210-220.
10. Data Mining: что внутри. Habr. [Электрон. ресурс] Режим доступа: https://habr.com/ru/post/95209/ (Дата обращения: 04.04.2019).
11. Кадырова Н.О., Павлова Л., В. Эффективная методика обработки многоразмерных данных большого объема // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление . 2012. №6 (162). С. 118–124.
12. Новиков Б.А., Графеева Н.Г., Михайлова Е.Г. BIG DATA: Новые задачи и современные подходы // Компьютерные инструменты в образовании. 2014. №4. С. 10-18.
13. Лосева Е.Д., Антамошкин А.Н. Алгоритм автоматизированного формирования ансамблей нейронных сетей для решения сложных задач интеллектуального анализа данных // Известия Тульского государственного университета. Технические науки. 2017. № 4. С. 234–243.
14. Автор. 2014.
15. Клеппман М. Высоконагруженные приложения. Программирование, масштабирование, поддержка. СПб: Питер, 2018. 740 с.
16. Флегонтов А. В., Фомин В. В. Система интеллектуальной обработки данных // Известия Российского государственного педагогического университета им. А.И. Герцена. 2013. №1 (154). С. 41–48.
17. Самарев Р.С. Обзор состояния области потоковой обработки данных // Труды Института системного программирования РАН. 2017. № 1 . С. 231–260.
Рецензия
Для цитирования:
Мулюкова К.В., Курейчик В.М. Проблема анализа больших веб-данных и использование технологии Data Mining для обработки и поиска закономерностей в большом массиве веб-данных на практическом примере. Открытое образование. 2019;23(2):42-49. https://doi.org/10.21686/1818-4243-2019-2-42-49
For citation:
Mulyukova K.V., Kureichik V.M. The problem of analysis of big web data and the use of data mining technology for processing and searching patterns in big web data on a practical example. Open Education. 2019;23(2):42-49. (In Russ.) https://doi.org/10.21686/1818-4243-2019-2-42-49