Проблема анализа больших веб-данных и использование технологии Data Mining для обработки и поиска закономерностей в большом массиве веб-данных на практическом примере


https://doi.org/10.21686/1818-4243-2019-2-42-49

Полный текст:


Аннотация

Целью работы является исследование современных проблем и перспектив решения обработки больших данных, получаемых или сохраняемых в сети Интернет (веб-данных), а так же возможность практической реализации технологии Data Mining для больших веб-данных на практическом примере.

Материалы и методы. Исследование включало в себя обзор библиографических источников по проблемам анализа больших данных.

Была применена технология Data Mining для анализа больших веб-данных, а также компьютерное моделирование практической задачи с помощью языка программирования C# и создания структуры базы данных на языке описания данных DDL для накопления веб-данных.

Результаты. В ходе работы описана специфика больших данных, были выделены основные характеристики больших данных, а также были проанализированные современные подходы к обработке больших данных. Дана краткая характеристика горизонтально-масштабируемой архитектуры и архитектуры BI-решения для обработки больших данных. Сформулированы проблемы обработки больших веб – данных: ограничение скорости доступа к данным, организация доступа по сетевым протоколам через сети общего назначения.

Так же был реализован пример, показывающий подход к обработке больших веб-данных. На основе представления о больших данных, описанных сложностях обработки веб-данных и методах Data Mining, были предложены приёмы эффективного решения поставленной практической задачи обработки и поиска закономерностей в большом массиве данных.

Были разработаны следующие классы на языке программирования C#:

класс получения веб-данных через Интернет; класс преобразования данных;

класс интеллектуальной обработки данных.

Создан DDL-скрипт, создающий структуру для накопления веб-данных.

Разработана единая UML-диаграмма классов.

Построенная система данных и классов позволяет решить основную часть проблем обработки больших веб-данных и выполнить интеллектуальную обработку по технологии Data Mining с целью решения поставленной задачи выявления определенных записей в большом массиве. Сочетание объектно-ориентированного подхода, нейронных сетей и BI-анализа для фильтрации данных позволит максимально ускорить процесс обработки данных и получения результата исследования

Заключение. По результатам проведённого исследования, можно утверждать, что современное состояние технологии анализа больших веб-данных позволяет эффективно обрабатывать объекты данных, выявлять закономерности, получать скрытые данные и получать полноценные статистические данные.

Полученные результаты могут использоваться как в целях первичного изучения технологий обработки больших данных, так и в качестве основы разработки уже реального приложения для анализа веб-данных. Использование нейронных сетей и созданных универсальных классов-обработчиков делает созданную архитектуру гибкой и самообучаемой, а декларации классов и DDL-структура базы существенно упростят разработку программного кода.


Об авторах

К. В. Мулюкова
Инженерно-технологическая академия Южного федерального университета
Россия

Ксения Валериановна Мулюкова – аспирант, кафедра «Систем автоматического управления»

Ростов-на-Дону



В. М. Курейчик
Инженерно-технологическая академия Южного федерального университета
Россия

Виктор Михайлович Курейчик– доктор технических наук, профессор, кафедра «Систем автоматического управления»

Ростов-на-Дону



Список литературы

1. Хашковский В. В., Шкурко А. Н. Современные подходы в организации систем обработки больших объемов данных // Известия Южного федерального университета. Технические науки. 2014. № 8 (157). С. 241–250.

2. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP. 2 изд. СПб.: БХВ-Петербург, 2007. 384 с.

3. Марц Н., Уоррен Д. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. М.: Вильямс, 2017. 368 с.

4. Кошик А. Веб-аналитика 2.0 на практике. Тонкости и лучшие методики. М.: Вильямс, 2014. 528 с.

5. Большие Данные [Электрон. ресурс] // Толковый словарь на Академике. 2014. Режим доступа: https://dic.academic.ru/dic.nsf/ruwiki/1422719 (дата обращения: 04.04.2019).

6. Кузнецов С.Д., Посконин А.В. Распределенные горизонтально масштабируемые решения для управления данными // Труды Института системного программирования РАН. 2013. № 24. С. 327–358 .

7. Флегонтов А.В., Фомин В.В. Система интеллектуальной обработки данных // Известия Российского государственного педагогического университета им. А.И. Герцена. 2013. № 1 (154). С. 41–48.

8. Mitrovic S. Specifics of the integration of business intelligence and Big Data technologies in the processes of economic analysis // Бизнес-информатика. 2017. № 4 (42). С. 40–46.

9. Филяк П.Ю., Байларли Э.Э.О., Растворов В.В., Старченко В.И. Инструментальные средства для использования big data и data mining в целях обеспечения информационной безопасности – подходы, опыт применения // Вестник Московского финансово-юридического университета. 2017. №2. С. 210-220.

10. Data Mining: что внутри. Habr. [Электрон. ресурс] Режим доступа: https://habr.com/ru/post/95209/ (Дата обращения: 04.04.2019).

11. Кадырова Н.О., Павлова Л., В. Эффективная методика обработки многоразмерных данных большого объема // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление . 2012. №6 (162). С. 118–124.

12. Новиков Б.А., Графеева Н.Г., Михайлова Е.Г. BIG DATA: Новые задачи и современные подходы // Компьютерные инструменты в образовании. 2014. №4. С. 10-18.

13. Лосева Е.Д., Антамошкин А.Н. Алгоритм автоматизированного формирования ансамблей нейронных сетей для решения сложных задач интеллектуального анализа данных // Известия Тульского государственного университета. Технические науки. 2017. № 4. С. 234–243.

14. Автор. 2014.

15. Клеппман М. Высоконагруженные приложения. Программирование, масштабирование, поддержка. СПб: Питер, 2018. 740 с.

16. Флегонтов А. В., Фомин В. В. Система интеллектуальной обработки данных // Известия Российского государственного педагогического университета им. А.И. Герцена. 2013. №1 (154). С. 41–48.

17. Самарев Р.С. Обзор состояния области потоковой обработки данных // Труды Института системного программирования РАН. 2017. № 1 . С. 231–260.


Дополнительные файлы

Для цитирования: Мулюкова К.В., Курейчик В.М. Проблема анализа больших веб-данных и использование технологии Data Mining для обработки и поиска закономерностей в большом массиве веб-данных на практическом примере. Открытое образование. 2019;23(2):42-49. https://doi.org/10.21686/1818-4243-2019-2-42-49

For citation: Mulyukova K.V., Kureichik V.M. The problem of analysis of big web data and the use of data mining technology for processing and searching patterns in big web data on a practical example. Open Education. 2019;23(2):42-49. (In Russ.) https://doi.org/10.21686/1818-4243-2019-2-42-49

Просмотров: 17

Обратные ссылки

  • Обратные ссылки не определены.


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-4243 (Print)
ISSN 2079-5939 (Online)