Разработка интеллектуальной системы для обработки слабоструктурированных данных: отраслевая структуризация и расширенный анализ информации, извлеченной из комментариев к видеороликам в социальных сетях
https://doi.org/10.21686/1818-4243-2025-2-55-70
Аннотация
Научная актуальность исследования. В эпоху стремительного увеличения объемов данных, генерируемых пользователями социальных сетей, анализ текстовых данных, таких как комментарии, становится одной из ключевых задач современной науки. Комментарии представляют собой ценный источник информации, позволяя выявлять общественные настроения, анализировать мнения пользователей и отслеживать социальные тренды. Однако из-за слабо структурированного или полностью неструктурированного характера этих данных их обработка требует применения инновационных подходов. Целью данного исследования является разработка интеллектуальной системы для обработки слабоструктурированных данных, получаемых из комментариев на видео в социальных сетях, с использованием алгоритмов структуризации, ориентированных на различные отрасли. Исследование направлено на создание эффективного метода анализа тональности, кластеризации и извлечения ключевых тем из комментариев с целью оценки воздействия видео-контента на аудиторию. В результате исследования будет предложен подход к автоматическому выделению и структурированию данных по отраслям, что позволит более точно и глубоко анализировать восприятие контента и его влияние на различные социальные и профессиональные сферы. Методы: Разработка интеллектуальной системы для анализа слабоструктурированных данных требует применения инновационных методов и подходов, сочетающих в себе обработку естественного языка (NLP), алгоритмы машинного обучения и методы анализа больших данных. Эти методы включают: автоматическое извлечение данных через API, предварительную обработку, адаптированную для трех языков (французского, английского и русского), глубокий анализ настроений с помощью продукта Bert и вероятностного алгоритма для статистических расчетов, а также кластеризацию с помощью алгоритмов K-Means, DBSCAN и Agglomerative. Материалы основываются на комментариях из социальных сетей (TikTok, Instagram, Twitter, Facebook, YouTube, Reddit, ВКонтакте) на русском, английском и французском языках. Для предобработки применялись библиотеки SpaCy и NLTK, а модель Hugging Face Transformers работала с предобученными моделями для анализа настроений. Использованы методы машинного обучения, включая кластеризацию и обработку естественного языка. Данные структурированы с помощью тематического моделирования и языковых моделей, реализованных с помощью Python-библиотек. Результаты исследования. Разработка интеллектуальной системы для обработки слабо структурированных данных позволила улучшить анализ комментариев к видеороликам в социальных сетях благодаря комбинации различных моделей машинного обучения и алгоритмов. Результаты исследования позволили нам разработать прототип инструмента для анализа комментариев, который эффективно собирает и структурирует данные из различных социальных сетей. Эта структуризация данных привела к лучшей организации и повышенной доступности информации, что облегчило их использование. Используя методы обработки естественного языка (NLP), мы выявили ключевые темы и эмоции комментариев, проводя анализ настроений, который освещает основные эмоциональные тренды. Методы кластеризации, такие как K-средние, сгруппировали комментарии по схожим темам. Кроме того, мы создали визуализации, показывающие распределение настроений, что позволяет пользователям быстро интерпретировать данные. Интеграция методов визуализации преобразует сложные аналитические результаты в интуитивно понятные графики, что облегчает понимание взаимодействия пользователей с контентом. Таким образом, наша система оказывается эффективной для предоставления ценных инсайтов и оптимизации стратегий взаимодействия с аудиторией. Заключение. Результаты исследования показали, что предложенный подход значительно улучшает точность классификации и структурирования слабо структурированных данных, особенно когда речь идет о комментариях, извлеченных из видеороликов в социальных сетях. Разработанная система использует алгоритмы обработки естественного языка для анализа данных с учетом их отраслевой принадлежности, что позволяет автоматически структурировать комментарии в зависимости от их содержания и проводить подробный анализ тональности. Эффективность данного подхода была подтверждена на примере анализа комментариев с различных социальных платформ, что продемонстрировало его способность извлекать и структурировать релевантную информацию, а также оценивать влияние видеороликов через реакции пользователей.
Об авторах
А. А. ПогудаРоссия
Алексей Андреевич Погуда - Научный руководитель, к.т.н, доцент, Факультет инновационных технологий
Ж. Тапе
Россия
Хабиб Жан Макс Тапе - Факультет инновационных технологий
Список литературы
1. Кравченко Д.Ю. Модель онтологии знаний для интеллектуальных систем обработки и анализа текстов // Известия ЮФУ. Технические науки. 2024. № 2. С. 38–50.
2. Гулай А.В., Зайцев В.М. Модели знаний как когнитивный компонент системного по строения интеллектуальных технологий // Развитие науки и технологий в эпоху глобальной трансформации. Петрозаводск: МЦНП «Новая наука», 2023. С. 158–191.
3. Журавков М.А. Технологии искусственного интеллекта и интеллектуальные системы компьютерного моделирования и инже нерных расчетов [Электрон. ресурс]. Минск: Белорусский государственный университет, 2024. 177 с. Режим доступа: https://elib.bsu.by/bitstream/123456789/309072/1/Технологии%20 искусственного%20интеллекта%20и%20интеллектуальные%20системы.pdf.
4. Kaplan A.M., Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media // Business Horizons. 2010. Т. 53. № 1. С. 59–68.
5. Cambria E., Schuller B., Xia Y., Havasi C. New avenues in opinion mining and sentiment analysis // IEEE Intelligent Systems. 2017. Т. 28. № 2. С. 15–21.
6. Devlin J., Chang M. W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019.
7. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. 2008. Т. 2. № 1–2. С. 1–135.
8. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Т. 3. С. 993–1022.
9. Chen M., Mao S., Liu Y. Big data: A survey // Mobile Networks and Applications. 2014. Т. 19. № 2. С. 171–209.
10. Gandomi A., Haider M. Beyond the hype: Big data concepts, methods, and analytics // International Journal of Information Management. 2015. Т. 35. № 2. С. 137–144.
11. Smith J., Brown T. Metadata management for large-scale datasets // Journal of Information Systems. 2019. Т. 25. № 3. С. 120–135.
12. Voigt P., Von dem Bussche A. The EU General Data Protection Regulation (GDPR): A Practical Guide. Springer International Publishing, 2017.
13. Ramos Gargantilla J.A., Mora J., Aguado de Cea G. Enhancing the expressiveness of linguistic structures. 2012.
14. Greer K. Concept Trees: Building Dynamic Concepts from Semi-Structured Data using Nature Inspired Methods. 2014.
15. Galkin M., Mouromtsev D., Auer S. Identifying Web Tables – Supporting a Neglected Type of Content on the Web. 2015.
16. Giunchiglia F., Zamboni A., Bagchi M., Bocca S. Stratified Data Integration. 2021.
17. Tang C., Yuan G., Zheng T. Weakly Supervised Learning Creates a Fusion of Modeling Cultures. 2021.
18. Koo H., Eun Kim T. A Comprehensive Survey on Generative Diffusion Models for Structured Data. 2023.
19. Liu J., Zhao Z., Wu N., Wang X. Research on the structure function recognition of PLOS [Электрон. ресурс]. 2024. Режим доступа: ncbi.nlm.nih.gov.
20. Mittal A., Bheemreddy A., Tao H. Semantic SQL – Combining and optimizing semantic predicates in SQL. 2024.
21. Vanschoren J., Blockeel H., Pfahringer B., Holmes G. Experiment Databases: Creating a New Platform for Meta-Learning Research. 2008.
22. Anstiss S. Understanding data quality issues in dynamic organisational environments – a literature review. 2012.
23. Yadav C., Wang S., Kumar M. Algorithm and approaches to handle large Data – A Survey. 2013.
24. Комарницкая О. Методы автоматизированного семантического анализа естественноязыковой информации. 2018.
25. Leskovec J., Rajaraman A., Ullman J.D. Mining of Massive Datasets. 3rd ed. Cambridge University Press, 2014.
26. Bernstein V., Afanassenkov A. Unsupervised Data Extraction from Computer-generated Documents with Single Line Formatting. 2020.
27. Жоули М., Ганем Р., Аззуза М. Семантический анализ больших данных: вызовы и возможности // Исследования в области больших данных. 2020. Т. 18. № 4. С. 115–130.
28. Чжанг Дж., Ли В., Лю Ц. Обзор алгоритмов машинного обучения для классификации больших данных // Журнал машинного обучения. 2021. Т. 38. № 7. С. 925–940.
29. Нгуен Л., Тран Т., Нгуен Д. Классификация и кластеризация данных: методы и приложения // Журнал вычислительного интеллекта. 2019. Т. 31. № 1. С. 45–58.
30. Чэн Х., Ли Т., Чжан Х. Применение кластеризации данных в здравоохранении и фи нансах // Журнал научных исследований данных. 2020. Т. 25. № 3. С. 200–214.
31. Ли Д., Парк Дж., Ким С. Роль машинного обучения в маркетинговой аналитике // Научные исследования в области маркетинга. 2022. Т. 39. № 2. С. 189–204.
32. Василенко А., Фролов А., Макаров П. Современные методы обработки неструктурированных данных в новых технологиях // Журнал новых технологий. 2021. Т. 14. № 1. С. 112–124.
33. Chodpathumwan Y. Cost-effective data structural preparation. 2018.
34. Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques. 3rd ed. Elsevier, 2011.
35. Aggarwal C. C., Reddy C. K. Data Clustering: Algorithms and Applications. CRC Press, 2014.
36. Cambria E., Schuller B., Xia Y., Havasi C. New avenues in opinion mining and sentiment analysis // IEEE Intelligent Systems. 2017. Т. 28. № 2. С. 15–21.
37. Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press, 2008.
38. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016.
39. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
40. Pennington J., Socher R., Manning C.D. GloVe: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. С. 1532–1543.
Рецензия
Для цитирования:
Погуда А.А., Тапе Ж. Разработка интеллектуальной системы для обработки слабоструктурированных данных: отраслевая структуризация и расширенный анализ информации, извлеченной из комментариев к видеороликам в социальных сетях. Открытое образование. 2025;29(2):55-70. https://doi.org/10.21686/1818-4243-2025-2-55-70
For citation:
Poguda A.A., Tape H. Development of an Intelligent System for Processing Semistructured Data: Industry Structuring and Advanced Analysis of Information Extracted from Comments to Video Clips in Social Networks. Open Education. 2025;29(2):55-70. (In Russ.) https://doi.org/10.21686/1818-4243-2025-2-55-70