<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">oo</journal-id><journal-title-group><journal-title xml:lang="ru">Открытое образование</journal-title><trans-title-group xml:lang="en"><trans-title>Open Education</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1818-4243</issn><issn pub-type="epub">2079-5939</issn><publisher><publisher-name>Plekhanov Russian University of Economics</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.21686/1818-4243-2025-2-55-70</article-id><article-id custom-type="elpub" pub-id-type="custom">oo-1073</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ПРОБЛЕМЫ ИНФОРМАТИЗАЦИИ ЭКОНОМИКИ И УПРАВЛЕНИЯ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>PROBLEMS OF INFORMATIZATION OF ECONOMICS AND MANAGEMENT</subject></subj-group></article-categories><title-group><article-title>Разработка интеллектуальной системы для обработки слабоструктурированных данных: отраслевая структуризация и расширенный анализ информации, извлеченной из комментариев к видеороликам в социальных сетях</article-title><trans-title-group xml:lang="en"><trans-title>Development of an Intelligent System for Processing Semistructured Data: Industry Structuring and Advanced Analysis of Information Extracted from Comments to Video Clips in Social Networks</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Погуда</surname><given-names>А. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Poguda</surname><given-names>A. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Алексей Андреевич Погуда - Научный руководитель, к.т.н, доцент, Факультет инновационных технологий</p></bio><bio xml:lang="en"><p>Alexey A. Poguda - Scientific Supervisor, Candidate of Technical Sciences, Associate Professor, Faculty of Innovative Technologies</p></bio><email xlink:type="simple">alexsmail@sibmail.com</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-7438-5279</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Тапе</surname><given-names>Ж.</given-names></name><name name-style="western" xml:lang="en"><surname>Tape</surname><given-names>H.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Хабиб Жан Макс Тапе - Факультет инновационных технологий</p></bio><bio xml:lang="en"><p>Habib Jean Max Tape - Postgraduate student, Faculty of Innovative Technologies</p></bio><email xlink:type="simple">jeanmax.habib@mail.ru</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru">Национальный исследовательский Томский государственный университет<country>Россия</country></aff><aff xml:lang="en">National Research Tomsk State University<country>Russian Federation</country></aff></aff-alternatives><pub-date pub-type="collection"><year>2025</year></pub-date><pub-date pub-type="epub"><day>14</day><month>05</month><year>2025</year></pub-date><volume>29</volume><issue>2</issue><fpage>55</fpage><lpage>70</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Погуда А.А., Тапе Ж., 2025</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Погуда А.А., Тапе Ж.</copyright-holder><copyright-holder xml:lang="en">Poguda A.A., Tape H.</copyright-holder><license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://openedu.rea.ru/jour/article/view/1073">https://openedu.rea.ru/jour/article/view/1073</self-uri><abstract><p>Научная актуальность исследования. В эпоху стремительного увеличения объемов данных, генерируемых пользователями социальных сетей, анализ текстовых данных, таких как комментарии, становится одной из ключевых задач современной науки. Комментарии представляют собой ценный источник информации, позволяя выявлять общественные настроения, анализировать мнения пользователей и отслеживать социальные тренды. Однако из-за слабо структурированного или полностью неструктурированного характера этих данных их обработка требует применения инновационных подходов. Целью данного исследования является разработка интеллектуальной системы для обработки слабоструктурированных данных, получаемых из комментариев на видео в социальных сетях, с использованием алгоритмов структуризации, ориентированных на различные отрасли. Исследование направлено на создание эффективного метода анализа тональности, кластеризации и извлечения ключевых тем из комментариев с целью оценки воздействия видео-контента на аудиторию. В результате исследования будет предложен подход к автоматическому выделению и структурированию данных по отраслям, что позволит более точно и глубоко анализировать восприятие контента и его влияние на различные социальные и профессиональные сферы. Методы: Разработка интеллектуальной системы для анализа слабоструктурированных данных требует применения инновационных методов и подходов, сочетающих в себе обработку естественного языка (NLP), алгоритмы машинного обучения и методы анализа больших данных. Эти методы включают: автоматическое извлечение данных через API, предварительную обработку, адаптированную для трех языков (французского, английского и русского), глубокий анализ настроений с помощью продукта Bert и вероятностного алгоритма для статистических расчетов, а также кластеризацию с помощью алгоритмов K-Means, DBSCAN и Agglomerative. Материалы основываются на комментариях из социальных сетей (TikTok, Instagram, Twitter, Facebook, YouTube, Reddit, ВКонтакте) на русском, английском и французском языках. Для предобработки применялись библиотеки SpaCy и NLTK, а модель Hugging Face Transformers работала с предобученными моделями для анализа настроений. Использованы методы машинного обучения, включая кластеризацию и обработку естественного языка. Данные структурированы с помощью тематического моделирования и языковых моделей, реализованных с помощью Python-библиотек. Результаты исследования. Разработка интеллектуальной системы для обработки слабо структурированных данных позволила улучшить анализ комментариев к видеороликам в социальных сетях благодаря комбинации различных моделей машинного обучения и алгоритмов. Результаты исследования позволили нам разработать прототип инструмента для анализа комментариев, который эффективно собирает и структурирует данные из различных социальных сетей. Эта структуризация данных привела к лучшей организации и повышенной доступности информации, что облегчило их использование. Используя методы обработки естественного языка (NLP), мы выявили ключевые темы и эмоции комментариев, проводя анализ настроений, который освещает основные эмоциональные тренды. Методы кластеризации, такие как K-средние, сгруппировали комментарии по схожим темам. Кроме того, мы создали визуализации, показывающие распределение настроений, что позволяет пользователям быстро интерпретировать данные. Интеграция методов визуализации преобразует сложные аналитические результаты в интуитивно понятные графики, что облегчает понимание взаимодействия пользователей с контентом. Таким образом, наша система оказывается эффективной для предоставления ценных инсайтов и оптимизации стратегий взаимодействия с аудиторией. Заключение. Результаты исследования показали, что предложенный подход значительно улучшает точность классификации и структурирования слабо структурированных данных, особенно когда речь идет о комментариях, извлеченных из видеороликов в социальных сетях. Разработанная система использует алгоритмы обработки естественного языка для анализа данных с учетом их отраслевой принадлежности, что позволяет автоматически структурировать комментарии в зависимости от их содержания и проводить подробный анализ тональности. Эффективность данного подхода была подтверждена на примере анализа комментариев с различных социальных платформ, что продемонстрировало его способность извлекать и структурировать релевантную информацию, а также оценивать влияние видеороликов через реакции пользователей.</p></abstract><trans-abstract xml:lang="en"><p>Scientific relevance of the study. In the era of rapidly increasing volumes of data generated by social media users, analyzing textual data such as comments is becoming one of the key challenges of modern science. Comments are a valuable source of information, allowing us to identify public sentiment, analyze users’ opinions, and track social trends. However, due to the semistructured or completely unstructured nature of these data, their processing requires innovative approaches. Purpose of research. The aim of this research is to develop an intelligent system for processing semistructured data from comments on social media videos using structuring algorithms targeting different industries. The research aims to create an efficient method to analyze tone, clustering and extract key themes from comments in order to evaluate the impact of video content on the audience. The research will propose an approach to automatically extract and structure data by industry, which will allow for a more accurate and in-depth analysis of content perception and its impact on different social and professional domains. Methods. Developing an intelligent system for analyzing semistructured data requires innovative methods and approaches that combine natural language processing (NLP), machine learning algorithms and big data analytics techniques. These methods include: automatic data extraction via API, preprocessing adapted for three languages (French, English and Russian), deep sentiment analysis using the Bert product and a probabilistic algorithm for statistical calculations, and clustering using K-Means, DBSCAN and Agglomerative algorithms. The materials are based on comments from social networks (TikTok, Instagram, Twitter, Facebook, YouTube, Reddit, VKontakte) in   Russian, English and French. SpaCy and NLTK libraries were used for preprocessing, and the Hugging Face Transformers model worked with pre-trained models for sentiment analysis. Machine learning techniques including clustering and natural language processing were used. Data was structured using topic modeling and language models implemented using Python libraries. The results of the study. The development of an intelligent system for processing semistructured data has improved the analysis of comments on videos in social networks through a combination of various machine learning models and algorithms. The results of the study allowed us to develop a prototype of a comment analysis tool that effectively collects   and structures data from various social networks. This data structuring led to better organization and increased accessibility of information, facilitating its utilization. By using natural language processing (NLP) methods, we identified key themes and emotions in the comments while conducting sentiment analysis that highlights major emotional trends. Clustering methods, such as K-means, grouped the comments by similar themes. Additionally, we created visualizations that show sentiment distribution, allowing users to quickly interpret the data. The integration of visualization techniques transforms complex analytical results into intuitive graphs, making it easier to understand user interactions with the content. Thus, our system proves effective in providing valuable insights and optimizing audience interaction strategies. Conclusion. The results of the study showed that the proposed approach significantly improves the accuracy of classification and structuring of semistructured data, especially when it comes to comments extracted from social media videos. The developed system uses natural language processing algorithms to analyze the data with respect to its industry, which allows for automatic structuring of comments depending on their content and detailed tone analysis. The effectiveness of this approach was validated by analyzing comments from various social platforms, which demonstrated its ability to extract and structure relevant information, as well as assess the impact of videos through user reactions.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>обработка слабоструктурированных данных</kwd><kwd>api</kwd><kwd>комментарии к видеороликам</kwd><kwd>социальные сети</kwd><kwd>структурирование данных</kwd><kwd>влияние видео</kwd></kwd-group><kwd-group xml:lang="en"><kwd>semistructured data processing</kwd><kwd>api</kwd><kwd>video comments</kwd><kwd>social networks</kwd><kwd>data structuring</kwd><kwd>impact of the video</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Кравченко Д.Ю. Модель онтологии знаний для интеллектуальных систем обработки и анализа текстов // Известия ЮФУ. Технические науки. 2024. № 2. С. 38–50.</mixed-citation><mixed-citation xml:lang="en">Kravchenko D.Yu. Model of knowledge ontology for intelligent systems of text processing and analysis. Izvestiya YUFU. Tekhnicheskiye nauki = Bulletin of SFedU. Technical sciences. 2024; 2: 38–50. (In Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Гулай А.В., Зайцев В.М. Модели знаний как когнитивный компонент системного по строения интеллектуальных технологий // Развитие науки и технологий в эпоху глобальной трансформации. Петрозаводск: МЦНП «Новая наука», 2023. С. 158–191.</mixed-citation><mixed-citation xml:lang="en">Gulay A.V., Zaytsev V.M. Knowledge models as a cognitive component of the systemic construction of intelligent technologies. Razvitiye nauki i tekhnologiy v epokhu global’noy transformatsii = Development of science and technology in the era of global transformation. Petrozavodsk: MCNP “New Science”; 2023: 158–191. (In Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Журавков М.А. Технологии искусственного интеллекта и интеллектуальные системы компьютерного моделирования и инже нерных расчетов [Электрон. ресурс]. Минск: Белорусский государственный университет, 2024. 177 с. Режим доступа: https://elib.bsu.by/bitstream/123456789/309072/1/Технологии%20 искусственного%20интеллекта%20и%20интеллектуальные%20системы.pdf.</mixed-citation><mixed-citation xml:lang="en">Zhuravkov M.A. Tekhnologii iskusstvennogo intellekta i intellektual’nyye sistemy komp’yuternogo modelirovaniya i inzhenernykh raschetov = Artificial intelligence technologies and intelligent systems of computer modeling and engineering calculations [Internet]. Minsk: Belarusian State University; 2024. 177 p. Available from: https://elib.bsu.by/bitstream/123456789/309072/1/Tekhnologii%20iskusstvennogo%20intellekta%20 i%20intellektual’nyye%20sistemy.pdf.</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Kaplan A.M., Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media // Business Horizons. 2010. Т. 53. № 1. С. 59–68.</mixed-citation><mixed-citation xml:lang="en">Kaplan A. M., Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media. Business Horizons. 2010; 53; 1: 59–68.</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Cambria E., Schuller B., Xia Y., Havasi C. New avenues in opinion mining and sentiment analysis // IEEE Intelligent Systems. 2017. Т. 28. № 2. С. 15–21.</mixed-citation><mixed-citation xml:lang="en">Cambria E., Schuller B., Xia Y., Havasi C. New avenues in opinion mining and sentiment analysis. IEEE Intelligent Systems. 2017; 28; 2: 15–21.</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Devlin J., Chang M. W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019.</mixed-citation><mixed-citation xml:lang="en">Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019.</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. 2008. Т. 2. № 1–2. С. 1–135.</mixed-citation><mixed-citation xml:lang="en">Pang B., Lee L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval. 2008; 1–2: 1–135.</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Т. 3. С. 993–1022.</mixed-citation><mixed-citation xml:lang="en">Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation. Journal of Machine Learning Research. 2003; 3: 993–1022.</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Chen M., Mao S., Liu Y. Big data: A survey // Mobile Networks and Applications. 2014. Т. 19. № 2. С. 171–209.</mixed-citation><mixed-citation xml:lang="en">Chen M., Mao S., Liu Y. Big data: A survey. Mobile Networks and Applications. 2014; 19; 2: 171–209.</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Gandomi A., Haider M. Beyond the hype: Big data concepts, methods, and analytics // International Journal of Information Management. 2015. Т. 35. № 2. С. 137–144.</mixed-citation><mixed-citation xml:lang="en">Gandomi A., Haider M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 2015; 35; 2: 137–144.</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">Smith J., Brown T. Metadata management for large-scale datasets // Journal of Information Systems. 2019. Т. 25. № 3. С. 120–135.</mixed-citation><mixed-citation xml:lang="en">Smith J., Brown T. Metadata management for large-scale datasets. Journal of Information Systems. 2019; 25; 3: 120–135.</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Voigt P., Von dem Bussche A. The EU General Data Protection Regulation (GDPR): A Practical Guide. Springer International Publishing, 2017.</mixed-citation><mixed-citation xml:lang="en">Voigt P., Von dem Bussche A. The EU General Data Protection Regulation (GDPR): A Practical Guide. Springer International Publishing; 2017.</mixed-citation></citation-alternatives></ref><ref id="cit13"><label>13</label><citation-alternatives><mixed-citation xml:lang="ru">Ramos Gargantilla J.A., Mora J., Aguado de Cea G. Enhancing the expressiveness of linguistic structures. 2012.</mixed-citation><mixed-citation xml:lang="en">Ramos Gargantilla J.A., Mora J., Aguado de Cea G. Enhancing the expressiveness of linguistic structures. 2012.</mixed-citation></citation-alternatives></ref><ref id="cit14"><label>14</label><citation-alternatives><mixed-citation xml:lang="ru">Greer K. Concept Trees: Building Dynamic Concepts from Semi-Structured Data using Nature Inspired Methods. 2014.</mixed-citation><mixed-citation xml:lang="en">Greer K. Concept Trees: Building Dynamic Concepts from Semi-Structured Data using Nature-Inspired Methods. 2014.</mixed-citation></citation-alternatives></ref><ref id="cit15"><label>15</label><citation-alternatives><mixed-citation xml:lang="ru">Galkin M., Mouromtsev D., Auer S. Identifying Web Tables – Supporting a Neglected Type of Content on the Web. 2015.</mixed-citation><mixed-citation xml:lang="en">Galkin M., Mouromtsev D., Auer S. Identifying Web Tables – Supporting a Neglected Type of Content on the Web. 2015.</mixed-citation></citation-alternatives></ref><ref id="cit16"><label>16</label><citation-alternatives><mixed-citation xml:lang="ru">Giunchiglia F., Zamboni A., Bagchi M., Bocca S. Stratified Data Integration. 2021.</mixed-citation><mixed-citation xml:lang="en">Giunchiglia F., Zamboni A., Bagchi M., Bocca S. Stratified Data Integration. 2021.</mixed-citation></citation-alternatives></ref><ref id="cit17"><label>17</label><citation-alternatives><mixed-citation xml:lang="ru">Tang C., Yuan G., Zheng T. Weakly Supervised Learning Creates a Fusion of Modeling Cultures. 2021.</mixed-citation><mixed-citation xml:lang="en">Tang C., Yuan G., Zheng T. Weakly Supervised Learning Creates a Fusion of Modeling Cultures. 2021.</mixed-citation></citation-alternatives></ref><ref id="cit18"><label>18</label><citation-alternatives><mixed-citation xml:lang="ru">Koo H., Eun Kim T. A Comprehensive Survey on Generative Diffusion Models for Structured Data. 2023.</mixed-citation><mixed-citation xml:lang="en">Koo H., Eun Kim T. A Comprehensive Survey on Generative Diffusion Models for Structured Data. 2023.</mixed-citation></citation-alternatives></ref><ref id="cit19"><label>19</label><citation-alternatives><mixed-citation xml:lang="ru">Liu J., Zhao Z., Wu N., Wang X. Research on the structure function recognition of PLOS [Электрон. ресурс]. 2024. Режим доступа: ncbi.nlm.nih.gov.</mixed-citation><mixed-citation xml:lang="en">Liu J., Zhao Z., Wu N., Wang X. Research on the structure function recognition of PLOS [Internet]. 2024. Available from: ncbi.nlm.nih.gov.</mixed-citation></citation-alternatives></ref><ref id="cit20"><label>20</label><citation-alternatives><mixed-citation xml:lang="ru">Mittal A., Bheemreddy A., Tao H. Semantic SQL – Combining and optimizing semantic predicates in SQL. 2024.</mixed-citation><mixed-citation xml:lang="en">Mittal A., Bheemreddy A., Tao H. Semantic SQL – Combining and optimizing semantic predicates in SQL. 2024.</mixed-citation></citation-alternatives></ref><ref id="cit21"><label>21</label><citation-alternatives><mixed-citation xml:lang="ru">Vanschoren J., Blockeel H., Pfahringer B., Holmes G. Experiment Databases: Creating a New Platform for Meta-Learning Research. 2008.</mixed-citation><mixed-citation xml:lang="en">Vanschoren J., Blockeel H., Pfahringer B., Holmes G. Experiment Databases: Creating a New Platform for Meta-Learning Research. 2008.</mixed-citation></citation-alternatives></ref><ref id="cit22"><label>22</label><citation-alternatives><mixed-citation xml:lang="ru">Anstiss S. Understanding data quality issues in dynamic organisational environments – a literature review. 2012.</mixed-citation><mixed-citation xml:lang="en">Anstiss S. Understanding data quality issues in dynamic organisational environments – a literature review. 2012.</mixed-citation></citation-alternatives></ref><ref id="cit23"><label>23</label><citation-alternatives><mixed-citation xml:lang="ru">Yadav C., Wang S., Kumar M. Algorithm and approaches to handle large Data – A Survey. 2013.</mixed-citation><mixed-citation xml:lang="en">Yadav C., Wang S., Kumar M. Algorithm and approaches to handle large Data – A Survey. 2013.</mixed-citation></citation-alternatives></ref><ref id="cit24"><label>24</label><citation-alternatives><mixed-citation xml:lang="ru">Комарницкая О. Методы автоматизированного семантического анализа естественноязыковой информации. 2018.</mixed-citation><mixed-citation xml:lang="en">Komarnitskaya O. Metody avtomatizirovannogo semanticheskogo analiza yestestvennoyazykovoy informatsii = Methods of automated semantic analysis of natural language information. 2018.</mixed-citation></citation-alternatives></ref><ref id="cit25"><label>25</label><citation-alternatives><mixed-citation xml:lang="ru">Leskovec J., Rajaraman A., Ullman J.D. Mining of Massive Datasets. 3rd ed. Cambridge University Press, 2014.</mixed-citation><mixed-citation xml:lang="en">Leskovec J., Rajaraman A., Ullman J. D. Mining of Massive Datasets. 3rd ed. Cambridge University Press; 2014.</mixed-citation></citation-alternatives></ref><ref id="cit26"><label>26</label><citation-alternatives><mixed-citation xml:lang="ru">Bernstein V., Afanassenkov A. Unsupervised Data Extraction from Computer-generated Documents with Single Line Formatting. 2020.</mixed-citation><mixed-citation xml:lang="en">Bernstein V., Afanassenkov A. Unsupervised Data Extraction from Computer-generated Documents with Single Line Formatting. 2020.</mixed-citation></citation-alternatives></ref><ref id="cit27"><label>27</label><citation-alternatives><mixed-citation xml:lang="ru">Жоули М., Ганем Р., Аззуза М. Семантический анализ больших данных: вызовы и возможности // Исследования в области больших данных. 2020. Т. 18. № 4. С. 115–130.</mixed-citation><mixed-citation xml:lang="en">Zhouli M., Ganem R., Azzuza M. Semantic analysis of big data: Challenges and opportunities. Issledovaniya v oblasti bol’shikh dannykh = Big Data Research. 2020; 18; 4: 115–130.</mixed-citation></citation-alternatives></ref><ref id="cit28"><label>28</label><citation-alternatives><mixed-citation xml:lang="ru">Чжанг Дж., Ли В., Лю Ц. Обзор алгоритмов машинного обучения для классификации больших данных // Журнал машинного обучения. 2021. Т. 38. № 7. С. 925–940.</mixed-citation><mixed-citation xml:lang="en">Chzhang Dzh., Li V., Lyu TS. A review of machine learning algorithms for big data classification. Zhurnal mashinnogo obucheniya = Journal of Machine Learning. 2021; 38; 7: 925–940.</mixed-citation></citation-alternatives></ref><ref id="cit29"><label>29</label><citation-alternatives><mixed-citation xml:lang="ru">Нгуен Л., Тран Т., Нгуен Д. Классификация и кластеризация данных: методы и приложения // Журнал вычислительного интеллекта. 2019. Т. 31. № 1. С. 45–58.</mixed-citation><mixed-citation xml:lang="en">Nguyen L., Tran T., Nguyen D. Data classification and clustering: Methods and applications. Zhurnal vychislitel’nogo intellekta = Journal of Computational Intelligence. 2019; 31; 1: 45–58.</mixed-citation></citation-alternatives></ref><ref id="cit30"><label>30</label><citation-alternatives><mixed-citation xml:lang="ru">Чэн Х., Ли Т., Чжан Х. Применение кластеризации данных в здравоохранении и фи нансах // Журнал научных исследований данных. 2020. Т. 25. № 3. С. 200–214.</mixed-citation><mixed-citation xml:lang="en">Chen KH., Li T., Chzhan KH. Application of data clustering in healthcare and finance. Zhurnal nauchnykh issledovaniy dannykh = Journal of Scientific Data Research. 2020; 25; 3: 200–214.</mixed-citation></citation-alternatives></ref><ref id="cit31"><label>31</label><citation-alternatives><mixed-citation xml:lang="ru">Ли Д., Парк Дж., Ким С. Роль машинного обучения в маркетинговой аналитике // Научные исследования в области маркетинга. 2022. Т. 39. № 2. С. 189–204.</mixed-citation><mixed-citation xml:lang="en">Li D., Park Dzh., Kim S. The Role of Machine Learning in Marketing Analytics. Nauchnyye issledovaniya v oblasti marketinga = Scientific Research in Marketing. 2022; 39; 2: 189–204.</mixed-citation></citation-alternatives></ref><ref id="cit32"><label>32</label><citation-alternatives><mixed-citation xml:lang="ru">Василенко А., Фролов А., Макаров П. Современные методы обработки неструктурированных данных в новых технологиях // Журнал новых технологий. 2021. Т. 14. № 1. С. 112–124.</mixed-citation><mixed-citation xml:lang="en">Vasilenko A., Frolov A., Makarov P. Modern Methods of Processing Unstructured Data in New Technologies. Zhurnal novykh tekhnologiy = Journal of New Technologies. 2021; 14; 1: 112– 124. (In Russ.)</mixed-citation></citation-alternatives></ref><ref id="cit33"><label>33</label><citation-alternatives><mixed-citation xml:lang="ru">Chodpathumwan Y. Cost-effective data structural preparation. 2018.</mixed-citation><mixed-citation xml:lang="en">Chodpathumwan Y. Cost-effective data structural preparation. 2018.</mixed-citation></citation-alternatives></ref><ref id="cit34"><label>34</label><citation-alternatives><mixed-citation xml:lang="ru">Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques. 3rd ed. Elsevier, 2011.</mixed-citation><mixed-citation xml:lang="en">Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques. 3rd ed. Elsevier; 2011.</mixed-citation></citation-alternatives></ref><ref id="cit35"><label>35</label><citation-alternatives><mixed-citation xml:lang="ru">Aggarwal C. C., Reddy C. K. Data Clustering: Algorithms and Applications. CRC Press, 2014.</mixed-citation><mixed-citation xml:lang="en">Aggarwal C. C., Reddy C. K. Data Clustering: Algorithms and Applications. CRC Press; 2014.</mixed-citation></citation-alternatives></ref><ref id="cit36"><label>36</label><citation-alternatives><mixed-citation xml:lang="ru">Cambria E., Schuller B., Xia Y., Havasi C. New avenues in opinion mining and sentiment analysis // IEEE Intelligent Systems. 2017. Т. 28. № 2. С. 15–21.</mixed-citation><mixed-citation xml:lang="en">Cambria E., Schuller B., Xia Y., Havasi C. New avenues in opinion mining and sentiment analysis. IEEE Intelligent Systems. 2017; 28; 2: 15–21.</mixed-citation></citation-alternatives></ref><ref id="cit37"><label>37</label><citation-alternatives><mixed-citation xml:lang="ru">Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press, 2008.</mixed-citation><mixed-citation xml:lang="en">Manning C. D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge University Press; 2008.</mixed-citation></citation-alternatives></ref><ref id="cit38"><label>38</label><citation-alternatives><mixed-citation xml:lang="ru">Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016.</mixed-citation><mixed-citation xml:lang="en">Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press; 2016.</mixed-citation></citation-alternatives></ref><ref id="cit39"><label>39</label><citation-alternatives><mixed-citation xml:lang="ru">Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.</mixed-citation><mixed-citation xml:lang="en">Bishop C. M. Pattern Recognition and Machine Learning. Springer; 2006.</mixed-citation></citation-alternatives></ref><ref id="cit40"><label>40</label><citation-alternatives><mixed-citation xml:lang="ru">Pennington J., Socher R., Manning C.D. GloVe: Global Vectors for Word Representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014. С. 1532–1543.</mixed-citation><mixed-citation xml:lang="en">Pennington J., Socher R., Manning C. D. GloVe: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1532–1543</mixed-citation></citation-alternatives></ref><ref id="cit41"><label>41</label><citation-alternatives><mixed-citation xml:lang="ru"></mixed-citation><mixed-citation xml:lang="en"></mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
