Использование нейронной сети для генерирования изображений при обучении студентов разработке альтернативного текста
https://doi.org/10.21686/1818-4243-2024-1-9-20
Аннотация
Цель исследования: разработать и проверить подход к обучению составителей цифрового контента в части создания альтернативного текста, точно описывающего оригинальное изображение, с использованием нейронной сети для генерирования контрольных изображений, реконструируемых по тексту. Отсутствие в веб-ресурсе текстовых описаний к визуальному контенту ограничивает цифровую доступность, особенно для пользователей с нарушением зрения. Для обеспечения доступности каждое информативное изображение должно сопровождаться альтернативным текстом. Известно, что текстовые альтернативы, сгенерированные с помощью автоматических инструментов, уступают по качеству описаниям, выполненным человеком. Следовательно, составитель цифрового контента должен уметь разрабатывать альтернативный текст к изображениям. Выдвинуто предположение, что нейронная сеть, способная генерировать изображения по текстовым описаниям, может выступать в роли инструмента, служащего для проверки релевантности составляемых текстовых альтернатив.
Материалы и методы. Исследование выполнялось в апреле-мае 2023 года. 17 обучающихся бакалавриата изучили требования к разработке текстовых альтернатив, выполнили первичные текстовые описания к трем предложенным фотографиям, а затем откорректировали текст с использованием нейронной сети Kandinsky 2.1 согласно алгоритму: генерирование изображения по описанию; визуальное сравнение полученного изображения с оригиналом; возвращение к редактированию описания или завершение процесса. По первичным и итоговым описаниям исследователи воссоздали изображения с использованием той же нейронной сети. Дальнейшая работа заключалась в оценке качества всех текстовых описаний и сходства всех сгенерированных изображений с оригинальными. Результаты исследования (текстовые описания; оценки, выставленные экспертами; ссылки на сгенерированные изображения) опубликованы в виде набора данных в репозитории Mendeley Data. Для анализа данных использовали t-тест, корреляцию Пирсона и многомерную регрессию (при заданном уровне значимости p = 0,05).
Результаты. Установлено, что средние оценки качества первичных и итоговых текстовых описаний значимо не отличались (p > 0,05), также не было выявлено значимых отличий для длины текста (p > 0,05). При этом существенно (p < 0,05) возрастало сходство сгенерированных изображений с оригинальными фотографиями после использования обучающимися нейронной сети. Следовательно, тренировка в нейронной сети способствовала повышению качества (сходства с оригиналом) изображений, сгенерированных по измененным текстовым описаниям, без потери качества описаний. Обнаружено также, что качество итоговых текстовых альтернатив тем выше, чем больше их размер в пределах отведенного лимита, чем лучше и короче первичные описания (p < 0,05). Таким образом, лаконичные и точные альтернативные описания к изображениям после тренировки обучающихся в нейронной сети могут быть преобразованы в не менее качественные текстовые альтернативы, релевантность которых повышается за счет добавления в описание деталей сюжета.
Заключение. Нейронные сети для генерирования изображений могут быть применимы в качестве программного инструмента, стимулирующего потенциальных авторов контента к созданию более точного и полного альтернативного текста при сохранении его лаконичности. Представляется важным продолжить исследования, распространив их на изображения других типов, с использованием различных нейронный сетей.
Об авторах
Е. А. КосоваРоссия
Екатерина Алексеевна Косова, к.п.н., доцент, заведующая кафедрой прикладной математики Физико-технического института,
Симферополь.
К. И. Редкокош
Россия
Кирилл Игоревич Редкокош, Аспирант,
Симферополь.
П. О. Михеев
Россия
Павел Олегович Михеев, Студент,
Симферополь.
Список литературы
1. Web Content Accessibility Guidelines (WCAG) 2.1. [Электрон. ресурс]. 2018. Режим доступа: https://www.w3.org/TR/WCAG21/ (Дата обращения: 22.11.2023).
2. Web Content Accessibility Guidelines (WCAG) 2.2. [Электрон. ресурс]. 2023. Режим доступа: https://www.w3.org/TR/WCAG22/ (Дата обращения: 22.11.2023).
3. World Blind Union [Электрон. ресурс]. 2023. Режим доступа: https://worldblindunion.org/ (Дата обращения: 22.11.2023).
4. Gill K., Sharma R., Gupta R. Empowering visually impaired students through e-learning at higher education: problems and solutions // IOSR Journal of Humanities and Social Science. 2017. Т. 22. № 8. С. 27–35. DOI: 10.9790/0837-2208072735.
5. Marghalani A. Online courses accessibility for low-vision [Электрон. ресурс] // In 2020 AECT Convention Proceedings. 2020. С. 1–37. Режим доступа: https://members.aect.org/pdf/Proceedings/proceedings20/2020/20_03.pdf (Дата обращения: 22.11.2023).
6. Jung C., Mehta S., Kulkarni A., Zhao Y., Kim Y.-S. Communicating Visualizations without Visuals: Investigation of Visualization Alternative Text for People with Visual Impairments // In IEEE Transactions on Visualization and Computer Graphics. 2022. Т. 28. № 1. С. 1095–1105. DOI: 10.1109/TVCG.2021.3114846.
7. The WebAIM million: Images and alternative text [Электрон. ресурс]. 2023. Режим доступа: https://webaim.org/projects/million/#alttext (Дата обращения: 22.11.2023).
8. Usage statistics of image file formats for websites [Электрон. ресурс]. 2023. Режим доступа: https://w3techs.com/technologies/overview/image_format (Дата обращения: 22.11.2023).
9. Sharma H., Agrahari M., Singh S.K., Firoj M., Mishra R.K. Image Captioning: A Comprehensive Survey // In 2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and its Control (PARC), Mathura, India. 2020. С. 325–328. DOI: 10.1109/PARC49193.2020.236619.
10. Hanley M., Barocas S., Levy K., Azenkot S., Nissenbaum H. Computer Vision and Conflicting Values: Describing People with Automated Alt Text // In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21). Association for Computing Machinery, New York, NY, USA. 2021. С. 543–554. DOI: 10.1145/3461702.3462620.
11. Lee J., Peng Y.H., Herskovitz J., Guo A. Image Explorer: Multi-Layered Touch Exploration to Make Images Accessible // In Proceedings of the 23rd International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS ‘21). Association for Computing Machinery, New York, NY, USA. 2021. Article 69. С. 1–4. DOI: 10.1145/3441852.3476548.
12. Mack K., Cutrell E., Lee B., Morris M.R. Designing Tools for High-Quality Alt Text Authoring // In Proceedings of the 23rd International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS ‘21). ssociation for Computing Machinery, New York, NY, USA. 2021. Article 23. С. 1–14. DOI: 10.1145/3441852.3471207.
13. Jeong H., Chun V., Lee H., Oh S.Y., Jung H. WATAA: Web Alternative Text Authoring Assistant for Improving Web Content Accessibility // In Companion Proceedings of the 28th International Conference on Intelligent User Interfaces (IUI ‘23 Companion). Association for Computing Machinery, New York, NY, USA. 2023. С. 41–45. DOI: 10.1145/3581754.3584127.
14. Salisbury E., Kamar E., Morris M. Toward Scalable Social Alt Text: Conversational Crowdsourcing as a Tool for Refining Vision-toLanguage Technology for the Blind // Proceedings of the AAAI Conference on Human Computation and Crowdsourcing. 2017. № 5(1). С. 147–156. DOI: 10.1609/hcomp.v5i1.13301.
15. Edwards E.J., Gilbert M., Blank E., Branham S.M. How the Alt Text Gets Made: What Roles and Processes of Alt Text Creation Can Teach Us About Inclusive Imagery // ACM Trans. Access. Comput. 2023. № 16(2). С. 1–18. DOI: 10.1145/3587469.
16. Chintalapati S.S., Bragg J., Wang L.L. A Dataset of Alt Texts from HCI Publications: Analyses and Uses Towards Producing More Descriptive Alt Texts of Data Visualizations in Scientific Papers // In Proceedings of the 24th International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS ‘22). Association for Computing Machinery, New York, NY, USA. 2022. С. 1–12. DOI: 10.1145/3517428.3544796.
17. Morash V.S., Siu Y.-T., Miele J.A., Hasty L., Landau S. Guiding Novice Web Workers in Making Image Descriptions Using Templates // ACM Trans. Access. Comput. 2015. Т. 7. № 4. С. 1–21. DOI: 10.1145/2764916.
18. Gleason C., Pavel A., Liu X., Carrington P., Chilton L.B., Bigham J.P. Making Memes Accessible // In The 21st International ACM SIGACCESS Conference on Computers and Accessibility (Pittsburgh, PA, USA) (ASSETS ’19). Association for Computing Machinery, New York, NY, USA. 2019. С. 367–376. DOI: 10.1145/3308561.3353792.
19. Midjourney [Электрон. ресурс]. 2023. Режим доступа: https://www.midjourney.com/home?callbackUrl=%2Fexplore (Дата обращения: 22.11.2023).
20. DALL-E [Электрон. ресурс]. 2023. Режим доступа: https://openai.com/dall-e-2
21. Kandinsky [Электрон. ресурс]. 2023. Режим доступа: https://rudalle.ru/kandinsky2 (Дата обращения: 22.11.2023).
22. Alternative Text [Электрон. ресурс]. 2023. Режим доступа: https://webaim.org/techniques/alttext/ (Дата обращения: 22.11.2023).
23. Images Tutorial [Электрон. ресурс]. 2022. Режим доступа: https://www.w3.org/WAI/tutorials/images/ (Дата обращения: 22.11.2023).
24. Добавление замещающего текста к фигуре, картинке, диаграмме, рисунку SmartArt или к другому объекту [Электрон. ресурс]. 2023. Режим доступа: https://support.microsoft.com/ru-ru/office/83-44989b2a-903c-4d9a-b742-6a75b451c669 (Дата обращения: 22.11.2023).
25. ГОСТ Р 57891-2022. Тифлокомментирование и тифлокомментарий. Термины и определения: дата введения 2022-01-01 / ФГБУ «РСТ», НУ ИПРПП ВОС «Реакомп» [Электрон. ресурс]. 2022. Режим доступа: https://nd.gostinfo.ru/document/6880129.aspx (Дата обращения: 15.12.2023).
26. Об установлении порядка обеспечения условий доступности для инвалидов по зрению официальных сайтов государственных органов, органов местного самоуправления и подведомственных организаций в информационно-телекоммуникационной сети «Интернет» [Приказ Министерства цифрового развития, связи и массовых коммуникаций РФ от 12 декабря 2022 г. N 931] [Электрон. ресурс]. 2022. Режим доступа: https://www.garant.ru/products/ipo/prime/doc/405916637/ (Дата обращения: 15.12.2023).
27. Lunch atop a Skyscraper [Электрон. ресурс]. 2023. Режим доступа: https://en.wikipedia.org/wiki/Lunch_atop_a_Skyscraper (Дата обращения: 15.12.2023).
28. Apollo 11 [Электрон. ресурс]. 2023. Режим доступа: https://en.wikipedia.org/wiki/Apollo_11 (Дата обращения: 15.12.2023).
29. Drysdale J., Regan M. Our Peaceable Kingdom: The photographs of John Drysdale. New York: St. Martin’s Press, 2000. 112 с.
30. Chaddock R.E. Principles and methods of statistics. Boston: Houghton Mifflin Company, 1925. 471 с.
31. Maerten A.-S., Soydaner D. From paintbrush to pixel: A review of deep neural networks in AI-generated art. 2023. DOI: 10.48550/arXiv.2302.10913.
Рецензия
Для цитирования:
Косова Е.А., Редкокош К.И., Михеев П.О. Использование нейронной сети для генерирования изображений при обучении студентов разработке альтернативного текста. Открытое образование. 2024;28(1):9-20. https://doi.org/10.21686/1818-4243-2024-1-9-20
For citation:
Kosova Ye.A., Redkokosh K.I., Mikheyev P.O. Using A Neural Network to Generate Images When Teaching Students to Develop an Alternative Text. Open Education. 2024;28(1):9-20. (In Russ.) https://doi.org/10.21686/1818-4243-2024-1-9-20