Preview

Открытое образование

Расширенный поиск

Использование нейронной сети для генерирования изображений при обучении студентов разработке альтернативного текста

https://doi.org/10.21686/1818-4243-2024-1-9-20

Аннотация

Цель исследования: разработать и проверить подход к обучению составителей цифрового контента в части создания альтернативного текста, точно описывающего оригинальное изображение, с использованием нейронной сети для генерирования контрольных изображений, реконструируемых по тексту. Отсутствие в веб-ресурсе текстовых описаний к визуальному контенту ограничивает цифровую доступность, особенно для пользователей с нарушением зрения. Для обеспечения доступности каждое информативное изображение должно сопровождаться альтернативным текстом. Известно, что текстовые альтернативы, сгенерированные с помощью автоматических инструментов, уступают по качеству описаниям, выполненным человеком. Следовательно, составитель цифрового контента должен уметь разрабатывать альтернативный текст к изображениям. Выдвинуто предположение, что нейронная сеть, способная генерировать изображения по текстовым описаниям, может выступать в роли инструмента, служащего для проверки релевантности составляемых текстовых альтернатив.

Материалы и методы. Исследование выполнялось в апреле-мае 2023 года. 17 обучающихся бакалавриата изучили требования к разработке текстовых альтернатив, выполнили первичные текстовые описания к трем предложенным фотографиям, а затем откорректировали текст с использованием нейронной сети Kandinsky 2.1 согласно алгоритму: генерирование изображения по описанию; визуальное сравнение полученного изображения с оригиналом; возвращение к редактированию описания или завершение процесса. По первичным и итоговым описаниям исследователи воссоздали изображения с использованием той же нейронной сети. Дальнейшая работа заключалась в оценке качества всех текстовых описаний и сходства всех сгенерированных изображений с оригинальными. Результаты исследования (текстовые описания; оценки, выставленные экспертами; ссылки на сгенерированные изображения) опубликованы в виде набора данных в репозитории Mendeley Data. Для анализа данных использовали t-тест, корреляцию Пирсона и многомерную регрессию (при заданном уровне значимости p = 0,05).

Результаты. Установлено, что средние оценки качества первичных и итоговых текстовых описаний значимо не отличались (p > 0,05), также не было выявлено значимых отличий для длины текста (p > 0,05). При этом существенно (p < 0,05) возрастало сходство сгенерированных изображений с оригинальными фотографиями после использования обучающимися нейронной сети. Следовательно, тренировка в нейронной сети способствовала повышению качества (сходства с оригиналом) изображений, сгенерированных по измененным текстовым описаниям, без потери качества описаний. Обнаружено также, что качество итоговых текстовых альтернатив тем выше, чем больше их размер в пределах отведенного лимита, чем лучше и короче первичные описания (p < 0,05). Таким образом, лаконичные и точные альтернативные описания к изображениям после тренировки обучающихся в нейронной сети могут быть преобразованы в не менее качественные текстовые альтернативы, релевантность которых повышается за счет добавления в описание деталей сюжета.

Заключение. Нейронные сети для генерирования изображений могут быть применимы в качестве программного инструмента, стимулирующего потенциальных авторов контента к созданию более точного и полного альтернативного текста при сохранении его лаконичности. Представляется важным продолжить исследования, распространив их на изображения других типов, с использованием различных нейронный сетей.

Об авторах

Е. А. Косова
Крымский федеральный университет им. В.И. Вернадского
Россия

Екатерина Алексеевна Косова, к.п.н., доцент, заведующая кафедрой прикладной математики Физико-технического института,

Симферополь.



К. И. Редкокош
Крымский федеральный университет им. В.И. Вернадского
Россия

Кирилл Игоревич Редкокош, Аспирант,

Симферополь.



П. О. Михеев
Крымский федеральный университет им. В.И. Вернадского
Россия

Павел Олегович Михеев, Студент,

Симферополь.



Список литературы

1. Web Content Accessibility Guidelines (WCAG) 2.1. [Электрон. ресурс]. 2018. Режим доступа: https://www.w3.org/TR/WCAG21/ (Дата обращения: 22.11.2023).

2. Web Content Accessibility Guidelines (WCAG) 2.2. [Электрон. ресурс]. 2023. Режим доступа: https://www.w3.org/TR/WCAG22/ (Дата обращения: 22.11.2023).

3. World Blind Union [Электрон. ресурс]. 2023. Режим доступа: https://worldblindunion.org/ (Дата обращения: 22.11.2023).

4. Gill K., Sharma R., Gupta R. Empowering visually impaired students through e-learning at higher education: problems and solutions // IOSR Journal of Humanities and Social Science. 2017. Т. 22. № 8. С. 27–35. DOI: 10.9790/0837-2208072735.

5. Marghalani A. Online courses accessibility for low-vision [Электрон. ресурс] // In 2020 AECT Convention Proceedings. 2020. С. 1–37. Режим доступа: https://members.aect.org/pdf/Proceedings/proceedings20/2020/20_03.pdf (Дата обращения: 22.11.2023).

6. Jung C., Mehta S., Kulkarni A., Zhao Y., Kim Y.-S. Communicating Visualizations without Visuals: Investigation of Visualization Alternative Text for People with Visual Impairments // In IEEE Transactions on Visualization and Computer Graphics. 2022. Т. 28. № 1. С. 1095–1105. DOI: 10.1109/TVCG.2021.3114846.

7. The WebAIM million: Images and alternative text [Электрон. ресурс]. 2023. Режим доступа: https://webaim.org/projects/million/#alttext (Дата обращения: 22.11.2023).

8. Usage statistics of image file formats for websites [Электрон. ресурс]. 2023. Режим доступа: https://w3techs.com/technologies/overview/image_format (Дата обращения: 22.11.2023).

9. Sharma H., Agrahari M., Singh S.K., Firoj M., Mishra R.K. Image Captioning: A Comprehensive Survey // In 2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and its Control (PARC), Mathura, India. 2020. С. 325–328. DOI: 10.1109/PARC49193.2020.236619.

10. Hanley M., Barocas S., Levy K., Azenkot S., Nissenbaum H. Computer Vision and Conflicting Values: Describing People with Automated Alt Text // In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21). Association for Computing Machinery, New York, NY, USA. 2021. С. 543–554. DOI: 10.1145/3461702.3462620.

11. Lee J., Peng Y.H., Herskovitz J., Guo A. Image Explorer: Multi-Layered Touch Exploration to Make Images Accessible // In Proceedings of the 23rd International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS ‘21). Association for Computing Machinery, New York, NY, USA. 2021. Article 69. С. 1–4. DOI: 10.1145/3441852.3476548.

12. Mack K., Cutrell E., Lee B., Morris M.R. Designing Tools for High-Quality Alt Text Authoring // In Proceedings of the 23rd International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS ‘21). ssociation for Computing Machinery, New York, NY, USA. 2021. Article 23. С. 1–14. DOI: 10.1145/3441852.3471207.

13. Jeong H., Chun V., Lee H., Oh S.Y., Jung H. WATAA: Web Alternative Text Authoring Assistant for Improving Web Content Accessibility // In Companion Proceedings of the 28th International Conference on Intelligent User Interfaces (IUI ‘23 Companion). Association for Computing Machinery, New York, NY, USA. 2023. С. 41–45. DOI: 10.1145/3581754.3584127.

14. Salisbury E., Kamar E., Morris M. Toward Scalable Social Alt Text: Conversational Crowdsourcing as a Tool for Refining Vision-toLanguage Technology for the Blind // Proceedings of the AAAI Conference on Human Computation and Crowdsourcing. 2017. № 5(1). С. 147–156. DOI: 10.1609/hcomp.v5i1.13301.

15. Edwards E.J., Gilbert M., Blank E., Branham S.M. How the Alt Text Gets Made: What Roles and Processes of Alt Text Creation Can Teach Us About Inclusive Imagery // ACM Trans. Access. Comput. 2023. № 16(2). С. 1–18. DOI: 10.1145/3587469.

16. Chintalapati S.S., Bragg J., Wang L.L. A Dataset of Alt Texts from HCI Publications: Analyses and Uses Towards Producing More Descriptive Alt Texts of Data Visualizations in Scientific Papers // In Proceedings of the 24th International ACM SIGACCESS Conference on Computers and Accessibility (ASSETS ‘22). Association for Computing Machinery, New York, NY, USA. 2022. С. 1–12. DOI: 10.1145/3517428.3544796.

17. Morash V.S., Siu Y.-T., Miele J.A., Hasty L., Landau S. Guiding Novice Web Workers in Making Image Descriptions Using Templates // ACM Trans. Access. Comput. 2015. Т. 7. № 4. С. 1–21. DOI: 10.1145/2764916.

18. Gleason C., Pavel A., Liu X., Carrington P., Chilton L.B., Bigham J.P. Making Memes Accessible // In The 21st International ACM SIGACCESS Conference on Computers and Accessibility (Pittsburgh, PA, USA) (ASSETS ’19). Association for Computing Machinery, New York, NY, USA. 2019. С. 367–376. DOI: 10.1145/3308561.3353792.

19. Midjourney [Электрон. ресурс]. 2023. Режим доступа: https://www.midjourney.com/home?callbackUrl=%2Fexplore (Дата обращения: 22.11.2023).

20. DALL-E [Электрон. ресурс]. 2023. Режим доступа: https://openai.com/dall-e-2

21. Kandinsky [Электрон. ресурс]. 2023. Режим доступа: https://rudalle.ru/kandinsky2 (Дата обращения: 22.11.2023).

22. Alternative Text [Электрон. ресурс]. 2023. Режим доступа: https://webaim.org/techniques/alttext/ (Дата обращения: 22.11.2023).

23. Images Tutorial [Электрон. ресурс]. 2022. Режим доступа: https://www.w3.org/WAI/tutorials/images/ (Дата обращения: 22.11.2023).

24. Добавление замещающего текста к фигуре, картинке, диаграмме, рисунку SmartArt или к другому объекту [Электрон. ресурс]. 2023. Режим доступа: https://support.microsoft.com/ru-ru/office/83-44989b2a-903c-4d9a-b742-6a75b451c669 (Дата обращения: 22.11.2023).

25. ГОСТ Р 57891-2022. Тифлокомментирование и тифлокомментарий. Термины и определения: дата введения 2022-01-01 / ФГБУ «РСТ», НУ ИПРПП ВОС «Реакомп» [Электрон. ресурс]. 2022. Режим доступа: https://nd.gostinfo.ru/document/6880129.aspx (Дата обращения: 15.12.2023).

26. Об установлении порядка обеспечения условий доступности для инвалидов по зрению официальных сайтов государственных органов, органов местного самоуправления и подведомственных организаций в информационно-телекоммуникационной сети «Интернет» [Приказ Министерства цифрового развития, связи и массовых коммуникаций РФ от 12 декабря 2022 г. N 931] [Электрон. ресурс]. 2022. Режим доступа: https://www.garant.ru/products/ipo/prime/doc/405916637/ (Дата обращения: 15.12.2023).

27. Lunch atop a Skyscraper [Электрон. ресурс]. 2023. Режим доступа: https://en.wikipedia.org/wiki/Lunch_atop_a_Skyscraper (Дата обращения: 15.12.2023).

28. Apollo 11 [Электрон. ресурс]. 2023. Режим доступа: https://en.wikipedia.org/wiki/Apollo_11 (Дата обращения: 15.12.2023).

29. Drysdale J., Regan M. Our Peaceable Kingdom: The photographs of John Drysdale. New York: St. Martin’s Press, 2000. 112 с.

30. Chaddock R.E. Principles and methods of statistics. Boston: Houghton Mifflin Company, 1925. 471 с.

31. Maerten A.-S., Soydaner D. From paintbrush to pixel: A review of deep neural networks in AI-generated art. 2023. DOI: 10.48550/arXiv.2302.10913.


Рецензия

Для цитирования:


Косова Е.А., Редкокош К.И., Михеев П.О. Использование нейронной сети для генерирования изображений при обучении студентов разработке альтернативного текста. Открытое образование. 2024;28(1):9-20. https://doi.org/10.21686/1818-4243-2024-1-9-20

For citation:


Kosova Ye.A., Redkokosh K.I., Mikheyev P.O. Using A Neural Network to Generate Images When Teaching Students to Develop an Alternative Text. Open Education. 2024;28(1):9-20. (In Russ.) https://doi.org/10.21686/1818-4243-2024-1-9-20

Просмотров: 389


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-4243 (Print)
ISSN 2079-5939 (Online)