The use of adaptive optimization methods in training a neural network for the task of text generation
Keywords:
neural network, LSTM, text generation, learning, adaptive methods, learning rate ADAMAbstract
The article discusses the principle of the network for solving the problem of text generation, as well as the method of its implementation. To do this, the architecture of LTE networks has been studied, and for more productive learning, attention has been paid to adaptive learning methods. As a result of the work, we obtained a comparison of network training using adaptive methods without using them.
References
Парсаданян, Я. Р. Теоретический анализ принципа работы нейронных сетей / Я. Р. Парса-данян, А. В. Боднар // Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2022): сборник научных трудов IV научно-практической конференции (студенческая секция), 29-30 ноября 2022 г. – Донецк, ДонНТУ, 2022. - Том 2.
Грачёв, А. М. Методы сжатия рекуррентных нейронных сетей для задач обработки естественного языка // Национальный исследовательский институт «Высшая школа экономики» - Москва, 2019.
Парсаданян, Я. Р. Теоретический анализ методов сжатия рекурсивных нейронных сетей и их практических результатов / Я. Р. Парсаданян, А. В. Боднар // Современные информационные технологии в образовании и научных исследованиях (СИТОНИ-2023) : сб. материалов VIII Всерос. науч.-техн. конф., г. Донецк, 29 ноября 2023 г. / отв. ред. В.Н. Павлыш. – Донецк : ДонНТУ, 2023.
Хабиб, Ж. М. Т. Сравнение методов анализа настроений глубокого обучения, включая LSTM и машинное обучение / Ж. М. Т. Хабиб, А. А. Погуда // Открытое образование. – 2023. – Т. 27. - № 4. – С. 60-71. – DOI 10.21686/1818-4243-2023-4-60-71. – EDN QERCPQ.
Зоткина, А. А. Решение проблем рекуррентной нейронной сети при помощи модели "долговременной кратковременной памяти" / А. А. Зоткина, Н. С. Шиндина // Современные информационные технологии. – 2023. – № 37(37). – С. 18-20. – EDN BMPDGV.
Khafaga D. S. Improved Prediction of Metamaterial Antenna Bandwidth Using Adaptive Optimization of LSTM / Doaa Sami Khafaga, AmelAliAlhussan, El-SayedM.El-kenawy, Abdelhameed Ibrahim, Said H. Abd Elkhalik, Shady Y. El-Mashad, Abdelaziz A. Abdelhamid // Computers, Materials & Continua, 2022. – 73(1). -Р. 865-881.
Строим градиентные алгоритмы оптимизации Adam, RMSProp, Adagrad, Adadelta [Электронный ресурс]. – Режим доступа: https://proproprogs.ru/tensorflow/tf-stroim-gradientnye-algoritmy-optimizacii-adam-rmsprop-adagrad-adadelta
Бритов, В. С. Обзор и сравнение методов оптимизации применяемых в машинном обучении / В. С. Бритов, А. И. Мартышкин, Е. А. Данилов // Тенденции развития науки и образования. – 2023. – № 97-12. – С. 45-49. – DOI 10.18411/trnio-05-2023-655. – EDN WPBHBM.
How using adaptive methods can help your network perform better [Электронный ресурс]. – Режим доступа: https://medium.com/bedrockdbd/how-using-adaptive-methods -can-help-your-network-perform-better-bcdd36b9214e
Пелин, В. О. Исследовательский анализ алгоритмов оптимизации искусственных нейронных сетей для задач прогнозирования / В. О. Пелин, Н. А. Акпаралиев // Сборник трудов VII Конгресса молодых ученых, Санкт-Петербург, 17–20 апреля 2018 года. – Санкт-Петербург: Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, 2018. – Т. 1. - С. 164-167. – EDN NEUUOE.
Kingma, D. P. Adam: a Method for Stochastic Optimization / D. P. Kingma, J. L. Ba // International Conference on Learning Representations. – 2016. – V. 53. – P. 1–13.