Использование адаптивных методов оптимизации при обучении нейронной сети для задачи генерации текста
Ключевые слова:
нейронная сеть, LSTM, генерация текста, обучение, адаптивные методы, скорость обучения ADAMАннотация
В статье рассматривается принцип работы сети для решения задачи генерации текста, а также способ ее реализации. Для этого изучена архитектура LSTM сетей, а для более продуктивного обучения обращено внимание на адаптивные методы обучения. В результате работы проведено сравнение обучения сети с применением адаптивных методов и без использования таковых, которое позволило сделать вывод, что использование адаптивных методов значительно улучшает работу нейронной сети на этапе обучения.
Библиографические ссылки
Парсаданян, Я. Р. Теоретический анализ принципа работы нейронных сетей / Я. Р. Парса-данян, А. В. Боднар // Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2022): сборник научных трудов IV научно-практической конференции (студенческая секция), 29-30 ноября 2022 г. – Донецк, ДонНТУ, 2022. - Том 2.
Грачёв, А. М. Методы сжатия рекуррентных нейронных сетей для задач обработки естественного языка // Национальный исследовательский институт «Высшая школа экономики» - Москва, 2019.
Парсаданян, Я. Р. Теоретический анализ методов сжатия рекурсивных нейронных сетей и их практических результатов / Я. Р. Парсаданян, А. В. Боднар // Современные информационные технологии в образовании и научных исследованиях (СИТОНИ-2023) : сб. материалов VIII Всерос. науч.-техн. конф., г. Донецк, 29 ноября 2023 г. / отв. ред. В.Н. Павлыш. – Донецк : ДонНТУ, 2023.
Хабиб, Ж. М. Т. Сравнение методов анализа настроений глубокого обучения, включая LSTM и машинное обучение / Ж. М. Т. Хабиб, А. А. Погуда // Открытое образование. – 2023. – Т. 27. - № 4. – С. 60-71. – DOI 10.21686/1818-4243-2023-4-60-71. – EDN QERCPQ.
Зоткина, А. А. Решение проблем рекуррентной нейронной сети при помощи модели "долговременной кратковременной памяти" / А. А. Зоткина, Н. С. Шиндина // Современные информационные технологии. – 2023. – № 37(37). – С. 18-20. – EDN BMPDGV.
Khafaga D. S. Improved Prediction of Metamaterial Antenna Bandwidth Using Adaptive Optimization of LSTM / Doaa Sami Khafaga, AmelAliAlhussan, El-SayedM.El-kenawy, Abdelhameed Ibrahim, Said H. Abd Elkhalik, Shady Y. El-Mashad, Abdelaziz A. Abdelhamid // Computers, Materials & Continua, 2022. – 73(1). -Р. 865-881.
Строим градиентные алгоритмы оптимизации Adam, RMSProp, Adagrad, Adadelta [Электронный ресурс]. – Режим доступа: https://proproprogs.ru/tensorflow/tf-stroim-gradientnye-algoritmy-optimizacii-adam-rmsprop-adagrad-adadelta
Бритов, В. С. Обзор и сравнение методов оптимизации применяемых в машинном обучении / В. С. Бритов, А. И. Мартышкин, Е. А. Данилов // Тенденции развития науки и образования. – 2023. – № 97-12. – С. 45-49. – DOI 10.18411/trnio-05-2023-655. – EDN WPBHBM.
How using adaptive methods can help your network perform better [Электронный ресурс]. – Режим доступа: https://medium.com/bedrockdbd/how-using-adaptive-methods -can-help-your-network-perform-better-bcdd36b9214e
Пелин, В. О. Исследовательский анализ алгоритмов оптимизации искусственных нейронных сетей для задач прогнозирования / В. О. Пелин, Н. А. Акпаралиев // Сборник трудов VII Конгресса молодых ученых, Санкт-Петербург, 17–20 апреля 2018 года. – Санкт-Петербург: Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, 2018. – Т. 1. - С. 164-167. – EDN NEUUOE.
Kingma, D. P. Adam: a Method for Stochastic Optimization / D. P. Kingma, J. L. Ba // International Conference on Learning Representations. – 2016. – V. 53. – P. 1–13.