Разработка системы управления курсом беспилотного автомобиля на основе обучения с подкреплением
А. Е. Ушаков, М. М. Стебулянин, М. А. Шереужев, Ф. В. Девяткин
Загрузить полный текст
Аннотация: Рост развития автономного транспорта связан с повышением безопасности на дорогах, снижением столкновений и повышением эффективности логистических операций. На безопасность также влияет такой фактор, как усложнение дорожных условий и задач, связанных с навигацией и управлением автомобиля, и поэтому традиционные алгоритмы управления оказываются недостаточно качественными и эффективными. Цель исследования – разработка интеллектуальной системы, которая позволяет автономному транспортному средству самостоятельно управлять курсом движения автономного агента (модель автомобиля), который обучается навигации и следованию по заданному курсу с помощью обучения с подкреплением на основе взаимодействия с имитационной средой методом актер-критик. Материалы и методы. В данной работе для реализации и обучения модели с подкреплением использовалась библиотека Stable-Baselines3 (SB3), построенная на фреймворке PyTorch. В качестве среды обучения использовался симулятор DonkayCar. Для повышения скорости и эффективности обучения был применен алгоритм шумоподавляющего автокодера для выделения зоны интереса. Результаты. В рамках исследования была проведена серия сравнительных тестов, направленных на оценку влияния различных параметров эффективности обучения модели – ограничение скорости, ограничение угла поворота колес, ширины допустимого отклонения, непрерывности движения, коэффициента дисконтирования, частоты отрисовки кадров. Выводы. Результаты исследования позволяют сделать выводы о потенциале использования обучения с подкреплением в сфере автономного транспорта, включая необходимость дообучения модели на реальных данных, перспективы масштабирования на транспортные средства различного класса, ограничения, связанные с вычислительными ресурсами и необходимостью безопасной верификации поведения.
Ключевые слова: обучение с подкреплением, беспилотный автомобиль, Q-learning, DQN (Deep Q-Network), актер-критик, имитационное моделирование, интеллектуальная система, симуляционная среда, устойчивость обучения
Для цитирования. Ушаков А. Е., Стебулянин М. М., Шереужев М. А., Девяткин Ф. В. Разработка системы управления курсом беспилотного автомобиля на основе обучения с подкреплением // Известия Кабардино-Балкарского научного центра РАН. 2025. Т. 27. № 3. С. 39–54. DOI: 10.35330/1991-6639-2025-27-3-39-54
Список литературы
- Сыркин И. С., Дубинкин Д. М., Юнусов И. Ф., Ушаков А. Е. Системы управления автономного карьерного самосвала // Россия молодая: сб. материалов XIV Всероссийской науч.-практ. конф. с междунар. участием, Кемерово, 19–21 апр. 2022 г. Кемерово: Кузбасский гос. техн. ун-т им. Т. Ф. Горбачева, 2022. С. 420071–420078. EDN: CXHGOK
- Syrkin I.S., Dubinkin D.M., Yunusov I.F., Ushakov A.E. Control systems of autonomous mining dump trucks. Young Russia: Proceedings of the XIV All-Russian Scientific and Practical Conference with International Participation, Kemerovo, April 19–21, 2022. Kemerovo: T.F. Gorbachev Kuzbass State Technical University, 2022. Pp. 420071–420078. EDN: CXHGOK. (In Russian)
- Toromanoff M., Wirbel E., Moutarde F. End-to-end model-free reinforcement learning for urban driving using implicit affordances. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. С. 7151–7160. DOI: 10.1109/CVPR42600.2020.00718
- Sauer A., Savinov N., Geiger A. Conditional affordance learning for driving in urban environments. Proceedings of the Conference on Robot Learning (CoRL). 2018. DOI: 10.48550/arXiv.1806.06498
- Шереужев М. А., У Го, Серебренный В. В. Модификация алгоритма глубокого обучения для распределения функций и задач между робототехническим комплексом и человеком в условиях неопределенности и переменности окружающей среды // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 208–218. DOI: 10.35330/1991-6639-2024-26-6-208-218.
- Shereuzhev M.A., U Gо, Serebrenny V.V. Modification of a deep learning algorithm for the distribution of functions and tasks between a robotic system and a human under conditions of uncertainty and environmental variability. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. P. 208–218. DOI: 10.35330/1991-6639-2024-26-6-208-218. (In Russian)
- Tampuu A., Semikin M., Muhammad N. et al. Survey of end-to-end driving: Architectures and training methods: arXiv preprint arXiv:2003.06404. 2020.
- Лютикова Л. А. Применение метода машинного обучения для анализа неполных данных // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6.
С. 139–145. DOI: 10.35330/1991-6639-2024-26-6-139-145. - Lyutikova L.A. Application of a machine learning method for the analysis of incomplete data. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. Pp. 139–145. DOI: 10.35330/1991-6639-2024-26-6-139-145. (In Russian)
- Шереужев М. А., Арабаджиев Д. И., Семянников И. В. Моделирование алгоритма предотвращения столкновений в робототехнических коллаборативных системах // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 67–81. DOI: 10.35330/1991-6639-2024-26-6-67-81.
- Shereuzhev M.A., Arabadzhiev D.I., Semyannikov I.V. Modeling of a collision avoidance algorithm in collaborative robotic systems. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. Pp. 67–81. DOI: 10.35330/1991-6639-2024-26-6-67-81. (In Russian)
- He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas (NV), 2016. Pp. 770–778. DOI: 10.1109/CVPR.2016.90
- Петренко В. И. Классификация задач мультиагентного обучения с подкреплением // Известия Кабардино-Балкарского научного центра РАН. 2021. Т. 3. № 101. С. 32–44. DOI: 10.35330/1991-6639-2021-3-101-32-44.
- Petrenko V.I. Classification of multi-agent reinforcement learning tasks. News of the Kabardino-Balkarian Scientific Center of RAS. 2021. Vol. 3. No. 101. Pp. 32–44. DOI: 10.35330/1991-6639-2021-3-101-32-44. (In Russian)
- Коул А., Ганджу С., Казам М. Искусственный интеллект и компьютерное зрение: реальные проекты на Python, Keras и TensorFlow. Санкт-Петербург: Питер, 2019. 356 с. ISBN: 978-1-492-04305-0.
- Cole A., Gandju S., Kazam M. Iskusstvennyy intellekt i komp’yuternoye zreniye: real’nyye proyekty na Python, Keras i TensorFlow [Artificial intelligence and computer vision: Real projects using Python, Keras, and TensorFlow]. St. Petersburg: Piter, 2019. 356 p. ISBN: 978-1-492-04305-0. (In Russian)
- Ушаков А. Е., Стебулянин М. М. Исследование параметров обучения модели для системы управления курсом движения // Интернаука: электронный научный журнал. 2025. № 1-3(365). С. 53–57. EDN: OXPGLQ
- Ushakov A.E., Stebulyanin M.M. Study of model training parameters for a course control system. Internauka. 2025. No. 1-3(365). Pp. 53–57. EDN: OXPGLQ. (In Russian)
- Ушаков А. Е. Использование симулятора для исследования технологий автономного движения // Российская наука в современном мире: сборник статей LXVII международной научно-практической конференции, Москва, 15 января 2025 г. М.: Актуальность. РФ, 2025. С. 155–158. EDN: JFUWYO
- Ushakov A.E. Using a simulator to study autonomous driving technologies. Russian Science in the Modern World: Proceedings of the LXVII International Scientific and Practical Conference. Moscow, January 15, 2025. Moscow: Aktualnost. RF, 2025. Pp. 155–158. EDN: JFUWYO. (In Russian)
- Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 2018. 552 с.
- Liang X., Wang T., Yang L., Xing E. CIRL: Controllable imitative reinforcement learning for vision-based self-driving. Proceedings of the European Conference on Computer Vision (ECCV). 2018. DOI: 10.48550/arXiv.1807.03776
- Шереужев М. А., Шереужев М. А., Кишев А. Ю. Вопросы выбора системы технического зрения сельскохозяйственных робототехнических комплексов для контроля сорной растительности // Известия Кабардино-Балкарского научного центра РАН. 2022. № 4(108). С. 84–95. DOI: 10.35330/1991-6639-2022-4-108-84-95
- Shereuzhev M.A., Shereuzhev M.A., Kishev A.Yu. Issues of selecting a machine vision system for agricultural robotic complexes for weed control. News of the Kabardino-Balkarian Scientific Center of RAS. 2022. No. 4(108). Pp. 84–95. DOI: 10.35330/1991-6639-2022-4-108-84-95. (In Russian)
- Chen D., Zhou B., Koltun V., Krähenbühl P. Learning by Cheating: arXiv preprint arXiv:1912.12294. 2019
Информация об автора
Ушаков Александр Евгеньевич, аспирант, инженер-исследователь кафедры «Роботехника и мехатроника», Московский государственный технологический университет «СТАНКИН»;
127055, Россия, Москва, Вадковский пер., 1;
ushakov_ae@internet.ru, ORCID: https://orcid.org/0009-0006-1467-5043, SPIN-код: 5174-7378
Стебулянин Михаил Михайлович, д-р техн. наук, профессор, заведующий кафедрой «Роботехника и мехатроника», Московский государственный технологический университет «СТАНКИН»;
127055, Россия, Москва, Вадковский пер., 1;
mmsteb@rambler.ru, ORCID: https://orcid.org/0009-0007-3443-0593, SPIN-код: 4389-1120
Шереужев Мадин Артурович, кан. тех. наук, доцент кафедры «Роботехника и мехатроника», Московский государственный технологический университет «СТАНКИН»;
127055, Россия, Москва, Вадковский пер., 1;
shereuzhev@gmail.com, ORCID: https://orcid.org/0000-0003-2352-992X, SPIN-код: 1734-9056
Девяткин Федор Владимирович, аспирант кафедры СМ7 «Робототехнические системы и мехатроника», Московский государственный технический университет имени Н. Э. Баумана;
105005, Россия, Москва, 2-я Бауманская улица, 5;
инженер, Московский государственный технологический университет «СТАНКИН»;
127055, Россия, Москва, Вадковский пер., 1; feodor-dev@ya.ru, ORCID: https://orcid.org/0009-0000-2639-9521, SPIN-код: 7738-5724