Learning to Optimize with Reinforcement Learning

دانیال علی عظیمی
در سال های اخیر یادگیری ماشین که یکی از مهمترین زیرشاخه های علم هوش مصنوعی میباشد بسیار مورد توجه قرار گرفته است. چه در صنعت و چه در دایره های علمی پیشرفت های بسیار قابل توجهی رخ داده است و مسایلی که قبلا حل آنها بسیار سخت و یا غیر ممکن تلقی شده بود با استفاده از روش های یادگیری ماشین به خصوص شبکه های عصبی حل شدند. یکی از مهمترین بخش های یادگیری ماشین مفهوم شبکه عصبی میباشد. شبکه عصبی یک مدل محاسباتی برای تقریب توابع میباشد ساختار این مدل بر اساس ساختار مدل نورونی مغز میباشد و قابلیت یادگیری بسیار بالایی دارد. شبکه های عصبی به همراه تابع های یادگیری مناسب آموزش داده میشوند و به یک تابعی که توسط نمونه داده ای نمایش داده شده است نزدیک میشوند. روش یادگیری که بیشترین استفاده را میبیند روش های مبتنی بر مشتق گیری نسبت به تابع هزینه هستند. الگوریتم های بهینه سازی بسیاری وجود دارد از جمله تنزل گرادیان و بهینه سازی آدام(adam) اما هیچ کدام از الگوریتم ها بی نقص نیستند و در فضا های جستجوی هزینه خیلی از اوقات در مینیمم های محلی گیر میکنند به همین دلیل همیشه به دنبال الگوریتم بهینه سازی بهتر هستیم. در مقاله ای ارایه شده توسط  که لی(ke Li) و جیتندرا ملیک(Jitendra Malik) روشی جدید برای یادگیری تابع بهینه سازی ارایه شده است. در این مقاله با استفاده از یادگیری تقویتی و مدل کردن مسعله یک تابع هزینه به یک مسعله یادگیری تقویت توانستند بهینه ساز آموزش داده بشود که بتواند از الگوریتم های بهینه سازی تا الان بهتر باشد. برای مدل کردن یک مسعله به صورت مسعله یادگیری تقویتی نیاز داریم تا تعریفی از محیط و فضای حالات داشته باشیم همچنین یک تعریفی برای تابع عملیات نیاز داریم که بر اساس عملیات از حالتی به حالت دیگر حرکت میکنیم. در فضای مسعله تابع بهینه سازی میتوانیم فضای جستجو و مختصات را به عنوان حالت فعلی مسعله تعریف کنیم و همچنین مشتقات محاسبه شده هم جزیی از فضای مسعله در نظر گرفته شود و به عنوان ورودی تابع داده شوند همچنین وزن های فعلی شبکه عصبی هم جزیی از فضا و حالت فعلی حساب میشوند و در خروجی یک بردار عملیات که تغییرات مورد نیاز روی وزن های شبکه عصبی خروجی گرفته میشود و وزن های جدید محاسبه میشوند. استفاده از یادگیری تقویتی باعث یادگیری بسیار بهتر بهینه ساز شده است و همچنین اجازه میدهد که روی مسایلی که روی آن آموزش ندیده است را بتواند بهتر جوابگو باشد.