استخراج گذرگاهها با استفاده از تشخیص اشیا در یادگیری تقویتی
محورهای موضوعی : مهندسی برق و کامپیوتربهزاد غضنفری 1 , ناصر مزینی 2 , محمدرضا جاهد مطلق 3
1 - دانشگاه علم و صنعت ایران
2 - دانشگاه علم و صنعت ایران
3 - دانشگاه علم و صنعت ایران
کلید واژه: يادگيري تقويتي خوشهبندي اشيا يادگيري تقويتي سلسله مراتبي اقدامات گسترشيافته زماني,
چکیده مقاله :
اين مقاله روش جديدي را مطرح ميکند که قادر به استخراج گذرگاهها بهصورت اتوماتيک براي عامل يادگيري تقويتي است. روش پيشنهادي از سيستمهاي بيولوژيکي، رفتار و مسيريابي حيوانات الهام گرفته شده است و بهواسطه تعاملات عامل با محيط پيرامونياش عمل ميکند. عامل با استفاده از خوشهبندي و تشخيص اشيا بهصورت سلسله مراتبي، نشانههايي را پيدا ميکند. اگر اين نشانهها در فضاي اقدام به هم نزديک باشند، گذرگاهها با استفاده از حالتهاي بين آنها استخراج ميشوند. نتايج آزمايشها بهبود قابل ملاحظهاي را در فرايند يادگيري تقويتي در مقايسه با ساير روشهاي مشابه نشان ميدهد.
Extracting bottlenecks improves considerably the speed of learning and the ability knowledge transferring in reinforcement learning. But, extracting bottlenecks is a challenge in reinforcement learning and it typically requires prior knowledge and designer’s help. This paper will propose a new method that extracts bottlenecks for reinforcement learning agent automatically. We have inspired of biological systems, behavioral analysts and routing animals and the agent works on the basis of its interacting to environment. The agent finds landmarks based in clustering and hierarchical object recognition. If these landmarks in actions space are close to each other, bottlenecks are extracted using the states between them. The Experimental results show a considerable improvement in the process of learning in comparison to some key methods in the literature.