استخراج ویژگیهای عمیق بلندمدت برای طبقهبندی ویدیو
عباس همدونی اصلی
1
(
موسسه آموزش عالی جهاد دانشگاهی همدان، همدان، ایران
)
شیما جاویدانی
2
(
موسسه آموزش عالی جهاد دانشگاهی همدان، همدان، ایران
)
علی جاویدانی
3
(
گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه بوعلی سینا، همدان، ایران
)
الکلمات المفتاحية: طبقهبندی ویدیو, شناسایی کنش انسانی, یادگیری عمیق, شبکههای عصبی کانولوشنی, شبکههای عصبی بازگشتی, حافظهی بلند و کوتاهمدت (LSTM),
ملخص المقالة :
در اين مقاله، رويکردي نوين براي شناسايي کنش هاي در حال انجام از ويديوهاي بخش¬بندي¬شده ارائه مي¬شود. تمرکز اصلي بر استخراج ويژگي¬هاي بلندمدت از ويديوها به منظور طبقه¬بندي موثر آنها است. بدين منظور، ابتدا تصاوير جريان نوري ميان فريم¬هاي متوالي محاسبه و با يک شبکه عصبي کانولوشني از پيش آموزش¬ديده توصيف مي¬شوند. براي کاهش پيچيدگي فضاي ويژگي و ساده¬سازي يادگيري مدل زماني، کاهش بعد PCA بر روي بردارهاي توصيفي جريان نوري اعمال مي¬گردد. سپس به منظور پالايش ورودي، يک ماژول توجه کانالي سبک وزن بر بردارهاي کم بعد حاصل از PCA در هر گام زماني اعمال مي¬شود تا مولفه¬هاي اطلاعاتي تقويت و مولفه¬هاي کم اثر تضعيف شوند. در ادامه، توصيفگرهاي هر ويديو هم¬راستا شده و در راستاي زمان دنبال مي¬شوند و استخراج ويژگي¬هاي بلندمدت با آموزش يک شبکه LSTM دو لايه پشتهاي انجام ميپذيرد. پس از LSTM، يک ماژول توجه زماني به عنوان تجميع آگاه به زمان به کار گرفته ميشود تا با وزن دهي داده محور به گامهاي زماني، لحظات اطلاع¬رسان را برجسته کرده و يک بردار منسجم براي طبقهبندي بسازد. نتايج تجربي نشان مي¬دهد که ترکيب PCA به همراه توجه کانالي و توجه زماني ضمن حفظ سبک وزني مدل، دقت طبقه¬بندي را در هر دو مجموعه داده عمومي 11UCF و jHMDB بهبود مي¬بخشد و عملکرد بهتري نسبت به روش¬هاي مرجع ارائه ميکند. کد مورد استفاده در این مقاله، به صورت دسترسی باز قابل در دسترس¬است.