استفاده از مدلهای وابسته به محتوا در واژهياب گفتار متمايزساز
محورهای موضوعی : مهندسی برق و کامپیوترشیما طبیبیان 1 , احمد اکبری 2 , بابک ناصرشريف 3
1 - پژوهشگاه هوافضا
2 - دانشگاه علم و صنعت ایران
3 - دانشگاه صنعتی خواجه نصیرالدین طوسی
کلید واژه: استخراج ويژگي بازشناس واج مستقل از محتوا وابسته به محتوا ماشين بردار پشتيبان واژهيابي گفتار متمايزساز,
چکیده مقاله :
رويكردهاي واژهيابي گفتار به دو گروه تقسيم میشوند: رويكردهاي مبتني بر مدل مخفي ماركف و رويكردهاي متمايزساز. يكي از فوايد رويكردهاي مبتني بر مدل مخفي ماركف، قابليت استفاده از اطلاعات وابسته به محتوا (سه واج) در جهت بهبود كارايي سيستم واژهياب گفتار ميباشد. از طرفی، عدم امكان استفاده از اطلاعات وابسته به محتوا يكي از معایب رويكردهاي واژهيابي گفتار متمايزساز محسوب ميشود. در اين مقاله، راهكاري براي رفع اين عیب ارائه شده که به اين منظور، بخش استخراج ويژگي يك سيستم واژهياب گفتار متمايزساز مبتنی بر الگوریتم تکاملی (EDSTD)- كه در كارهاي قبلي ما ارائه شده است- به گونهاي تغيير یافته كه اطلاعات وابسته به محتوا را در نظر بگيرد. در مرحله نخست، يك رويكرد استخراج ويژگي مستقل از محتوا پيشنهاد شده و سپس رويكردي براي به كارگيري اطلاعات وابسته به محتوا در بخش استخراج ويژگي ارائه شده است. نتايج ارزيابيها روی دادگان TIMIT حاكي از آن است كه نرخ بازشناسي سيستم EDSTD وابسته به محتوا (CD-EDSTD) در اخطار اشتباه بر كلمه كليدي بر ساعت بزرگتر از دو، حدود 3% از نرخ بازشناسي درست سيستم EDSTD مستقل از محتوا (CI-EDSTD) بالاتر است. هزينه اين بهبود دقت، حدود 36/0 افت سرعت پاسخگويي است كه قابل چشمپوشي ميباشد.
Spoken Term Detection (STD) approaches can be divided into two main groups: Hidden Markov Model (HMM)-based and Discriminative STD (DSTD) approaches. One of the important advantages of HMM-based methods is that they can use context dependent (diphone or triphones) information to improve the whole STD system performance. On the other hand, lack of triphones information is one of the significant drawbacks of DSTD methods. In this paper, we propose a solution to overcome this drawback of DSTD systems. To this end, we modify the feature extraction part of an Evolutionary DSTD (EDSTD) system to consider triphones information. At first, we propose a monophone-based feature extraction part for the EDSTD system. Then, we propose an approach for exploiting triphones information in the EDSTD system. The results on TIMIT database indicate that the true detection rate of the triphone-based EDSTD (Tph-EDSTD) system, in false alarm per keyword per hour greater than two, is about 3% higher than that of the monophone-based EDSTD (Mph-SDSTD) system. This improvement costs about 36% degradation of the system response speed which is neglected.