بهبود دقت مدل GMM با استفاده از کرنل PSK در کاربرد تشخيص زبان گفتاري
محورهای موضوعی : مهندسی برق و کامپیوترفهیمه قاسمیان 1 , محمدمهدی همایونپور 2
1 - دانشگاه صنعتی امیرکبیر
2 - دانشگاه صنعتی امیرکبیر
کلید واژه: تشخيص زبان کرنل دنبالهاي PSK ماشين بردار پشتيبان (SVM) مدل مخلوط گاوسي (GMM),
چکیده مقاله :
مدل مخلوط گاوسي (GMM)، روشي ساده و مؤثر براي مدلکردن آماري فضاي ويژگيهاست که بهطور گسترده در کاربرد تشخيص زبان مورد استفاده قرار گرفته و از الگوريتم بيشينهسازي اميد رياضي براي آموزش پارامترهاي اين مدل استفاده ميشود. در اين مقاله با توجه به مشکلي که در آموزش مدل GMM وجود دارد، مدلي جديد با نام PAW-GMM ارائه شده است. در اين مدل، قدرت هر مؤلفه از مدل GMMدر تمايز يک زبان از ساير زبانها، براي تعيين وزن هر مؤلفه در نظر گرفته ميشود. مدل PAW-GMM بهدليل در نظر گرفتن خواص تمايزي مؤلفههاي مخلوط گاوسي، سبب افزايش دقت سيستمهاي تشخيص زباني ميشود که از اين مدل بهعنوان جايگزين مدلGMM استفاده ميکنند. همچنين يکي از مشکلاتي که در سيستم GMM-PSK-SVMکه يکي از بهترين سيستمهاي تشخيص زبان است وجود دارد، پيچيدگي محاسباتي بالا خصوصاً با اضافهشدن تعداد زبانهاست. از اين رو سيستم UBM-PSK-SVM ارائه شده است که با ثابت نگه داشتن دقت سيستم GMM - PSK - SVM، سبب کاهش پيچيدگي محاسباتي آن شده و در نتيجه قدرت تعميم به زبانهاي بالاتر را افزايش ميدهد. آزمايشهاي صورتگرفته بر روي 4 سيستم تشخيص زبان مختلف با استفاده از دادههاي مربوط به 4 زبان انگليسي، فارسي، فرانسوي و آلماني دادگان OGI، کارايي تکنيکهاي ارائهشده را نشان ميدهد.
Gaussian Mixture Model (GMM) is a simple and effective method for statistical modeling of the feature space which is widely used in spoken language recognition systems and EM algorithm is used for training the parameters of this model. In this paper, considering the weakness of GMM models, a new model named PAW-GMM is proposed. In this model, the power of each component of GMM in discriminating one language from the others is considered for determining the weights of components. Since PAW-GMM considers the discriminating property of GMM components, it could increase the accuracy of language recognition systems. Also one of the problems of GMM-PSK-SVM which is one of the best GMM models is the high complexity especially for high number of languages. Therefore UBM-PSK-SVM is proposed that has the same accuracy as GMM-PSK-SVM but lower complexity. Experiments on four languages of OGI corpus show the efficiency of the proposed techniques.