تبديل حرف به صدا در زبان فارسی به کمک شبکههای عصبی پرسپترون چندلايهای
محورهای موضوعی : electrical and computer engineeringمجيد نمنبات 1 , محمدمهدی همايونپور 2
1 - دانشگاه صنعتی اميرکبير
2 - دانشگاه صنعتی اميرکبير
کلید واژه: تبديل حرف به صداشبکه عصبی پرسپترون چندلايهالگوريتم ترازبندی حرف- صدازبان فارسی,
چکیده مقاله :
ساخت سيستمهای اتوماتيک تبديل حرف به صدا برای استفاده در سيستمهای تبديل متن به گفتار در زبان فارسی، به دليل عدم استفاده از اعراب در نوشتار و در نتيجه مستوربودن بعضی از واکهها مشکل میباشد و عموماً اين سيستمها برای زبان فارسی کارآيي پايينی دارند. در اين مقاله ساختار يک سيستم تبديل حرف به صدا با معماری سهلايه بررسی شده است. لايه اول اين سيستم قانون- گرا میباشد و لايه دوم از پنج شبکه عصبی پرسپترون چندلايهای و يک بخش کنترلر برای تعيين دنباله واجی متناظر با حروف تشکيل شده است. برای تعيين دنباله واجی متناظر با حروف، از شبکههای عصبی استفاده میشود. بخش کنترلر نيز، خروجی شبکهها را کنترل میکند تا دنباله واجی نهايي متناظر با کلمات با ساختار هجابندی فارسی مطابقت داشته باشد. در لايه سوم نيز يک شبکه عصبی برای تعيين حروف مشدد، با استفاده از نتايج مراحل قبل وجود دارد. اجزاء مختلف اين سيستم به گونهای طراحی شدهاند که در نهايت برای هر کلمه، يک دنباله واجی منطقی توليد گردد. منظور از دنباله واجی منطقی، دنباله واجی میباشد که در آن اصول بديهی واجنگاری و ساختار هجابندی زبان فارسی رعايت شده باشد. ميزان درستی به دست آمده برای حروف 88% و برای کلمات 61% میباشد که برای تبديل حرف به صدای زبان فارسی کارآيي بسيار خوبی میباشد.
Construction of letter to sound (LTS) conversion systems in Persian is a difficult task. Because of the omission of some vowels in Farsi orthography, these systems in general have low efficiencies. In this paper, the structure of a letter to sound system, having three-layer architecture, was presented. The first layer is rule-based, and the second layer consists of five multi layer perceptron (MLP) neural networks and a controller section for pronunciations determination. The third layer has a MLP network for detection of geminated letters by using results obtained from the previous steps. The proposed system is designed to produce rational pronunciations for every word, where the rational pronunciation means a phonetic transcription, which follows the correct Farsi syllabification structure and the obvious rules of phonetics. The authors have achieved 88% and 61% correct letters and words performance respectively, which is quite satisfactory for a Farsi language LTS system. The correct letter criterion is the percentage of letters for which the pronunciations have been determined correctly and the correct word criterion is the percentage of words for which the pronunciations of the constituting letters have been determined correctly.