يك روش دو مرحلهاي براي بازشناسي زير- كلمات چاپي
محورهای موضوعی : مهندسی برق و کامپیوتر
احساناله کبیر
1
,
افشین ابراهیمی
2
1 - دانشگاه تربیت مدرس
2 - دانشگاه تربیت مدرس
کلید واژه: متن چاپيزير- كلمهخوشه بنديطبقه بنديبازشناسيويژگيهاي مكان مشخصهk - ميانگينتوصيفگرهاي فوريه,
چکیده مقاله :
در اين مقاله يك روش دو مرحله اي براي طبقه بندي زير- كلمات چاپي فارسي ارائه شده است. زير- كلمات چاپي با استفاده از ويژگيهاي مكان مشخصه و روش k- ميانگين، به 300 خوشه تقسيم شدهاند. از ميانگين ويژگيهاي زير- كلمات هر خوشه به عنوان نماينده آن خوشه استفاده شده است. براي يك زير- كلمه ورودي، در مرحله اول با استفاده از ويژگيهاي مكان مشخصه و فاصله اقليدسي از ميانگين خوشه ها، طبقه بندي اوليه به 300 خوشه انجام ميشود و 10 خوشه نزديكتر تعيين ميشوند. در مرحله دوم با استفاده از توصيفگرهاي فوريه كانتور، زير- كلمه ورودي به اعضاي اين 10 خوشه طبقه بندي میشود. مجموعه تمرين شامل زير- كلمات متداول فارسي براي چهار قلم لوتوس، ميترا، زر و ياقوت و سه اندازه 10، 12 و 14 است. در اين تحقيق از بدنه هاي بدون نقطه 12700 زير- كلمه متداول فارسي به عنوان مجموعه تمرين استفاده شده است. در يك آزمايش براي ارزيابي طبقه بندي از مجموعه اي شامل 500 زير- كلمه استفاده شد. با احتساب اولين انتخاب، پنج انتخاب اول و ده انتخاب اول به ترتيب 40/71%، 95% و 20/98% از اين زير- كلمات به درستي طبقهبندي شدند. در مرحله پس پردازش از نوع و ترتيب نقاط زير- كلمات براي بهبود بازشناسي آنها استفاده شد. در يك آزمايش براي بازشناسي يك مجموعه 500 زير- كلمه اي، در انتخاب اول 60/92% از آنها به درستي بازشناسي شدند.
In this paper a two step method for the recognition of printed subwords is proposed. Using characteristic loci features, the set of printed subwords are clustered into 300 clusters by k-means algorithm. Each cluster is represented by its mean. In the first step, each input is classified into 300 categories by minimum Euclidian distance from the cluster centers, and 10 closest clusters are found. In the second step, Fourier descriptors of the subword contour are used to classify the input subword into the members of these 10 clusters. The training set consists of 12700 Farsi subwords in 4 different fonts, Lotus, Mitra, Yagut and Zar, and 3 sizes of 10, 12 and 14. In a test, a set of 500 subwords was used. Considering the first class, top five and top ten classes, 71.4%, 95%, and 98.2% of these subwords were correctly classified. In the post processing, dots of the subword and their positions were used to improve the recognition results. This improved the recognition rate to 92.6%.