تقویت فراتفکیکسازی تصاویر متنی توسط تضعیف عامدانه تابع زیان خوانش برای اعمال سختگیری بیشتر بر شبکه فراتفکیکساز
محورهای موضوعی : electrical and computer engineeringکمیل مهرگان 1 , عباس ابراهیمی مقدم 2 , مرتضی خادمی درح 3
1 - دانشکده مهندسی دانشگاه فردوسی مشهد، مشهد، ایران
2 - انشکده مهندسی دانشگاه فردوسی مشهد، مشهد، ایران
3 - دانشکده مهندسی دانشگاه فردوسی مشهد، مشهد، ایران
کلید واژه: بازخورد هوشمندانه, تضعیف عامدانه تابع زیان, خوانش تصاویر متنی, فراتفکیکسازی.,
چکیده مقاله :
تصاویر متنی با وضوح پایین معمولاً باعث ایجاد خطاهای جدی در خوانش و بازیابی متن میشوند که این امر میتواند بر کارایی سیستمهای خوانش متن، تأثیر منفی بگذارد. فراتفکیکسازی تصاویر متنی، بهویژه در شرایطی که تصاویر اولیه دارای تفکیکپذیری پایینی هستند، از عوامل کلیدی در بهبود دقت سیستمهای خوانش متن است. روشهای سنتی فراتفکیکسازی، هرچند در بهبود کیفیت تصاویر موفق بودهاند، اما همچنان در حفظ جزئیات
دقیق حروف و ساختار متن با چالش مواجهند. در این پژوهش، روشی برای فراتفکیکسازی تصاویر متنی ارائه شده که با بهرهگیری از بازخورد هوشمندانه توسط تضعیف عامدانه تابع زیان خوانش، سختگیری بیشتری بر شبکه فراتفکیکساز اعمال کرده تا بهطور ویژه تصاویری تولید کند که در آن ساختار حروف بهخوبی حفظ شده باشد. این تابع زیان، شبکه فراتفکیکسازی را وادار به بازسازی جزئیات ازدسترفته در تصاویر کرده و دقت سیستمهای خوانش متن
را بهطور قابل توجهی بهبود میبخشد. نتایج تجربی نشان میدهند که این روش نهتنها به افزایش وضوح بصری تصاویر منجر میشود، بلکه کارایی و دقت سیستمهای خوانش متن را حدود ۱۰ درصد نسبت به تصاویر اولیه بهبود میبخشد. این رویکرد جدید گامی مؤثر در جهت بهینهسازی فرایندهای خوانش متن از تصاویر با تفکیکپذیری پایین به شمار میرود.
Low-resolution text images often lead to significant errors in Optical Character Recognition (OCR), negatively impacting the performance of automated text recognition systems. Text image super-resolution (SR) is a critical step for improving OCR accuracy, particularly when dealing with inputs of very low resolution. While conventional SR methods succeed in enhancing general image quality, they often struggle to preserve the fine-grained details and structural integrity of characters. In this paper, we propose a novel text super-resolution method that leverages intelligent feedback; by intentionally weakening the OCR loss, our approach imposes stricter reconstruction constraints on the SR network. This unique approach specifically guides the network to generate images that faithfully preserve character structures. The modified loss function compels the SR network to reconstruct fine details lost in the low-resolution input, thereby leading to a significant improvement in downstream OCR accuracy. Experimental results demonstrate that our method not only enhances visual clarity but also boosts the accuracy of subsequent OCR systems by approximately 10% compared to the original low-resolution images. This novel approach represents an effective step toward optimizing the pipeline for text recognition from low-resolution inputs.