بهبود استخراج جنبه های متن با استفاده از دانش دامنه و گراف کلمات
محورهای موضوعی : فناوری اطلاعات و ارتباطات
محمدرضا شمس
1
,
احمد براآنی
2
,
مهدی هاشمی
3
1 - دانشگاه اصفهان
2 - دانشگاه اصفهان
3 - دانشگاه اصفهان
کلید واژه: متنکاوي, نظرکاوي, بردار کلمات, استخراج جنبه, دانش دامنه, گراف کلمات,
چکیده مقاله :
با گسترش روزافزون علم و فناوري، تحلیل نظرات کاربران و تعیین نحوه نگرش کاربر به موضوعهاي مختلف به یک امر مهم تبدیل شده است. نظرکاوي فرایند استخراج نگرش افراد از روي نظرات نوشته شده است که در سه سطح سند، جمله و جنبه قابل انجام است. در سطح جنبه، نظر افراد در خصوص جنبههاي مختلف یک موضوع بررسي ميشود. مهمترین زیر بخش نظرکاوي جنبهگرا، استخراج جنبه است که موضوع اصلي این پژوهش ميباشد. در بسیاري از روشهاي ارائه شده براي استخراج جنبه، راه حل مورد نظر نیاز به مجموعه یادگیري اولیه و یا منابع زباني وسیع دارند که تهیه چنین دادههایي بسیار زمانبر و پرهزینه است. در این مقاله، رویکردي بدون نظارت براي استخراج جنبه مبتني بر مدل موضوعي و بردار کلمات پیشنهاد ميشود که از ایجاد گراف کلمات براي ادغام اطلاعات معنایي و دانش دامنه استفاده ميکند. نتایج ارزیابيها نشان از این دارد که روش پیشنهادي نه تنها باعث بهبود دقت استخراج جنبه در مقایسه با سایر روشهاي پیشین شده است، بلکه تمامي مراحل به صورت خودکار و بدون دخالت کاربر انجام ميشود و بدلیل عدم وابستگي به منابع زباني، در زبانهاي مختلف قابل اجرا ميباشد.
With the advancement of technology, analyzing and assessing user opinions, as well as determining the user's attitude toward various aspects, have become a challenging and crucial issue. Opinion mining is the process of recognizing people’s attitudes from textual comments at three different levels: document-level, sentence-level, and aspect-level. Aspect-based Opinion mining analyzes people’s viewpoints on various aspects of a subject. The most important subtask of aspect-based opinion mining is aspect extraction, which is addressed in this paper. Most previous methods suggest a solution that requires labeled data or extensive language resources to extract aspects from the corpus, which can be time consuming and costly to prepare. In this paper, we propose an unsupervised approach for aspect extraction that uses topic modeling and the Word2vec technique to integrate semantic information and domain knowledge based on term graph. The evaluation results show that the proposed method not only outperforms previous methods in terms of aspect extraction accuracy, but also automates all steps and thus eliminates the need for user intervention. Furthermore, because it is not reliant on language resources, it can be used in a wide range of languages.