بهبود شناسایی قطبش در تحلیل احساسات به کمک طعنه کاوی و الگوریتمهای یادگیری ماشین در توییت های فارسی
محورهای موضوعی : فناوری اطلاعات و ارتباطاتشقايق حاجی عبدالله 1 , ميترا ميرزارضايي 2 , Mir Mohsen Pedram 3
1 - دانشگاه آزاد اسلامی- واحد علوم و تحقيقات
2 - -
3 - -
کلید واژه: تحلیل احساس, نظرکاوی, طعنهکاوی, توییتر, ترکيب دستهبندها,
چکیده مقاله :
تحلیل احساسات یا نظرکاوی شاخه ای از علوم کامپیوتر و پردازش زبان طبیعی است که سعی دارد ماشین و هوش مصنوعی را با احساس و عواطف انسانی آشنا سازد.طعنه کاوی نیز از زیرشاخه های تحلیل احساسات است و هر دو بدنبال تشخیص صحیح احساسات مثبت و منفی نهفته در متن هستند. استفاده از طعنه در شبکه های اجتماعی بسیار مرسوم است، زیرا به این طریق می-توان انتقاد را با زبان طنز انجام داد. آشکارسازی طعنه در تشخیص درستی قطبش یک نظر، تاثیر به خصوصی دارد و می تواند به فهم متن توسط ماشین کمک کند و منظور نویسنده متن، شفاف تر فهمیده شود. به اين هدف، 8000 توییت فارسی که بر چسب احساس دارند و از لحاظ وجود يا عدم وجود طعنه بررسی شدهاند، مورد استفاده قرار گرفته است. نوآوری اين پژوهش در استخراج کلمات کلیدی از جملات طعنه دار است که باعث ایجاد طعنه و کنایه شده اند. در اين پژوهش دستهبند مجزايي برای شناسايي طعنه در متن طراحی و اموزش داده شده است و سپس خروجی های اين ردهبند به عنوان ويژگی افزوده در اختيار دستهبند شناسايي احساس متن قرار می گيرد. همچنین علاوه بر بقيه کلمات کليدی استخراج شده از متن از شکلک ها و هشتگ های موجود در متن نیز به عنوان ویژگی استفاده شده است. دستهبندهای بیز، ماشین بردار پشتیبان و شبکه عصبی به عنوان دستهبندهای پايه استفاده شدهاند و در نهايت از ترکيب دستهبندها در شناسايي احساس متن استفاده شد. نتايج اين پژوهش نشان میدهد که شناسايي طعنه موجود در متن و استفاده از آن در شناسايي احساس دقت نتايج را افزايش میدهد.
Sentiment analysis is a branch of computer science and natural language processing that seeks to familiarize machines with human emotions and make them recognizable. Both sentiment analysis and sarcasm which is a sub-field of the former, seek to correctly identify the hidden positive and negative emotions of the text. The use of sarcasm on social media, where criticism can be exercised within the context of humor, is quite common. Detection of sarcasm has a special effect on correctly recognizing the polarization of an opinion, and thus not only it can help the machine to understand the text better, but also makes it possible for the respective author to get his message across more clearly. For this purpose, 8000 Persian tweets that have emotional labels and examined for the presence or absence of sarcasm have been used. The innovation of this research is in extracting keywords from sarcastic sentences. In this research, a separate classifier has been trained to identify irony of the text. The output of this classifier is provided as an added feature to the text recognition classifier. In addition to other keywords extracted from the text, emoticons and hashtags have also been used as features. Naive Bayes, support vector machines, and neural networks were used as baseline classifiers, and finally the combination of classifiers was used to identify the feeling of the text. The results of this study show that identifying the irony in the text and using it to identify emotions increases the accuracy of the results.