اعتقادیابی متون فارسی بر اساس یادگیری عمیق با تفکیک احساس-کلمه
محورهای موضوعی : هوش مصنوعی و رباتیک
حسین علی کرمی
1
,
امیرمسعود بیدگلی
2
,
حمید حاج سیدجوادی
3
1 - دانشکده مهندسی کامپیوتر، دانشگاه آزاد تهران شمال، تهران، ایران.
2 - دانشکده مهندسی کامپیوتر، دانشگاه آزاد تهران شمال، تهران، ایران.
3 - Shahed University
کلید واژه: اعتقادکاوی, پردازش زبان طبیعی(NLP), یادگیری عمیق, متن کاوی,
چکیده مقاله :
اعتقادکاوی یا طبقه بندی متون بر اساس احساس و عقیده کاربران در وبسایت ها و رسانه های اجتماعی به مردم، شرکت ها و سازمان ها کمک میکند تا بتوانند تصمیم گیری های مهم را انجام دهند. اعتقادکاوی شامل یک سیستم برای تحلیل عقاید و احساسات مردم درباره یک موجودیت مانند محصولات، افراد، سازمان ها با توجه به نظرات، پیام ها و توییت های کاربران در رسانه های اجتماعی می باشد. در این مقاله اعتقادکاوی متون فارسی بر اساس پیام ها، نظرات و توییت های کابران در رسانه اجتماعی و وبسایت های ۴ مجموعه داده با استفاده از دو روش یادگیری عمیق CNN , LSTM با در نظر گرفتن احساس کلمه، در دو قطب مثبت و منفی با بازه ۲- و ۲+ طبقه بندی شده اند. در روش پیشنهادی ابتدا فرآیند پیشپردازش دادهها بر اساس تبدیل کاراکتر به عدد، حذف لیست واژه های اضافی و تحلیل چند واژهای انجام میشود، سپس جهت اعتقادکاوی و طبقهبندی متون فارسی با الگوریتم یادگیری ماشین CNN , LSTM با تفکیک احساس کلمه (WSD) استفاده میشود تا شدت احساسات را با توجه به کلمات تشخیص دهد . مدل پیشنهادی را CNN_WSD و LSTM_WSD می نامیم. در روش پیشنهادی مجموعه داده های فارسی توییتر برای ارزیابی استفاده شده و سپس با سایر روش های یادگیری ماشین و یادگیری عمیق DNN, CNN, LSTM مقایسه می شود، در پیاده سازی این روش از نرم افزار متلب python استفاده شده است. میزان دقت روش پیشنهادی برای LSTM-WSD و CNN-WSD به ترتیب 95.8 و 94.3 درصد است.
Belief analysis or the classification of texts based on the feelings and opinions of users on websites and social media helps people, companies and organizations to make important decisions. Belief mining includes a system for analyzing people's opinions and feelings about an entity such as products, people, organizations, according to the opinions, messages and tweets of users in social media. In this article, the belief analysis of Persian texts based on the messages, comments and tweets of users in social media and websites of 4 datasets using two deep learning methods, CNN, LSTM, taking into account the sense of the word, in two poles, positive and negative with intervals. 2- and 2+ are classified. In the proposed method, first the process of data pre-processing based on character to number conversion, removing the list of extra words and multi-word analysis is done, then for belief analysis and classification of Persian texts CNN, LSTM machine learning algorithm with word sense separation (WSD) is used to Recognize the intensity of emotions according to the words. We call the proposed model CNN_WSD and LSTM_WSD. In the proposed method, the Persian Twitter dataset is used for evaluation and then it is compared with other machine learning and deep learning methods, DNN, CNN, LSTM, in the implementation of this method, python software is used. The accuracy rate of the proposed method for LSTM-WSD and CNN-WSD is 95.8 and 94.3%, respectively.