تحليل احساس در رسانههاي اجتماعي فارسي با رويکرد شبکه عصبي پيچشي
محورهای موضوعی : electrical and computer engineering
مرتضي روحانيان
1
,
مصطفي صالحي
2
,
علي درزي
3
,
وحید رنجبر
4
1 - دانشگاه تهران
2 - دانشگاه تهران
3 - دانشگاه تهران
4 - مهندسی کامپیوتر
کلید واژه: تحليل احساسرسانههاي اجتماعيشبکه عصبي پيچشيشدت نظراتمتون کوتاه,
چکیده مقاله :
افزايش کاربري شهروندان از رسانههاي اجتماعي (مانند توئيتر، فروشگاههاي برخط و غيره) آنها را به منبعي عظيم براي تحليل و درک پديدههاي گوناگون تبديل کرده است. هدف تحليل احساس استفاده از دادههاي به دست آمده از اين رسانهها و کشف گرايشهاي پيدا و پنهان کاربران نسبت به موجوديتهاي خاص حاضر در متن است. در کار حاضر ما با استفاده از شبکه عصبي پيچشي که نوعي شبکه عصبي پيشخور است، به تحليل گرايش نظرات در رسانههاي اجتماعي در دو و پنج سطح و با در نظر گرفتن شدت آنها ميپردازيم. در اين شبکه عمل کانولوشن با استفاده از صافيهايي با اندازههاي مختلف بر روي بردارهاي جملات ورودي اعمال ميشود و بردار ويژگي حاصل به عنوان ورودي لايه نرم بيشينه براي دستهبندي نهايي جملات به کار ميرود. شبکههاي عصبي پيچشي با پارامترهاي مختلف با استفاده از معيار مساحت زير منحني و بر روي مجموعه داده جمعآوري شده از رسانههاي اجتماعي فارسي ارزيابي شدند و نتايج به دست آمده نشاندهنده بهبود کارايي آنها در گستره رسانههاي اجتماعي نسبت به روشهاي سنتي يادگيري ماشين به خصوص بر روي دادهها با طول کوتاهتر هستند.
With the social media engagement on the rise, the resulting data can be used as a rich resource for analyzing and understanding different phenomena around us. A sentiment analysis system employs these data to find the attitude of social media users towards certain entities in a given document. In this paper we propose a sentiment analysis method for Persian text using Convolutional Neural Network (CNN), a feedforward Artificial Neural Network, that categorize sentences into two and five classes (considering their intensity) by applying a layer of convolution over input data through different filters. We evaluated the method on three different datasets of Persian social media texts using Area under Curve metric. The final results show the advantage of using CNN over earlier attempts at developing traditional machine learning methods for Persian texts sentiment classification especially for short texts.