ایجاد مجموعه دادگان فارسی تحلیل احساس در متون منتشرشده در شبکه¬های اجتماعی
الموضوعات : هوش مصنوعی و رباتیک
1 -
الکلمات المفتاحية: تحلیل احساس, رسانههای اجتماعی, توییتر, جمع¬سپاری, مجموعه داده فارسی, پردازش متن, برچسبزنی داده,
ملخص المقالة :
تجزیه و تحلیل احساسات، فرآیند تشخیص خودکار احساسات نهفته در یک رسانه ارتباطی مثل متن، صوت، تصویر یا فیلم است که در سالهای اخیر به دلیل حجم بالای محتوای تولید شده توسط کاربران در اینترنت و نیاز کسبوکارها و سازمانها به درک افکار عمومی در مورد محصولات یا خدمات خود، اهمیت فزایندهای پیدا کرده است. دقت و قابلیت اطمینان الگوریتمهای تحلیل احساسات به کیفیت مجموعه داده مورد استفاده برای آموزش و آزمایش بستگی دارد. بنابراین، تهیه یک مجموعه داده مناسب برای موفقیت مدلهای تحلیل احساس بسیار مهم است. با این هدف، مقاله حاضر مجموعه دادهای متنی را برای تحلیل احساسات نویسنده با استفاده از متون توییتر ارائه میکند. توییتر به دلیل محبوبیت و گستره متنوع کاربرانش به عنوان منبع استخراج دادگان انتخاب شده است. زبان غیر رسمی و محاورهای متون توییتر همراه با وجود ابهام، استعاره و کنایه، همچنین محدودیت طول متن مجاز آن از دیگر دلایل انتخاب این منبع بوده است. در این کار از بستر جمعسپاری بومیسازی شده پارسیآزما برای برچسبزنی توییتها استفاده شد. هر توییت توسط سه نفر برچسب زده شد و معیار برچسب نهایی رای اکثریت بود. این مجموعه داده که محدودیت موضوعی ندارد و کل فرآیند برچسبزنی در آن به صورت انسانی انجام شده است، حاوی بیش از 5000 توییت، شامل 1948 توییت مثبت، 3021 توییت منفی و 284 توییت خنثی است. تحلیل احساسات در این دادگان، در سطح سند و بر اساس احساس کلی نویسنده متن انجام شده است.