ایجاد مجموعه دادگان فارسی تحلیل احساس در متون منتشرشده در شبکه¬های اجتماعی
محورهای موضوعی : AI and Robotics
1 -
کلید واژه: تحلیل احساس, رسانههای اجتماعی, توییتر, جمع¬سپاری, مجموعه داده فارسی, پردازش متن, برچسبزنی داده,
چکیده مقاله :
تجزیه و تحلیل احساسات، فرآیند تشخیص خودکار احساسات نهفته در یک رسانه ارتباطی مثل متن، صوت، تصویر یا فیلم است که در سالهای اخیر به دلیل حجم بالای محتوای تولید شده توسط کاربران در اینترنت و نیاز کسبوکارها و سازمانها به درک افکار عمومی در مورد محصولات یا خدمات خود، اهمیت فزایندهای پیدا کرده است. دقت و قابلیت اطمینان الگوریتمهای تحلیل احساسات به کیفیت مجموعه داده مورد استفاده برای آموزش و آزمایش بستگی دارد. بنابراین، تهیه یک مجموعه داده مناسب برای موفقیت مدلهای تحلیل احساس بسیار مهم است. با این هدف، مقاله حاضر مجموعه دادهای متنی را برای تحلیل احساسات نویسنده با استفاده از متون توییتر ارائه میکند. توییتر به دلیل محبوبیت و گستره متنوع کاربرانش به عنوان منبع استخراج دادگان انتخاب شده است. زبان غیر رسمی و محاورهای متون توییتر همراه با وجود ابهام، استعاره و کنایه، همچنین محدودیت طول متن مجاز آن از دیگر دلایل انتخاب این منبع بوده است. در این کار از بستر جمعسپاری بومیسازی شده پارسیآزما برای برچسبزنی توییتها استفاده شد. هر توییت توسط سه نفر برچسب زده شد و معیار برچسب نهایی رای اکثریت بود. این مجموعه داده که محدودیت موضوعی ندارد و کل فرآیند برچسبزنی در آن به صورت انسانی انجام شده است، حاوی بیش از 5000 توییت، شامل 1948 توییت مثبت، 3021 توییت منفی و 284 توییت خنثی است. تحلیل احساسات در این دادگان، در سطح سند و بر اساس احساس کلی نویسنده متن انجام شده است.
Sentiment analysis is the process of automatic detection of sentiments embedded in a social media posts such as text, image or video. It has become increasingly important in recent years due to the high volume of user-generated content on the Internet and the need for businesses and organizations to understand public opinion about their products or services. The accuracy and reliability of sentiment analysis algorithms depends on the quality of the dataset used for training and testing. Therefore, preparing a suitable dataset is very important for the success of sentiment analysis models. With this aim, this paper presents a dataset for author sentiment analysis using Twitter textual posts. Twitter has been chosen as a source of data collection due to its popularity and diverse range of users. The informal and colloquial language of Twitter texts, along with the presence of ambiguity, metaphor and irony, as well as the limitation of the allowed text length, have been other reasons for choosing this source. In this work, the localized crowdsourcing platform in ParsiAzma lab was used for tagging the tweets. Each tweet was tagged by three people and the final tag was decided by majority vote. This dataset, which has no subject restrictions and the entire labeling process is human, contains more than 5000 tweets, including 1948 positive tweets, 3021 negative tweets, and 284 neutral tweets. Sentiment analysis in these data has been done at the level of the document and based on the overall feeling of the author of the text.