ارائه یک الگوریتم خوشهبندی مبتنی بر چگالی با قابلیت کشف خوشههای با چگالی متفاوت در پایگاه دادههای مکانی
محورهای موضوعی : مهندسی برق و کامپیوترعلی زاده ده بالایی 1 , علیرضا باقری 2 , حامد افشار 3
1 - دانشگاه صنعتی امیرکبیر
2 - دانشگاه صنعتی امیرکبیر
3 - دانشگاه صنعتی امیرکبیر
کلید واژه: چگالی متفاوت خوشهبندی مبتنی بر چگالی دادهکاوی مکانی DBSCAN,
چکیده مقاله :
خوشهبندی یکی از تکنیکهای مهم کشف دانش در پایگاه دادههای مکانی است. الگوریتمهای خوشهبندی مبتنی بر چگالی یکی از روشهای اصلی برای خوشهبندی در دادهکاوی هستند. الگوریتم DBSCAN پایه روشهای خوشهبندی مبتنی بر چگالی است که علیرغم مزایایی که دارد دارای مشکلاتی نظیر سختبودن تعیین پارامترهای ورودی و عدم توانایی کشف خوشههای با چگالی متفاوت نیز است. در این مقاله الگوریتمی ارائه شده که برخلاف الگوریتم DBSCAN، قابلیت تشخیص خوشههای با چگالی متفاوت را دارد. این الگوریتم همچنین خوشههای تودرتو و چسبیده به هم را نیز به خوبی تشخیص میدهد. ایده الگوریتم پیشنهادی به این صورت است که ابتدا با استفاده از تکنیکی چگالیهای مختلف مجموعه داده را تشخیص داده و برای هر چگالی یک شعاع Eps تعیین میکند. سپس الگوریتم DBSCAN جهت اعمال بر روی مجموعه داده، با پارامترهای به دست آمده تطبیق داده میشود. الگوریتم پیشنهادی بر روی مجموعه دادههای استاندارد و مصنوعی تست شده است و نتایج به دست آمده با نتایج حاصل از الگوریتم DBSCAN و پنج بهبود الگوریتم DBSCAN شامل: VDBSCAN، VMDBSCAN، LDBSCAN، DVBSCAN و MDDBSCAN که همگی برای رفع مشکل تغییرات چگالی الگوریتم DBSCAN ارائه شدهاند، بر اساس معیارهای ارزیابی روشهای خوشهبندی مقایسه شدهاند. نتایج ارزیابیها نشان میدهد که الگوریتم پیشنهادی از دقت بالا و درصد خطای پایینی برخوردار بوده و نتایج بهتری نسبت به سایر الگوریتمها داشته است.
Clustering is one of the important techniques for knowledge discovery in spatial databases. density-based clustering algorithms are one of the main clustering methods in data mining. DBSCAN which is the base of density-based clustering algorithms, besides its benefits suffers from some issues such as difficulty in determining appropriate values for input parameters and inability to detect clusters with different densities. In this paper, we introduce a new clustering algorithm which unlike DBSCAN algorithm, can detect clusters with different densities. This algorithm also detects nested clusters and clusters sticking together. The idea of the proposed algorithm is as follows. First, we detect the different densities of the dataset by using a technique and Eps parameter is computed for each density. Then DBSCAN algorithm is adapted with the computed parameters to apply on the dataset. The experimental results which are obtained by running the suggested algorithm on standard and synthetic datasets by using well-known clustering assessment criteria are compared to the results of DBSCAN algorithm and some of its variants including VDBSCAN, VMDBSCAN, LDBSCAN, DVBSCAN and MDDBSCAN. All these algorithms have been introduced to solve the problem of multi-density data sets. The results show that the suggested algorithm has higher accuracy and lower error rate in comparison to the other algorithms.