تشخیص خودکار خطا در پایگاه داده، مبتنی بر خوشهبندی و نزدیکترین همسایگی
محورهای موضوعی : مهندسی برق و کامپیوترمهدیه عطاییان 1 , نگین دانشپور 2
1 - دانشگاه تربیت دبیر شهید رجايي
2 - دانشگاه تربیت دبیر شهید رجايي
کلید واژه: تصحیح داده تشخیص خودکار خطا خوشهبندی k-means,
چکیده مقاله :
کیفیت دادهها در امر تصمیمگیری سازمانها تأثیرگذار میباشد، به گونهای که تصمیمگیری مبتنی بر دادههای فاقد کیفیت سازمان را متحمل هزینههای بالایی میکند. کیفیت دادهها دارای ابعاد متنوعی میباشد که صحت از مهمترین این ابعاد است. جهت تصحیح دادهها نیاز به تشخیص خطا وجود دارد که با توجه به حجم بالای دادهها، نیاز به یک سیستم خودکار است تا بدون دخالت کاربر این فرایند انجام گیرد. در این مقاله راهکاری خودکار مبتنی بر خوشهبندی k - means جهت تشخیص خطا ارائه شده است. در ابتدا به ازای هر ویژگی، دادهها خوشهبندی میشوند و سپس به ازای هر داده در آن خوشه از روش شبه k نزدیکترین همسایه، جهت شناسایی خطا استفاده میشود. روش پیشنهادی توانایی تشخیص چندین خطا در یک رکورد را دارد و همچنین قادر است خطا در فیلدهایی با انواع داده متفاوت را نیز شناسایی کند. آزمایشات نشان میدهد که به طور متوسط این روش میتواند 91% خطاهای موجود در دادهها را شناسایی نماید. همچنین روش پیشنهادی با یک روش تشخیص خطا به وسیله قوانین که همانند راهکار پیشنهادی روشی خودکار برای تشخیص خطا در انواع دادهای متفاوت است نیز مورد مقایسه قرارگرفته و نتایج نشان میدهد که روش پیشنهادی به طور متوسط 25% عملکرد بهتری در تشخیص خطا داشته است.
Data quality affects on companies decision making, so that decisions based on data without quality incur companies high costs. Data quality has various dimensions and accuracy is the most important of these dimensions. Error detection is needed for data cleaning. Due to the huge volume of data, an automatic system is needed to perform this process without user interaction. In this paper an approach is proposed based on k-means clustering for error detection. Firstly data are clustered for each attribute. Then for each data in each cluster a method similar to k-nearest neighbor is used for detecting errors. The proposed method is able to detect multiple errors in one record. Also this approach is able to detect errors in fields with various attribute types. Experimental results show that this approach can detect 91% of errors in data on average. Also the proposed approach is compared with an automatic method which detects errors based on rule in various attribute types. Experimental results show that the proposed approach has on average 25%better performance to detect errors.