دستهبندی دادههای دو ردهای با ابرمستطیل موازی محورهای مختصات
محورهای موضوعی : عمومىزهرا مصلحی 1 , مازیار پالهنگ 2
1 - دانشجو
2 - -
کلید واژه: یادگیری ماشین, دستهبندی, درخت تصمیم, هندسه محاسباتی, تفکیکپذیری, مستطیل,
چکیده مقاله :
یکی از روشهای یادگیری در یادگیری ماشین و شناسایی الگو، یادگیری با ناظر است. در یادگیری با ناظر و در مسایل دو ردهای، برچسب دادههای آموزشی موجود و شامل دو رده مثبت و منفی میباشند. هدف الگوریتم یادگیری با ناظر، محاسبه فرضیهای است که بتواند با کمترین مقدار خطا، دادههای مثبت و منفی را از یکدیگر جدا کند. در این مقاله، از بین کلیه الگوریتمهای یادگیری با ناظر، بر عملکرد درختهای تصمیم متمرکز میشویم. دیدگاه هندسی درخت تصمیم ما را به مفهوم تفکیکپذیری در هندسه محاسباتی نزدیک میکند. از بین کلیه الگوریتمهای تفکیکپذیری موجود و مرتبط با درخت تصمیم، مساله محاسبه مستطیل با حداکثر اختلاف دو رنگ را مطرح میکنیم و الگوریتم را در یک، دو، سه و m بعد پیادهسازی میکنیم که m تعداد ویژگیهای دادهها را نشان میدهد. نتیجه پیادهسازی نشاندهنده آن است که این الگوریتم، الگوریتمی قابل رقابت با الگوریتم شناخته شده C4.5 است.
One of the learning methods in machine learning and pattern recognition is supervised learning. In supervised learning and in two-category problems, the available educational data labels include positive and negative categories. The goal of the supervised learning algorithm is to calculate a hypothesis that can separate positive and negative data with the least amount of error. In this article, among all supervised learning algorithms, we focus on the performance of decision trees. The geometric view of the decision tree brings us closer to the concept of separability in computational geometry. Among all the available resolution algorithms related to the decision tree, we raise the problem of calculating the rectangle with the maximum difference of two colors and implement the algorithm in one, two, three and m dimensions, where m represents the number of data features. The implementation result shows that this algorithm is competitive with the well-known C4.5 algorithm.