ข้อมูลไม่สมดุลพบได้ในหลายสถานการณ์ ซึ่งโดยทั่วไปวิธีการจำแนกประเภทข้อมูลมีแนวโน้มที่จะทำนายข้อมูลเป็นกลุ่มส่วนมาก อันจะส่งผลถึงประสิทธิภาพที่ต่ำในการทำนายกลุ่มส่วนน้อย การสุ่มตัวอย่างเพิ่มสำหรับกลุ่มส่วนน้อยเป็นแนวทางหนึ่งในการจัดการกับปัญหาการจำแนกข้อมูลไม่สมดุล วัตถุประสงค์ของการวิจัยนี้ 1) เพื่อเปรียบเทียบประสิทธิภาพ การแก้ปัญหาข้อมูลไม่สมดุลด้วยการสุ่มตัวอย่างซ้ำระหว่างวิธีการสุ่มตัวอย่างเพิ่มข้อมูลเริ่มต้นอย่างสุ่ม และการสุ่มตัวอย่าง เพิ่มกลุ่มส่วนน้อยด้วยการสังเคราะห์ 2) เพื่อเปรียบเทียบประสิทธิภาพในการจำแนกข้อมูลระหว่างการถดถอยลอจิสติก และ ต้นไม้ตัดสินใจ สำหรับการจำแนกกลุ่มรายได้ผู้ประกอบการร้านยาประเภท ข.ย.1 โดยค่าวัดประสิทธิภาพที่ใช้ในการเปรียบเทียบได้แก่ ค่าความแม่นยำ อัตราความถูกต้องในการทำนายกลุ่มส่วนน้อย อัตราความถูกต้องในการทำนายกลุ่มส่วนมาก และค่าการวัดเอฟ ผลที่ได้ปรากฏว่า การสุ่มตัวอย่างเพิ่มกลุ่มส่วนน้อยด้วยการสังเคราะห์มีประสิทธิภาพสูงที่สุดใน การจำแนกสำหรับทุกวิธีการจำแนกประเภท
Imbalanced data are frequently found in many situations. General classification techniques tend to biased toward the majority class. This causes low performance in predicting minority class. Oversampling for minority class is a strategy to handle class imbalance classification. This research intends 1) to compare the efficiency of resampling method between Random over-sampling (ROS) and Synthetic Minority Over-sampling TEchnique (SMOTE), and 2) to compare the efficiency of classifiers between logistic regression and decision tree in solving the imbalance data of Type I Pharmacies Entrepreneur. Performance measures for this this comparison are accuracy, true positive rate, true negative rate, and measure. The results show that over-sampling by SMOTE has high performance on classifying the data from minority class for all classification techniques.