DSpace Repository

การเพิ่มประสิทธิภาพการสุ่มเพิ่มข้อมูลสำหรับข้อมูลไม่สมดุลในการจำแนกประเภท

Show simple item record

dc.contributor.author นพมาศ อัครจันทโชติ
dc.contributor.author ศิลา เต็มศิริฤกษ์กุล
dc.contributor.author วรนุช มีภูมิรู้
dc.contributor.author ยุวธิดา ชิวปรีชา
dc.contributor.author Noppamas Akarachantachote
dc.contributor.author Sila Temsiririrkkul
dc.contributor.author Woranuch Meepoomroo
dc.contributor.author Yuwathida Chiwpreechar
dc.contributor.other Huachiew Chalermprakiet University. Faculty of Science and Technology en
dc.contributor.other Huachiew Chalermprakiet University. Faculty of Science and Technology en
dc.contributor.other Huachiew Chalermprakiet University. Faculty of Science and Technology en
dc.contributor.other Huachiew Chalermprakiet University. Faculty of Science and Technology en
dc.date.accessioned 2024-12-03T06:51:51Z
dc.date.available 2024-12-03T06:51:51Z
dc.date.issued 2024
dc.identifier.citation ว.วิทย. เทคโน. หัวเฉียวเฉลิมพระเกียรติ 10, 2 (กรกฎาคม-ธันวาคม 2567) : 110-125. en
dc.identifier.uri https://has.hcu.ac.th/jspui/handle/123456789/3338
dc.description สามารถเข้าถึงบทความฉบับเต็ม (Full text) ได้ที่: https://ph02.tci-thaijo.org/index.php/scihcu/article/view/255324/171354 en
dc.description.abstract การดำเนินงานกับปัญหาการจำแนกประเภท ข้อมูลที่ไม่สมดุลเป็นความท้าทายที่พบได้บ่อยซึ่งตัวจำแนกประเภทมีแนวโน้มที่จะจำแนกหน่วยตัวอย่างใหม่เป็นกลุ่มส่วนใหญ่ทำให้การทำนายกลุ่มส่วนน้อยมีประสิทธิภาพต่ำดังนั้นจึงควรคำนึงถึงการแก้ปัญหาข้อมูลไม่สมดุล การสุ่มเพิ่มข้อมูลเป็นวิธีการหนึ่งที่ไม่ซับซ้อนในการจัดการกับข้อมูลไม่สมดุลแต่หน่วยตัวอย่างที่ถูกสุ่มซ้ำบางตัวอาจไม่ได้เป็นหน่วยตัวอย่างที่สำคัญต่อการจำแนกประเภทงานวิจัยนี้จึงได้นำเสนอวิธีการใหม่ในการจัดการกับข้อมูลที่ไม่สมดุลด้วย Hotelling Important Data Point Oversampling Algorithm (HIDPO) ซึ่งเป็นการปรับปรุงแนวทางการสุ่มเพิ่มข้อมูล วัตถุประสงค์ของงานวิจัยเพื่อเปรียบเทียบประสิทธิภาพการจำแนกประเภท เมื่อใช้ข้อมูลดั้งเดิม ข้อมูลจากการสุ่มเพิ่มข้อมูลระหว่างวิธีสุ่มเพิ่มข้อมูลกลุ่มส่วนน้อย (Random Oversampling: ROS) และวิธีที่นำเสนอใหม่ HIDPO บนข้อมูลจำลอง 96 สถานการณ์ของ 4 พารามิเตอร์ได้แก่ 1) อัตราความไม่สมดุล (IR) 2) จำนวนตัวแปรทำนายที่เกี่ยวข้องกับการจำแนกประเภท (RelVar) 3) ความแตกต่างของค่าเฉลี่ยของตัวแปรทำนายที่เกี่ยวข้องกับการจำแนกระหว่างกลุ่มส่วนน้อยกับกลุ่มส่วนใหญ่ (ClassDif) และ 4) ขนาดตัวอย่าง (n) โดยจำแนกประเภทด้วยการสร้างตัวแบบการถดถอยลอจิสติก ผลการทดลองพบว่า วิธี HIDPO ให้ค่าการวัดเอฟสูงสุดในสถานการณ์ที่มีความแตกต่างกันน้อยระหว่างกลุ่มส่วนน้อยและกลุ่มส่วนใหญ่ โดยเฉพาะเมื่อมีความไม่สมดุลกันมากอันเป็นสถานการณ์ที่มีความยากในการจำแนกประเภทส่วนอัตราความถูกต้องในการทำนายกลุ่มส่วนน้อย และอัตราความถูกต้องในการทำนายกลุ่มส่วนใหญ่ วิธี HIDPO ให้ค่าปานกลาง en
dc.description.abstract In classification problems, imbalanced data is a common challenge, as classifiers often exhibit a tendency to assign new sample points to the majority class. This leads to suboptimal prediction performance for the minority class. Therefore, it is imperative to mitigate the imbalanced data problem. Random oversampling is a simple employed technique to address class imbalance in datasets. Nevertheless, a subset of the sampled data points may prove inconsequential for the classification process. This research introduces a novel approach: the Hotelling Important Data Point Oversampling Algorithm (HIDPO), an improved version of Random Oversampling. This study aimed to compare classification performance using original data and data from over sampling techniques between Random Oversampling method and the proposed HIDPO method across 96 simulated scenarios. These scenarios varied in four parameters: 1) imbalance rate (IR), 2) the number of relevant predictor variables (RelVar), 3) the difference in means of predictor variables between the minority and majority groups (ClassDif), and 4) sample size (n). Logistic regression models were employed to perform classification tasks. The empirical findings demonstrated that the HIDPO method yields the highest F-measure in scenarios with minimal differences between the minority and majority classes, particularly in cases of severe imbalance, which present challenges for classification. Regarding true positive rate and true negative rate, the HIDPO method yielded moderate values. en
dc.language.iso th en
dc.subject ข้อมูลไม่สมดุล en
dc.subject Imbalanced data en
dc.subject การสุ่มตัวอย่าง en
dc.subject Sampling en
dc.subject การสุ่มเพิ่มข้อมูลอย่างสุ่ม en
dc.subject Random Oversampling en
dc.subject การจำแนกประเภท en
dc.subject การจัดหมวดหมู่ en
dc.subject Classification en
dc.title การเพิ่มประสิทธิภาพการสุ่มเพิ่มข้อมูลสำหรับข้อมูลไม่สมดุลในการจำแนกประเภท en
dc.title.alternative Enhancing Random Oversampling for Imbalanced Classification en
dc.type Article en


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account