Please use this identifier to cite or link to this item:
https://has.hcu.ac.th/jspui/handle/123456789/3338
Title: | การเพิ่มประสิทธิภาพการสุ่มเพิ่มข้อมูลสำหรับข้อมูลไม่สมดุลในการจำแนกประเภท |
Other Titles: | Enhancing Random Oversampling for Imbalanced Classification |
Authors: | นพมาศ อัครจันทโชติ ศิลา เต็มศิริฤกษ์กุล วรนุช มีภูมิรู้ ยุวธิดา ชิวปรีชา Noppamas Akarachantachote Sila Temsiririrkkul Woranuch Meepoomroo Yuwathida Chiwpreechar Huachiew Chalermprakiet University. Faculty of Science and Technology Huachiew Chalermprakiet University. Faculty of Science and Technology Huachiew Chalermprakiet University. Faculty of Science and Technology Huachiew Chalermprakiet University. Faculty of Science and Technology |
Keywords: | ข้อมูลไม่สมดุล Imbalanced data การสุ่มตัวอย่าง Sampling การสุ่มเพิ่มข้อมูลอย่างสุ่ม Random Oversampling การจำแนกประเภท การจัดหมวดหมู่ Classification |
Issue Date: | 2024 |
Citation: | ว.วิทย. เทคโน. หัวเฉียวเฉลิมพระเกียรติ 10, 2 (กรกฎาคม-ธันวาคม 2567) : 110-125. |
Abstract: | การดำเนินงานกับปัญหาการจำแนกประเภท ข้อมูลที่ไม่สมดุลเป็นความท้าทายที่พบได้บ่อยซึ่งตัวจำแนกประเภทมีแนวโน้มที่จะจำแนกหน่วยตัวอย่างใหม่เป็นกลุ่มส่วนใหญ่ทำให้การทำนายกลุ่มส่วนน้อยมีประสิทธิภาพต่ำดังนั้นจึงควรคำนึงถึงการแก้ปัญหาข้อมูลไม่สมดุล การสุ่มเพิ่มข้อมูลเป็นวิธีการหนึ่งที่ไม่ซับซ้อนในการจัดการกับข้อมูลไม่สมดุลแต่หน่วยตัวอย่างที่ถูกสุ่มซ้ำบางตัวอาจไม่ได้เป็นหน่วยตัวอย่างที่สำคัญต่อการจำแนกประเภทงานวิจัยนี้จึงได้นำเสนอวิธีการใหม่ในการจัดการกับข้อมูลที่ไม่สมดุลด้วย Hotelling Important Data Point Oversampling Algorithm (HIDPO) ซึ่งเป็นการปรับปรุงแนวทางการสุ่มเพิ่มข้อมูล วัตถุประสงค์ของงานวิจัยเพื่อเปรียบเทียบประสิทธิภาพการจำแนกประเภท เมื่อใช้ข้อมูลดั้งเดิม ข้อมูลจากการสุ่มเพิ่มข้อมูลระหว่างวิธีสุ่มเพิ่มข้อมูลกลุ่มส่วนน้อย (Random Oversampling: ROS) และวิธีที่นำเสนอใหม่ HIDPO บนข้อมูลจำลอง 96 สถานการณ์ของ 4 พารามิเตอร์ได้แก่ 1) อัตราความไม่สมดุล (IR) 2) จำนวนตัวแปรทำนายที่เกี่ยวข้องกับการจำแนกประเภท (RelVar) 3) ความแตกต่างของค่าเฉลี่ยของตัวแปรทำนายที่เกี่ยวข้องกับการจำแนกระหว่างกลุ่มส่วนน้อยกับกลุ่มส่วนใหญ่ (ClassDif) และ 4) ขนาดตัวอย่าง (n) โดยจำแนกประเภทด้วยการสร้างตัวแบบการถดถอยลอจิสติก ผลการทดลองพบว่า วิธี HIDPO ให้ค่าการวัดเอฟสูงสุดในสถานการณ์ที่มีความแตกต่างกันน้อยระหว่างกลุ่มส่วนน้อยและกลุ่มส่วนใหญ่ โดยเฉพาะเมื่อมีความไม่สมดุลกันมากอันเป็นสถานการณ์ที่มีความยากในการจำแนกประเภทส่วนอัตราความถูกต้องในการทำนายกลุ่มส่วนน้อย และอัตราความถูกต้องในการทำนายกลุ่มส่วนใหญ่ วิธี HIDPO ให้ค่าปานกลาง In classification problems, imbalanced data is a common challenge, as classifiers often exhibit a tendency to assign new sample points to the majority class. This leads to suboptimal prediction performance for the minority class. Therefore, it is imperative to mitigate the imbalanced data problem. Random oversampling is a simple employed technique to address class imbalance in datasets. Nevertheless, a subset of the sampled data points may prove inconsequential for the classification process. This research introduces a novel approach: the Hotelling Important Data Point Oversampling Algorithm (HIDPO), an improved version of Random Oversampling. This study aimed to compare classification performance using original data and data from over sampling techniques between Random Oversampling method and the proposed HIDPO method across 96 simulated scenarios. These scenarios varied in four parameters: 1) imbalance rate (IR), 2) the number of relevant predictor variables (RelVar), 3) the difference in means of predictor variables between the minority and majority groups (ClassDif), and 4) sample size (n). Logistic regression models were employed to perform classification tasks. The empirical findings demonstrated that the HIDPO method yields the highest F-measure in scenarios with minimal differences between the minority and majority classes, particularly in cases of severe imbalance, which present challenges for classification. Regarding true positive rate and true negative rate, the HIDPO method yielded moderate values. |
Description: | สามารถเข้าถึงบทความฉบับเต็ม (Full text) ได้ที่: https://ph02.tci-thaijo.org/index.php/scihcu/article/view/255324/171354 |
URI: | https://has.hcu.ac.th/jspui/handle/123456789/3338 |
Appears in Collections: | Science and Technology - Artical Journals |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Enhancing-Random-Oversampling .pdf | 102.46 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.