Verilerinin sınıflandırılması, veri kümesinin küçük ve
dengesiz olması durumunda zorlaşmakta ve sınıflama
performansını direkt etkilemektedir. Veri setinin küçük olması
ve/veya sınıflar arasında dengesizlik olması veri madenciliğinde
büyük bir sorun haline gelmiştir. Sınıflama algoritmaları, veri
setlerinin yeterli büyüklüğe sahip, dengeli olduğu varsayımı
üzerine geliştirilmiştir. Bu algoritmaların çoğu, azınlık sınıfındaki
örnekleri göz ardı ederken veya yanlış sınıflandırırken, çoğunluk
sınıfa odaklanır. Medikal veri madenciliğinde bazı kısıtlardan
dolayı küçük ve dengesiz veri seti problemi ile sıklıkla
karşılaşılmaktadır. Çalışma kapsamında erişime açık hepatit veri
seti, küçük veri setlerine bölünmüş, oluşturulan her bir veri seti
uzaklık tabanlı yöntemlerle çoğaltılmıştır. Çoğaltılan veri setleri
dört farklı makine öğrenmesi algoritması (Yapay Sinir Ağları,
Destek Vektör Makineleri, Naive Bayes ve Karar Ağacı)
kullanılarak sınıflandırılmış, elde edilen sınıflama sonuçları
karşılaştırılmıştır.
Classification of data is difficult in case of small and
unbalanced data set and this problem directly affects the
classification performance. Small and / or the imbalance dataset
has become a major problem in data mining. Classification
algorithms are developed based on the assumption that the data
sets are balanced and large enough. The most of the algorithms
ignore or misclassify examples of the minority class, focus on the
majority class. Small and unbalanced data set problem is
frequently encountered in medical data mining due to some
limitations. Within the scope of the study, the public accessible
data set, hepatitis, was divided into small and imblanced data
subsets, each of the data subsets were oversampled by distance
based data generation methods. The oversampled data sets were
classified by using four different machine learning algorithms
(Artificial Neural Networks, Support Vector Machines, Naive
Bayes and Decision Tree) and the classification scores were
compared.