Text categorization or classification is a general task of classifying un-organized natural language texts according to specific subject matter or category. Electronic mail (e-mail) filtering is a binary text classification problem which the user emails can be classified as legitimate (non-spam) or un-wanted mail (spam). In this study, we tried to find a filtering solution that is able to automatically classify emails into spam and legitimate categories. In order to automatically and efficiently classify emails as spam or legitimate we took advantage of some Machine Learning methods and some novel ideas from Information Retrieval
Metin sınıflandırma, belli konu başlığına veya kategorilerine göre düzenlenmiş doğal dil metinlerini sınıflandırmanın genel adıdır. Elektronik posta filtreleme, kullanıcı elektronik postalarının yasal veya istenmeyen olarak sınıflandırılabildiği ikili bir metin sınıflandırma problemidir. Bu çalışmada, elektronik postaları otomatik olarak yasal veya istenmeyen kategorilerine ayırabilen bir filtreleme çözümü bulmaya çalışılmıştır. Elektronik postaları otomatik olarak yasal veya istenmeyen şeklinde sınıflandırmak için bazı Makine Öğrenim metotları ve Bilgi Elde Etme'nin bazı fikirlerinden faydalanarak, elektronik posta filtreleme işinde etkin sonuçlar elde edilmeye çalışılmıştır