This research is a study of microblogging on social websites such as Twitter and shows the techniques of emotion detection and sentiment analysis for the same. This research has three objectives. The first objective is a discussion about how to extract and classify emotions in tweets using the unigram feature extractor with word presence or word frequency as a factor of extraction. High accuracy of classification is obtained when considering the word presence as a factor of extraction. Moreover, one can obtain high accuracy also by using word frequency as a factor of extraction when supplying the test data on training corpora of tweets in the case of multi-domain tweets. The second objective is the extraction and classification of the emotions of tweets using n-gram (1<n<4) feature extractors. We illustrate how to obtain high accuracy of classification through an increase in the number of instances of tweets for training corpora, and we prove that through supplying a test dataset on increasingly growing groups which are collected sequentially from training corpora with equal distribution of positive and negative tweets. A sentiment classifier has been used with models such as the Multi-nominal Naïve-Bayes model and the Sequential Minimal Optimisation, which is a type of Support Vector Machine model. Finally, we determine which one of two selected machine learning models is more suitable for classifying the sentiment of tweets in order to determine whether a tweet has a positive or negative sentiment.
Bu çalışmada sosyal medyadaki Twitter gibi web sitelerinde bulunan mikro bloglama fonksiyonu araştırılmakta ve bu sitelerdeki duygu tarama ve duygu analizi teknikleri gösterilmektedir. Bu araştırmanın üç tane amacı vardır. Birinci amaç tweetlerdeki duyguların kelime bulma veya kelime sıklığı özelliklerini bir çıkarım faktörü olarak kullanan unigram özellik çıkarıcı uygulamasını kullanılarak nasıl çıkarılacağı ve sınıflandırılacağı konusunu irdelemektir. Kelime bulma özelliği bir çıkarım faktörü olarak dikkate alındığında yüksek bir doğruluk oranı elde edilir. Ayrıca, çok alanlı tweetlerde tweetlerin eğitim korporasına test verileri verilirken kelime sıklığını bir çıkarım faktörü olarak kullanarak da yüksek doğruluk oranı elde edilebilir. İkinci amaç tweetlerdeki duyguların n-gram (1<n<4) özellik çıkarıcıları kullanılarak çıkarılması ve sınıflandırılmasıdır. Eğitim korporasında tweet örneklerinin sayısındaki bir artış yoluyla sınıflandırmada nasıl yüksek bir doğruluk oranı elde edileceğini gösteriyoruz ve bunu eşit sayıda pozitif ve negatif tweet dağılımıyla eğitim korporasından sıralı olarak toplanan artan biçimde büyüyen gruplara bir test dataseti vermek suretiyle kanıtlıyoruz. Bir Destek Vektörü Makine Modeli türü olan Sıralı Minimal Optimizasyon ve Multi-nominal Naïve-Bayes modeli gibi modeller ile birlikte bir duygu sınıflandırıcısı kullanılmıştır. Son olarak, bir tweetin pozitif duyguya mı yoksa negatif duyguya mı sahip olduğunu belirlemek amacıyla tweetlerin duygularını sınıflandırmak seçilen iki makine öğrenme modelinden hangisinin daha uygun olduğunu belirliyoruz.