DSpace Repository

Multi-label classification of text document using deep learning

Show simple item record

dc.contributor.author Mohammed, Hamza Haruna
dc.date.accessioned 2020-04-28T20:36:13Z
dc.date.available 2020-04-28T20:36:13Z
dc.date.issued 2019
dc.identifier.citation Hamza Haruna Mohammed (2019). Multi-label classification of text document using deep learning / Derin öğrenme kullanan metin belgelerinin çoklu etiket sınıflandırılması. Yayımlanmış yüksek lisans tezi. Ankara: Çankaya Üniversitesi, Fen Bilimleri Enstitüsü. tr_TR
dc.identifier.uri http://hdl.handle.net/20.500.12416/3483
dc.description.abstract Recently, studies in the field of Natural Language Processing and some of its related important problem and Applications in the machine learning field continue to mount up. Machine Learning is prove to be predominantly data-driven in the sense that generic model buildings are used and then tailored to a specific application data. Needless to say, this has proven to be a very effective approach to modeling the complicated data dependencies we frequently experience in practice, making very few assumptions and allowing the information to talk for themselves. Examples can be found in chemical process engineering, climate science, systems, healthcare, and linguistic processing of natural language, to name a few. Moreover, text classification is one of the important aspect of Natural Language Processing. Text classification is the act of categorizing text or text documents into a given set of labels. While on the other hand, multi-label text classification deals with classifying text or documents into one more labels at the same time. Over the years, some methods for classifying text and documents have been proposed, including popularly known Bag of Words (BoW) method, Supervised Machine Learning, tree induction and label-vector embedding, to mention a few. These kind of tools can be used in many digital applications, such as document filtering, search engines, document management systems, etc. Lately, Deep Learning based methods is getting more attention, especially in an Extreme Multi-Label text classification. Deep learning is one of the major solutions to many machine learning applications that involve high-dimensional and unstructured data, such as pictures and text documents. However, it is of paramount importance in many of these applications to be able to reason accurately about the uncertainties associated with the predictions of these models. Therefore in this studies, we explore multi-label classification of text documents using deep learning methods such as CNN, RNN, LSTM, and even GRU. We investigate two scenarios in the studies. Firstly, multi-label classification models with plane embedding layer, and secondly with a Glove, Word2vec, and FastText as pre-trained embedding corpus for our models. We evaluate and compare these different neural network models performances in terms of multi-label evaluation metrics with respect to the two approaches. tr_TR
dc.description.abstract Son zamanlarda, Doğal Dil İşleme alanında çalışmalar ve bununla ilgili bazı önemli problemler ve makine öğrenmesi alanındaki uygulamalar artmaya devam ediyor. Makine öğreniminin genel amaçlı modellerin uygulama alanına özel veri ile eğitilerek kullanılması ile veriye dayalı olduğu kanıtlanmıştır. Bu yöntemin pratikte sıkça karşılaştığımız karmaşık veri bağımlılıklarının modellenmesinde, çok az varsayımda bulunulduğunda ve bilgilerin kendileri için konuşması açısından çok etkili bir yaklaşım olduğu kanıtlanmıştır. Kimyasal proses mühendisliği, iklim bilimi, sistemler, sağlık hizmetleri ve doğal dilin dilbilimsel işlenmesinde bazılarına örnekler verilebilir. Ayrıca, metin sınıflandırma Doğal Dil İşlemenin önemli yönlerinden biridir. Metin sınıflandırma, metin veya metin belgelerini belirli bir etiket grubuna kategorize etme eylemidir. Öte yandan, çok etiketli metin sınıflandırma, metin veya belgelerin aynı anda bir başka etikete sınıflandırılması ile ilgilidir. Yıllar içinde kelime çantası modelleri, denetimli makine öğrenmesi, ağaç azaltma ve etiket-vektör gömmeleri gibi metotlar önerilmiştir. Bu tür araçlar, belge filtreleme, arama motorları, doküman yönetim sistemleri gibi gerçek dünyadaki birçok uygulamada kullanılabilir. Son zamanlarda derin öğrenmeye dayalı modeller, bunların içinde de aşırı çoklu etiketli metin sınıflandırma modeli, ilgi çekmeye başlamıştır. Derin öğrenme, resim ve metin belgeleri gibi yüksek boyutlu ve yapılandırılmamış verileri içeren birçok makine öğrenimi uygulamasının ana çözümlerinden biridir. Bununla birlikte, bu uygulamaların birçoğunda, bu modellerin öngörüleriyle ilgili belirsizlikleri doğru bir şekilde aktarabilmek çok önemlidir. Bu sebeple, bu çalışmada çoklu etiketli metin sınıflandırma problemini evrişimsel sinir ağları, yinelemeli sinir ağları, uzun kısa zamanlı hafıza modelleri ve geçitli tekrarlayan birimler modelleriyle araştırdık. Bu çalışmada iki senaryo kulandık. Birincisi, gömme katmanıyla ve ikincisi Word2vec, Glove ve FastText gibi önceden eğitilmiş bir gömme bütüncesi ile çok etiketli sınıflandırma. Bu farklı sinir ağı modeli performanslarını, bu iki yaklaşıma göre çok etiketli değerlendirme ölçütleri açısından değerlendirdik ve karşılaştırdık. tr_TR
dc.language.iso eng tr_TR
dc.rights info:eu-repo/semantics/openAccess tr_TR
dc.subject Natural Language Processing tr_TR
dc.subject Multi-Label Text Classification tr_TR
dc.subject Deep Learning tr_TR
dc.subject Word Embedding tr_TR
dc.subject Doğal Dil İşleme tr_TR
dc.subject Metin Sınıflandırma tr_TR
dc.subject Derin Öğrenme tr_TR
dc.subject Makine Öğrenimi tr_TR
dc.subject Korpusu tr_TR
dc.title Multi-label classification of text document using deep learning tr_TR
dc.title.alternative Derin öğrenme kullanan metin belgelerinin çoklu etiket sınıflandırılması tr_TR
dc.type masterThesis tr_TR
dc.identifier.startpage 1 tr_TR
dc.identifier.endpage 82 tr_TR
dc.contributor.department Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Bölümü tr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record