DSpace@Çankaya

Multi-label and single-label text classification using standard machine learning algorithms and pre-trained bert transformer

Basit öğe kaydını göster

dc.contributor.author Alfigi, Huda
dc.date.accessioned 2023-05-26T08:39:56Z
dc.date.available 2023-05-26T08:39:56Z
dc.date.issued 2023
dc.identifier.citation Alfigi, Huda (2023). Multi-label and single-label text classification using standard machine learning algorithms and pre-trained bert transformer / Standart makine öğrenimi algoritmaları ve önceden eğitilmiş bert transformer kullanarak çok etiketli ve tek etiketli metin sınıflandırma. Yayımlanmış yüksek lisans tezi. Ankara: Çankaya Üniversitesi, Fen Bilimleri Enstitüsü. tr_TR
dc.identifier.uri http://hdl.handle.net/20.500.12416/6414
dc.description.abstract Doğal dil işleme (DDİ) araştırmaları, dijital belgelerin artan kullanılabilirliği ve bunlara çeşitli şekillerde erişme ihtiyacı nedeniyle son zamanlarda büyük ilgi görmüştür. Dijital metin verilerindeki patlama, çeşitli metin işleme ve sınıflandırma tekniklerinin geliştirilmesi ihtiyacını ortaya koymaktadır. DDİ'deki en temel ve hayati zorluk metin sınıflandırmasıdır. Bu amaçla, belgeleri ve metinleri içeriklerine göre önceden belirlenmiş kategorilere ayırmak için önerilmiştir ve o zamandan beri makine öğrenimini uygulamanın en popüler yöntemlerinden biri haline gelmiştir. Makine öğrenimi (MÖ) yaklaşımı, genel bir tümevarım yaklaşımının bir dizi sınıflandırılmış metin ve ilgi sınıflarının özelliklerini kullanarak özel olarak sınıflandırılmış bir metin oluşturmayı öğrendiği bir yöntemdir. Ayrıca, ilgili bilgilerin keşfedilmesi, fazla bilgi yükünü azaltırken bilgi alma verimliliğini artırmaya yardımcı olabilir. Geleneksel modeller, standart makine öğrenimi algoritmalarını kullanarak sınıflandırmadan önce iyi örnek nitelikleri elde etmek için genellikle yapay yöntemler gerektirir. Bu nedenle, özellik çıkarma yöntemin etkinliğini önemli ölçüde kısıtlar. Öte yandan, derin öğrenme, özellik temsillerinin çıktılara aktarılmasına yardımcı olan bir dizi doğrusal olmayan dönüşüm gerçekleştirerek özellik çıkarma işlemini model oluşturma yaklaşımına dahil ettiği için daha fazla ilgi gören tipik modellerden farklıdır. Ayrıca, derin öğrenme algoritmaları, uzmanların kuralları ve öznitelikleri tanımlama ihtiyacını ortadan kaldırır, bunun yerine metinler için otomatik olarak üst düzey anlamsal temsiller sağlar. Bu nedenle, bu çalışmalarda, BERT gibi önceden eğitilmiş modellerden elde edilen bağlamsal gömme yeteneklerini keşfediyoruz ve küçük bir İngilizce haber veri kümesinde uygulanacak bazı geleneksel makine öğrenimi yöntemlerine ek olarak, büyük bir İngilizce haber veri kümesindeki metin belgelerinin çok etiketli sınıflandırmasından yararlanıyoruz. Son olarak, BERT'in bir başka versiyonu olan Arapça BERT, Arapça bir otel incelemesi veri kümesinden çıkarılan yönlere yönelik duygu eğlimini araştırmaktadır. tr_TR
dc.description.abstract Natural language processing (NLP) research has received a great deal of attention in recent times, because of the increasing availability of digital documents and the resulting need to access them in various ways. The explosion of digital text data demonstrates the need to develop diverse text processing and classification techniques. The most essential and vital challenge in NLP is text classification. It was proposed for this purpose to classify documents and texts into pre-determined categories based on their contents, and it has since become one of the most popular methods of implementing machine learning. The machine learning (ML) paradigm is one where a generic inductive approach learns to create a privately classified text using a set of classified texts and the features of the classes of interests. Furthermore, discovering the relevant information can help improve information retrieval efficiencies while reducing the overload of information. Traditional models typically require artificial methods for obtaining good sample attributes before classifying them using standard machine learning algorithms. Therefore, feature extraction restricts the method's effectiveness significantly. On the other hand, deep learning differs from typical models, which are getting more attention because they incorporate feature extraction into the model building approach by performing a series of nonlinear transformations that assist in transferring feature representations to outputs. Furthermore, deep learning algorithms avoid the need for experts to define rules and attributes, instead automatically providing high-level semantic representations for texts. Therefore, in these studies, we explore the capabilities of contextually embedding derived from pre-trained models like BERT, and make use of multi-label classification of text documents in a huge English news dataset, in addition to some traditional machine learning methods to be applied in a small English news dataset. Finally, another version of BERT, Arabic BERT, explores sentiment polarity toward extracted aspects in an Arabic hotel review dataset. tr_TR
dc.language.iso eng tr_TR
dc.rights info:eu-repo/semantics/openAccess tr_TR
dc.subject Multi-label Classification tr_TR
dc.subject Machine Learning tr_TR
dc.subject Arabic Sentiment Analysis tr_TR
dc.subject Deep Learning tr_TR
dc.subject BERT tr_TR
dc.subject Single-label Classification tr_TR
dc.subject Çok Etiketli Sınıflandırma tr_TR
dc.subject Makine Öğrenmesi tr_TR
dc.subject Arapça Duygu Analizi tr_TR
dc.subject Derin Öğrenme tr_TR
dc.subject Tek Etiketli Sınıflandırma tr_TR
dc.title Multi-label and single-label text classification using standard machine learning algorithms and pre-trained bert transformer tr_TR
dc.title.alternative Standart makine öğrenimi algoritmaları ve önceden eğitilmiş bert transformer kullanarak çok etiketli ve tek etiketli metin sınıflandırma tr_TR
dc.type masterThesis tr_TR
dc.identifier.startpage 1 tr_TR
dc.identifier.endpage 84 tr_TR
dc.contributor.department Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Bölümü tr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster