Bilgisayar Mühendisliği Bölümü Tezleri
http://hdl.handle.net/20.500.12416/58
Bilgisayar Mühendisliği Bölümü Tezlerini İçerir.2024-03-28T10:18:21ZClassification of darknet activities using neural networks
http://hdl.handle.net/20.500.12416/7234
Classification of darknet activities using neural networks
Aktan Ten, Büşra
Tehditlere maruz kalmadan önce ağı karakterize ederek analiz yapmak oldukça önemlidir. Bu çalışmada darknet ağ trafiği analizi yapılarak darknet ağı 2 katmanlı yapay sinir ağı modellerinde inceleme gerçekleştirilerek tespit ve karekterize edilmiştir. İlk katmanda verinin iyi huylu mu yoksa darknet verisi trafiğimi ayırt edilmekte, ikinci katmanda ise trafiğin oluşturduğu Browsing, P2P, Chat, Email, Transfer, Audio Stream, Video Stream ve VOIP kategorilerinden hangisine ait olduğu tespiti yapılmaktadır. RNN, LSTM ve MLP veri algoritma modelleri ile deneyler yapılmıştır. GAN ile yeni veri setleri üretilerek diğer yöntemlerin eğitim verisi olarak kullanılmıştır. LSTM ve MLP algoritmaları ikinci katmanda hem çoklu kategori hem de ikili kategorili olarak tekrar kurgulanmıştır. MLP model de özellik seçimi algoritması uygulanmıştır. CICDarknet2020 veri seti kullanılmıştır. Model doğruluk değerlerine göre RNN darknet trafiği tespitinde 0.98, ikinci katmanda ise 0.86 oranında başarı elde edilmiştir. LSTM modelinde sırasıyla 0.99 ve 0.71 doğruluk değerleri elde edilmiştir. Ayrı ayrı modellenen kategorilerin ortalama doğruluk değerleri 0.92 olarak elde edilmiştir. MLP modelinde, sırasıyla 0.99 ve 0.78 değerleri gözlemlenmiştir. Özellik seçimi algoritma modeli ile aynı çıktılar elde edilmiştir. ikili kategori modelinde ortalama olarak %96 doğruluk değerleri sağlanmıştır.; It is very important to characterize and analyze the network before being exposed to threats. In this study, darknet network traffic analysis was carried out and the darknet network was determined and characterized by examining the 2 layer artificial neural network models. In the first layer, it distinguishes whether the data is benign or darknet traffic, and in the second layer, it is determined which of the categories of Browsing, P2P, Chat, Email, Transfer, Audio/Video Stream and VOIP generated by the traffic. Experiments were made with RNN, LSTM and MLP algorithm models. New data sets were produced with GAN and used as training data. LSTM and MLP algorithms are reconstructed as both multi category and binary category. The feature selection algorithm has been applied in the MLP model. CICDarknet2020 dataset was used. According to the model accuracy values, RNN, 0.98 success was achieved in the detection of darknet traffic, and 0.86 in the second layer. In the LSTM model, values of 0.99 and 0.71 were obtained. Separately modeled categories were obtained as 0.92. In the MLP model, accuracy values of 0.99 and 0.78 were observed. The close outputs were obtained with the feature selection algorithm model. In the binary category model, 96% accuracy was achieved
2023-01-01T00:00:00ZStance detection in Turkish dataset on Russia-Ukraine war
http://hdl.handle.net/20.500.12416/7212
Stance detection in Turkish dataset on Russia-Ukraine war
Fırat, Eray
Sosyal medya son yıllarda çeşitli konulardaki kamuoyu görüşlerini anlamak için temel bir bilgi kaynağı haline gelmiştir. Bu nedenle, sosyal medyadan elde edilen verilerden otomatik bilgi çıkarmanın önemi artmıştır. Doğal dil işleme alt görevlerinden biri olan duruş tespiti de, otomatik bilgi çıkarımı için önemli bir konudur. Duruş tespiti, kullanıcının belirli bir konu, olay veya kişiye karşı tutumunu otomatik olarak belirler. Bu çalışmada, Rusya-Ukrayna Savaşı'na ilişkin sosyal medya kullanıcılarının duruşlarını tespit etmeye odaklanan Türkçe etiketlenmiş veri seti oluşturulmuş ve bu veri seti üzerinde çeşitli makine öğrenimi yöntemleri test edilmiştir. Bu çalışma için Twitter'dan toplanmış Türkçe metinler içinden Rusya ve Ukrayna olmak üzere iki hedefle etiketlenmiş 8215 tane metin-hedef çifti ile yeni bir veri seti oluşturulmuştur. Bu veri setine Destek Vektör Makineleri, Rastgele Orman, k-En Yakın Komşu, XGBoost, Uzun-Kısa Süreli Bellek (LSTM) ve Kapı Özyinelemeli Geçitler (GRU) modelleri GloVe ve Fastext kelime gömme yöntemi ile uygulanmıştır. Veri seti hedefler arasında dengesiz olduğu için, bu algoritmalarla eksik örnekleme ve aşırı örnekleme yöntemleri de kullanılmıştır. Destek Vektör Makineleri yöntemi ile, Rusya için 0.73 ve Ukrayna için 0.81 F1 puanıyla en iyi sonuçlaın alındığı görülmüştür. Bu sonuçlara ek olarak, LSTM ve GRU yöntemlerinden elde edilen sonuçlar Destek Vektör Makineleri algoritmasının sonuçlarına oldukça yakındır. Yeni oluşturulan bu Türkçe veri seti, duruş tespiti araştırma alanı için değerli bir kaynak olarak değerlendirilebilir ve gelecek çalışmalarda bu veri seti ile transformer tabanlı yaklaşımlar kullanılabilir. Genel olarak, bu çalışma Türkçe metin kullanarak duruş tespiti araştırma alanını katkıda bulunmaktadır.; Social media has evolved into a crucial informational resource to understand public opinion on various issues in recent years. Therefore, the importance of automatic information extraction from these data has increased. Stance detection, one of the subtasks of natural language processing, is also a crucial issue for automatic information extraction. Stance detection automatically determines the user's side regarding a particular subject, event, or person. In this study, a Turkish-labelled data set focusing on the stance determination task to determine social media users' attitudes towards the Russia-Ukraine War was created, and various machine learning methods were evaluated on this data set. For this study, 8215 tweets were collected on Twitter and cleaned. The dataset then was tagged with two targets Russia, and Ukraine. Support Vector Machines, Random Forest, k-Nearest Neighbour, XGBoost, Long-Short Term Memory (LSTM), and Gated Recurrent Unit (GRU) models are employed with GloVe and Fastext word embedding. Since the dataset is unbalanced between the targets, undersampling and oversampling methods were also used with these algorithms. With an F1 score of 0.73 for Russia and 0.81 for Ukraine, the results showed the Support Vector Machines algorithm to produce the best outcomes. In addition to these results, LSTM and GRU also produced outcomes that were highly comparable to those of the Support Vector Machines algorithm. The newly created Turkish corpus can be regarded as a valuable resource for this research area and in the future, transformer-based approach can be used with this corpus. Therefore, this study advances the field of stance detection research using Turkish text.
2023-01-01T00:00:00ZPredictive modeling for botnet detection: A new dataset and machine learning approach
http://hdl.handle.net/20.500.12416/7209
Predictive modeling for botnet detection: A new dataset and machine learning approach
Budak, Kadir İlker
Teknolojinin gelişmesiyle birlikte çevrimiçi hizmetlerin önemi giderek artmıştır. Saldırganlar, botnet'lerden oluşan zombi ağını yöneterek, sistem ve ağlara kapasitelerinden fazla istekte bulunur, böylece hizmetlerin yavaşlamasını veya kesintiye uğramasını hedefler. Bu tür saldırılara DDOS (Dağıtılmış Hizmet Reddi saldırısı) adı verilir. DDOS saldırılarının tespiti ve önlenmesi için literatür çalışması yapılmış ve birçok farklı teknikle karşılaşılmıştır. Yapılan araştırmalar sonucunda Makine Öğrenmesi ve DDOS davranış tespiti konularına ağırlık verilmiştir. Machine Learning ile Davranış tabanlı DDOS tespiti için yapılan bu çalışmada, CTU-13 veri seti ve yerel ortamda oluşturulan sanal veri seti kullanılmıştır. Veri setleri üzerine normalizasyon işlemleri uygulanarak çalışma için hazır hale getirilmiştir. Makine Öğrenemsi için 5 farklı algoritma kullanılmış ve algoritmalar üzerinde parametre ayarı yapılmıştır. Çoklu regresyon, topluluk öğrenimi ve özellik çeşitleme gibi farklı yöntemlerin sonuca etkisi değerlendirilmiştir. İyileştirmelerin sonuçlar üzerindeki etkileri tartışılmıştır. Genel olarak Random Forest ve Decision Tree başarılı algoritmalar olarak öne çıkmaktadır. Naive Bayes ve Support Vector Machine, bu senaryo için başarısız olmuştur. Topluluk öğrenim yönteminde birlikte çalışan iki algoritmanın sonuca olumlu etkisi olmuştur. Sanal veri setinin en önemli sonucu, ip adresi özelliğinin kullanımının sonuca olumlu bir katkısının olmamasıdır.; With the development of technology, the importance of online services has gradually increased. By managing the zombie network consisting of botnets, the attackers target the slowdown or interruption of the services by making more requests to the systems and networks than their capacity. This type of attack is called DDOS (Distributed Denial of Service attack). A literature study has been conducted to detect and prevent DDOS attacks and many different techniques have been encountered. As a result of the research, DDOS behavior detection has been focused on by using machine learning. In this study for behavior-based DDOS detection with Machine Learning, the CTU-13 and the virtual dataset created in the local environment were used. The data sets have been made ready for study by applying normalization processes. 5 different algorithms have been used for Machine Learning and parameter tuning has been performed on the algorithms. The effect of different methods, such as multiple regression, stacking method, and feature diversity on the result has been evaluated. The effects of the improvements on the results are discussed. In general, Random Forest and Decision Tree stand out as successful algorithms. Naive Bayes and Support Vector Machine have been unsuccessful for the case studied. In the stacking method, the two algorithms working together have positively affected the result. The most important result of the virtual dataset is that using the IP address feature does not positively contribute to the result.
2023-01-01T00:00:00ZAn autoML tool for software vulnerability prediction
http://hdl.handle.net/20.500.12416/7178
An autoML tool for software vulnerability prediction
Gürcan, Tarık
Özellikle son yıllarda büyük miktarda verinin daha erişilebilir hale gelmesi ve finans, sağlık, lojistik ve teknoloji gibi sektörlere önemli faydalar sağlaması nedeniyle makine öğreniminin yaygınlaşması kaçınılmaz olmuştur. Farklı sektörlerde kullanılmaya başlayan makine öğrenmesi uygulamalarının hayata geçirilmesi ihtiyacı hızlı ve verimli bir şekilde artmaktadır. Ancak geleneksel yöntemleri kullanarak bir makine öğrenimi modeli oluşturmak için gereken derin teknik bilgi ve kodlama becerilerine herkes yetkin olmayabilir. Bu nedenden dolayı kodsuz veya az kodlu platformlar daha fazla ilgi görmeye başlamıştır. Bu platformlar, kullanıcıların veri kümelerini yüklemesine, modeli oluşturmaya yönelik özellikleri tanımlamasına ve hatta teknik olmayan arayüzlerle modeli eğitmesine ve değerlendirmesine olanak tanır. Bu sayede karmaşık kod yazma ihtiyacını ortadan kaldırarak daha geniş bir kitlenin makine öğrenimi projelerine dahil olmasını mümkün kılar. Bu tezde, diğer kodsuz platformlara ek olarak çalışma zamanı sınırlama ve model bozulma analizi gibi temel özellikleri sunan, yazılım zafiyet analizi için kodsuz makine öğrenimi tahmin modellerinin gerçekleştirilmesine olanak sağlayan bir platform geliştirilmiştir. Bu platform, PPDaaS (Prediction Platform as a Service) olarak adlandırılmıştır ve "Yazılım Güvenlik Açığı" ve "OpenML" veri kümeleriyle tahmin modellerini eğitmek için kullanılmıştır. Başlangıçta platform, AutoML platformları için kullanılan kıyaslama verileriyle test edildi. Sınıflandırma algoritmalarının performansı, makine öğrenimi algoritmaları arasında adil bir karşılaştırma yapmak için "OpenML yetişkin" veri kümesine bir zaman sınırı konularak değerlendirildi. Platform, amaçlanan AutoML işlevleri açısından test edildikten sonra Yazılım Güvenlik Açığı verilerindeki model bozulmasını bulmak için kullanıldı. Son olarak geliştirilen PPDaaS platformuna ilişkin geri bildirimler son kullanıcılardan da toplandı. Sonuçlar geliştirilen PPDaaS platformunun yazılım sektöründe kendine yer bulabileceğini göstermektedir.; Özellikle son yıllarda büyük miktarda verinin daha erişilebilir hale gelmesi ve finans, sağlık, lojistik ve teknoloji gibi sektörlere önemli faydalar sağlaması nedeniyle makine öğreniminin yaygınlaşması kaçınılmaz olmuştur. Farklı sektörlerde kullanılmaya başlayan makine öğrenmesi uygulamalarının hayata geçirilmesi ihtiyacı hızlı ve verimli bir şekilde artmaktadır. Ancak geleneksel yöntemleri kullanarak bir makine öğrenimi modeli oluşturmak için gereken derin teknik bilgi ve kodlama becerilerine herkes yetkin olmayabilir. Bu nedenden dolayı kodsuz veya az kodlu platformlar daha fazla ilgi görmeye başlamıştır. Bu platformlar, kullanıcıların veri kümelerini yüklemesine, modeli oluşturmaya yönelik özellikleri tanımlamasına ve hatta teknik olmayan arayüzlerle modeli eğitmesine ve değerlendirmesine olanak tanır. Bu sayede karmaşık kod yazma ihtiyacını ortadan kaldırarak daha geniş bir kitlenin makine öğrenimi projelerine dahil olmasını mümkün kılar. Bu tezde, diğer kodsuz platformlara ek olarak çalışma zamanı sınırlama ve model bozulma analizi gibi temel özellikleri sunan, yazılım zafiyet analizi için kodsuz makine öğrenimi tahmin modellerinin gerçekleştirilmesine olanak sağlayan bir platform geliştirilmiştir. Bu platform, PPDaaS (Prediction Platform as a Service) olarak adlandırılmıştır ve "Yazılım Güvenlik Açığı" ve "OpenML" veri kümeleriyle tahmin modellerini eğitmek için kullanılmıştır. Başlangıçta platform, AutoML platformları için kullanılan kıyaslama verileriyle test edildi. Sınıflandırma algoritmalarının performansı, makine öğrenimi algoritmaları arasında adil bir karşılaştırma yapmak için "OpenML yetişkin" veri kümesine bir zaman sınırı konularak değerlendirildi. Platform, amaçlanan AutoML işlevleri açısından test edildikten sonra Yazılım Güvenlik Açığı verilerindeki model bozulmasını bulmak için kullanıldı. Son olarak geliştirilen PPDaaS platformuna ilişkin geri bildirimler son kullanıcılardan da toplandı. Sonuçlar geliştirilen PPDaaS platformunun yazılım sektöründe kendine yer bulabileceğini göstermektedir.
2023-01-01T00:00:00Z