Specific keyword extraction from unstructured curriculum vitae using deep learning methods

Dür, Mustafa Buğra

dc.contributor.author	Dür, Mustafa Buğra
dc.date.accessioned	2023-03-01T11:51:54Z
dc.date.available	2023-03-01T11:51:54Z
dc.date.issued	2021
dc.identifier.citation	Dür, Mustafa Buğra (2021). Specific keyword extraction from unstructured curriculum vitae using deep learning methods / Derin öğrenme yöntemleri kullanılarak özgeçmişler üzerinde anahtar kelime çıkarımı. Yayımlanmış yüksek lisans tezi. Ankara: Çankaya Üniversitesi, Fen Bilimleri Enstitüsü.	tr_TR
dc.identifier.uri	http://hdl.handle.net/20.500.12416/6287
dc.description.abstract	Günümüz dünya şartlarında, teknoloji günden güne gelişmekte ve internet ortamında veri sayısı bir hayli artmaktadır. Bu gelişmeler ile beraber aktif rol oynayan bilişim sektöründe ki çeşitliliğin artmasıyla beraber, yeni pozisyonlar yeni çalışma alanları ortaya çıkmaktadır. İnternet ortamında birçok veri kaynağının olması bunların anlamlı olduğuna işaret etmemektedir. Verilerdeki artış hızı nedeniyle gerekli ve gereksiz bilgiyi ayırt etmek gitgide zorlaşmaktadır. Önemli olan anlamsız verilerden anlamlı bir veri çıkarabilmektir. Anlamsal olarak bütünlük sağlayan ve işe yarayan veriler günümüzde her alanda çok değerlidir. İnsanların işini kolaylaştırarak ve bilgisayar çağında çeşitli fırsatları yakalayabilmek adına bu alanda çok yoğun çalışmalar ortaya atılmaktadır. İnsanlar çeşitli alanlarda iş başvuruları yaparken, şirketlere kendilerini tanıtan kişisel özgeçmiş bilgilerini göndermektedirler. Şirket işe alacağı kişi için gerekli bilgileri en kısa yoldan bu şekilde öğrenmektedir. Ellerinde ve havuzlarında birçok özgeçmiş bulunan şirketler, işe alacağı kişileri sınıflandırmak ve diğer sektörlerde olduğu gibi elinde bulunan verilerin kendisi için en verimli şekilde kullanmak için çeşitli yöntemler ile anahtar kelime çıkarmak istemektedirler. Anahtar kelimeler sayesinde bir metin veya özgeçmiş için gerekli olan ilgili kategoriyi öğrenilebilir, konu hakkında en kısa özet bilgiye sahip olunabilir. Bu şekilde istebildiği gibi sınıflandırma yapılabilir ve anlamsal olarak bir bütünlük sağlanabilir. Her verisetinde bulunan her dosya için anahtar kelime tanımlaması yapılmamaktadır. Anahtar kelime çıkarımını doğru yapabilmek el yöntemiyle bir hayli zaman alabilir, hata yapılma oranı büyüktür ve el ile müdahale çok zordur. Bu yüzden anahtar kelime çıkarımı için birçok farklı yaklaşım ve çalışma söz konusudur. Daha önce yapılmış anahtar kelime çıkarımlarında istatiksel yöntemler, dilbilimsel yöntemler, makine öğrenmesi algoritmaları, derin öğrenme methodları ve son zamanlarda artan yapay sinir ağları methodları kullanılmıştır. Başlarda yapılan çalışmalarda, özgeçmiş üzerinde en çok geçen kelimeler için anahtar kelime önerisi yapılmıştır. Son zamanlarda yapay sinir ağları üzerinden yapılan çalışmalarda ise, anahtar kelime çıkarımı için öğrenmenin daha derinleştirilmesi, doğruluk payının daha çok arttırılması ve daha hızlı işlem yapılması amaçlanmıştır. Bu tez çalışmasında, bilişim sektörüne ait özgeçmişler üzerinde anahtar kelime çıkarımı üzerine yaklaşımlarda bulunulmuştur. Özgeçmişlerden oluşturulan veri havuzu ve veri havuzunda bulunan verilere ait anlamsal bütünlük oluşturması amacıyla açıklamalarıyla beraber kullanılmıştır. Yapay sinir ağları ile daha derin öğrenme amaçlanmış, daha doğru sonuçlar verebilmesi için hedef sektör üzerinde çalışılan anahatar kelimelerde kullanılmıştır. Anahtar kelime çıkarımı sayesinde; anlamsal bütünlük elde etmek, kişilerin özgeçmişlerine göre daha doğru sınıflandırılması hedef alınmıştır. Büyük veri setleri için anahtar kelime çıkarımı ile daha başarılı sınıflandırma elde edilmesi amaçlanmıştır.	tr_TR
dc.description.abstract	In today's world conditions, technology is developing day by day and the number of data on the internet is increasing considerably. With the increase in the diversity in the informatics sector, which plays an active role with these developments, new positions and new working areas are emerging. Having many data sources on the internet does not indicate that they are meaningful. Due to the rate of increase in data, it becomes increasingly difficult to distinguish between necessary and unnecessary information. The important thing is to be able to extract meaningful data from meaningless data. Data that provide semantic integrity and work is very valuable in every field today. In order to make people's job easier and to seize various opportunities in the computer age, very intensive studies are carried out in this field. When people make job applications in various fields, they send their personal resume information that introduces them to companies. In this way, the company learns the necessary information for the person to be recruited. Companies with many resumes in their hands and pools want to extract keywords with various methods to classify the people to be recruited and to use the data they have in the most efficient way for them, as in other sectors. With the help of keywords, the relevant category required for a text or a resume can be learned, and the shortest summary information about the subject can be obtained. In this way, classification can be made as desired and a semantic integrity can be provided. Keyword definition is not made for each file in each dataset. It can take a lot of time manually to extract keywords correctly, the rate of mistakes is high and manual intervention is very difficult. Therefore, there are many different approaches and studies for keyword extraction. Statistical methods, linguistic methods, machine learning algorithms, deep learning methods and recently increasing artificial neural network methods have been used in keyword extractions. In the early studies, keyword suggestions were made for the most common words on the resume. In recent studies on artificial neural networks, it is aimed to deepen the learning for keyword extraction, to increase the accuracy rate more and to perform faster processing. In this thesis, approaches have been made on keyword extraction on resumes of the informatics sector. The data pool created from the resumes and the data in the data pool were used together with their explanations in order to create semantic integrity. Deeper learning is aimed with artificial neural networks, and it is used in keyword words studied on the target sector in order to give more accurate results. Thanks to keyword extraction; It is aimed to achieve semantic integrity and classify individuals more accurately than their background. It is aimed to achieve more successful classification with keyword extraction for large data sets.	tr_TR
dc.language.iso	eng	tr_TR
dc.rights	info:eu-repo/semantics/openAccess	tr_TR
dc.subject	Neural Network	tr_TR
dc.subject	Deep Learning	tr_TR
dc.subject	Resume	tr_TR
dc.subject	LSTM	tr_TR
dc.subject	CV	tr_TR
dc.subject	Keyword Extraction	tr_TR
dc.subject	Yapay Sinir Ağları	tr_TR
dc.subject	Derin Öğrenme	tr_TR
dc.subject	Özgeçmiş	tr_TR
dc.subject	Uzun Kısa Süreli Bellek Derin Öğrenme	tr_TR
dc.subject	Anahtar Kelime Çıkarımı	tr_TR
dc.title	Specific keyword extraction from unstructured curriculum vitae using deep learning methods	tr_TR
dc.title.alternative	Derin öğrenme yöntemleri kullanılarak özgeçmişler üzerinde anahtar kelime çıkarımı	tr_TR
dc.type	masterThesis	tr_TR
dc.identifier.startpage	1	tr_TR
dc.identifier.endpage	73	tr_TR
dc.contributor.department	Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Bölümü	tr_TR