İnsan gücü yerine bilgisayarlı sistemlerin kullanıldığı otomatik şiddet tespiti son zamanlarda araştırmacıların ilgi konusu olmuştur. Ek olarak, Evrişimli Sinir Ağları gibi Derin Öğrenme modelleri, video tanima da dahil olmak üzere çeşitli alanlarda birçok farklı göreve başarıyla uygulanmıştır. Bunlar göz önünde bulundurularak bu tezde, şiddetin tanınması için manuel insan kontrolü gerektirmeyen bilgisayarlı bir model tasarlanacaktır. Basit bir 3D CNN ve transfer öğrenme kullanan bir MoViNet 3D CNN dahil olmak üzere iki model tasarlanacaktır. Modelleri eğitmek ve çalıştırmak için 5200 videodan oluşan birleştirilmiş bir veri kümesi kullanılacaktır. Bu tezin amacı, CNN'lerin tasarımı ve matematiği hakkında kapsamlı bir açıklama sağlamak, iki 3D CNN modelini implemente etmek ve bu modelleri birçok yönden açıklamak ve analizini yapmaktır.
Automatic violence detection using computerized systems instead of manpower has been a subject of significant contemporary interest among researchers recently. In addition, Deep Learning models such as Convolutional Neural Networks have been successfully applied to many different tasks in a wide range of domains, including video recognition. To that end in this thesis, a computerized model for violence recognition will be designed which does not require manual human inspection. Two models will be designed, including a simple 3D CNN and a MoViNet 3D CNN which uses transfer learning. A combined dataset consisting of 5200 videos will be used to train and run the models. The aim of this thesis is to give a comprehensive explanation to the design and mathematics of CNNs, implement two 3D CNN models and explain and analyze them in many aspects.