With the rapid evolution of the digital era, devices equipped with digital cameras are being more popular and widely used to capture digital videos. The huge number of frames in each video poses challenges toward processing these videos, as the result of the need for intensive processing to handle these frames. Hence, several techniques have been proposed to provide more efficient summaries for videos. An efficient summary is required to provide maximum information about the contents of the video using the minimum number of its selected frames. Such a summary can significantly reduce the complexity of the computations while maintaining high-quality results in the applications that rely on these summaries. Thus, more attention is being attracted by video summarization techniques to be employed in different fields of applications, such as predicting the genre of the video or measuring the similarity between two videos. Video summarization techniques rely on two main steps, finding the boundaries of the shots in the video and selecting the frame in each shot that holds the maximum information for that shot. A video shot is a sequence of frames that are collected without any cuts or transitions during the capturing of the video. However, recognizing the boundaries of these shots is a challenging process, due to the rapid development in digital video processing techniques that are used to merge the shots in videos. When these boundaries are recognized, a frame is selected to represent the information in that shot. However, the use of different techniques to find the boundaries of the shots and select the frames to represent them produce different summaries in different methods. Thus, it is important to compare the performance of these methods in order to select the one that is most appropriate for the application the method is required for. Moreover, recognizing the factors that can improve the performance of video summarization techniques can assist future researchers to propose video summarization methods with significantly improved performance. In this study, the methodologies of recent state-of-the-art methods are reviewed, and their performances are evaluated, so that, a comprehensive review and a reasonable comparison are presented. The evaluation results show that the use of a single pass over the frames of a video reduces the complexity of computations required to find the boundaries of the shots in that video. Such an approach has proven to provide high-quality summaries compared to methods that use multiple passes over the video frames. Moreover, the use of clustering techniques has also shown significant improvement to the quality of the produced summary. Thus, the methods that combine these approaches have shown relatively better performance.
Dijital çağın hızla evrimleşmesiyle, dijital kameralarla donatılmış cihazlar daha popüler hale geliyor ve dijital videoları çekmek için yaygın olarak kullanılıyor. Her videodaki çok sayıda kare sayısı, bu kareleri işlemek için yoğun işlem yapma ihtiyacının sonucuna göre, bu videoların işlenmesine yönelik zorluklar getirmektedir. Bu nedenle, bu videolar için daha verimli özetler sağlamak için birkaç teknik önerilmiştir. Videodan seçilen minimum kare sayısını kullanarak videoların içeriği hakkında maksimum bilgi sağlamak için verimli bir özet gereklidir. Böyle bir özet, bu özetlere dayanan uygulamalarda yüksek kaliteli sonuçları korurken hesaplamaların karmaşıklığını önemli ölçüde azaltabilir. Bu nedenle, videonun türünü tahmin etmek veya iki video arasındaki benzerliği ölçmek gibi farklı uygulama alanlarında kullanılacak video özetleme teknikleri daha fazla dikkat çekmektedir. Video özetleme teknikleri, videodaki çekimlerin sınırlarını bulmak ve bu çekim için maksimum bilgiyi tutan her çekimdeki kareyi seçmek için iki ana basamağa dayanır. Bir video çekimi, videonun çekilmesi sırasında herhangi bir kesinti veya geçiş olmadan toplanan bir kare dizisidir. Ancak, bu görüntülerin sınırlarını tanımak, videolardaki çekimleri birleştirmek için kullanılan dijital video işleme tekniklerindeki hızlı gelişme nedeniyle zorlu bir süreçtir. Bu sınırlar tanındığında, çekimdeki bilgiyi temsil edecek bir kare seçilir. Ancak, çekimin sınırlarını bulmak için farklı tekniklerin kullanılması ve onları temsil edecek karelerin seçilmesi, farklı yöntemlerde farklı özetler üretmektedir. Bu nedenle, yöntemin ihtiyaç duyduğu uygulama için en uygun olanı seçmek için bu yöntemlerin performansını karşılaştırmak önemlidir. Ayrıca, video özetleme tekniklerinin performansını artırabilecek faktörleri tanımak, gelecekteki araştırmacılara önemli ölçüde geliştirilmiş performansla video özetleme yöntemleri önerme konusunda yardımcı olabilir. Bu çalışmada, son teknoloji ürünü yöntemler gözden geçirilmiş ve performansları değerlendirilmiş, böylece kapsamlı bir inceleme ve makul bir karşılaştırma sunulmuştur. Değerlendirme sonuçları, bir videonun kareleri üzerinden tek bir geçişin kullanılmasının, o videodaki çekimlerin sınırlarını bulmak için gereken hesaplamaların karmaşıklığını azalttığını göstermektedir. Böyle bir yaklaşımın, video kareleri üzerinden çoklu geçişler kullanan yöntemlerle karşılaştırıldığında yüksek kaliteli özetler sağladığı kanıtlanmıştır. Ayrıca, kümeleme tekniklerinin kullanımı da üretilen özetin kalitesinde önemli bir gelişme olduğunu göstermiştir. Dolayısıyla, bu yaklaşımları birleştiren yöntemler nispeten daha iyi performans göstermiştir.