Sarcasm detection in text using deep neural networks
Yükleniyor...
Tarih
2024-02-25
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Işık Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 United States
Attribution-NonCommercial-NoDerivs 3.0 United States
Özet
Sarcasm is a form of irony which is generally used in expressing negative opinions. Sarcasm poses a linguistic challenge due to its figurative nature where intended meaning contradicts with literal interpretation. Sarcasm is widely used in our Daily lives and also upon many social platforms. Detecting sarcasm in written text is a challenging process that has captured the interest of many researchers. Hence, sarcasm has become a crucial task in the Natural Language Processing (NLP) field. This thesis study explores the concept of sarcasm, and its importance on existing sarcasm research. The automatic process of sarcasm detection involves dataset selection, preprocessing steps, and selecting proper approaches, including rule-based methods, Machine Learning (ML), Deep Learning (DL) and Transformer architectures. This study surveys previous research on sarcasm detection, specifically examining the dataset, methodology and performance. This thesis study attempts to automatically detect sarcasm by utilizing various ML, DL and transformer and hybrid neural network architectures on news headlines datasets. To overcome the dataset and performance limitations on existing approaches, we propose various methodologies to detect sarcastic text mostly focusing on DL, hybrid neural networks and transformer architectures. We combine appropriate architectures with several hand-crafted features and utilizing different word embedding models. To further extend the performance of our proposed methods and also enhance the existing news headlines dataset, we proposed several modifications. We contribute to the existing dataset by applying augmentation to increase the dataset size to help enhance the performance of the proposed models with overcoming dataset limitations. Our methodologies correctly identify sarcasm with 97.68% F1 score.
Alaycılık, genellikle olumsuz görüşlerin ifade edilmesinde kullanılan bir ironi biçimidir. Alaycılık, amaçlanan anlamın gerçek yorumla çeliştiği mecazi doğası nedeniyle dilsel bir zorluk teşkil etmektedir. Alaycılık günlük yaşamımızda ve birçok sosyal platformda yaygın olarak kullanılmaktadır. Yazılı metinlerde alaycılığın tespit edilmesi birçok araştırmacının ilgisini çeken zorlu bir süreçtir. Dolayısıyla alaycılık, Doğal Dil İşleme (NLP) alanında çok önemli bir görev haline geldi. Bu tez çalışması alaycılık kavramını ve bu kavramın mevcut alaycılık araştırmaları üzerindeki önemini incelemektedir. Otomatik alaycılık algılama süreci, veri kümesi seçimini, ön işleme adımlarını ve kural tabanlı yöntemler, Makine Öğrenimi (ML), Derin Öğrenme (DL) ve Transformer mimarileri dahil olmak üzere uygun yaklaşımların seçilmesini içerir. Bu çalışma, özellikle veri kümesini, metodolojiyi ve performansı inceleyerek alaycılığın tespitine ilişkin önceki araştırmaları incelemektedir. Bu tez çalışması, haber başlıkları veri seti üzerinde çeşitli ML, DL ve transformatör ve hibrit sinir ağı mimarilerini kullanarak alaycılığı otomatik olarak tespit etmeye çalışmaktadır. Mevcut yaklaşımlardaki veri kümesi ve performans sınırlamalarının üstesinden gelmek için, çoğunlukla DL, hibrit sinir ağları ve transformatör mimarilerine odaklanan alaycı metinleri tespit etmek için çeşitli yöntemler öneriyoruz. Uygun mimarileri, farklı kelime temsil modellerini kullanarak çeşitli el yapımı özelliklerle birleştiriyoruz. Önerilen yöntemlerimizin performansını daha da genişletmek ve mevcut haber başlıkları veri setini geliştirmek için çeşitli değişiklikler önerdik. Önerilen modellerin performansının veri kümesi sınırlamalarının üstesinden gelmesine yardımcı olmak amacıyla veri kümesi boyutunu artırmak için büyütme uygulayarak mevcut veri kümesine katkıda bulunuyoruz. Metodolojilerimiz alaycılığı %97,68 F1 puanıyla doğru bir şekilde tespit edebiliyor.
Alaycılık, genellikle olumsuz görüşlerin ifade edilmesinde kullanılan bir ironi biçimidir. Alaycılık, amaçlanan anlamın gerçek yorumla çeliştiği mecazi doğası nedeniyle dilsel bir zorluk teşkil etmektedir. Alaycılık günlük yaşamımızda ve birçok sosyal platformda yaygın olarak kullanılmaktadır. Yazılı metinlerde alaycılığın tespit edilmesi birçok araştırmacının ilgisini çeken zorlu bir süreçtir. Dolayısıyla alaycılık, Doğal Dil İşleme (NLP) alanında çok önemli bir görev haline geldi. Bu tez çalışması alaycılık kavramını ve bu kavramın mevcut alaycılık araştırmaları üzerindeki önemini incelemektedir. Otomatik alaycılık algılama süreci, veri kümesi seçimini, ön işleme adımlarını ve kural tabanlı yöntemler, Makine Öğrenimi (ML), Derin Öğrenme (DL) ve Transformer mimarileri dahil olmak üzere uygun yaklaşımların seçilmesini içerir. Bu çalışma, özellikle veri kümesini, metodolojiyi ve performansı inceleyerek alaycılığın tespitine ilişkin önceki araştırmaları incelemektedir. Bu tez çalışması, haber başlıkları veri seti üzerinde çeşitli ML, DL ve transformatör ve hibrit sinir ağı mimarilerini kullanarak alaycılığı otomatik olarak tespit etmeye çalışmaktadır. Mevcut yaklaşımlardaki veri kümesi ve performans sınırlamalarının üstesinden gelmek için, çoğunlukla DL, hibrit sinir ağları ve transformatör mimarilerine odaklanan alaycı metinleri tespit etmek için çeşitli yöntemler öneriyoruz. Uygun mimarileri, farklı kelime temsil modellerini kullanarak çeşitli el yapımı özelliklerle birleştiriyoruz. Önerilen yöntemlerimizin performansını daha da genişletmek ve mevcut haber başlıkları veri setini geliştirmek için çeşitli değişiklikler önerdik. Önerilen modellerin performansının veri kümesi sınırlamalarının üstesinden gelmesine yardımcı olmak amacıyla veri kümesi boyutunu artırmak için büyütme uygulayarak mevcut veri kümesine katkıda bulunuyoruz. Metodolojilerimiz alaycılığı %97,68 F1 puanıyla doğru bir şekilde tespit edebiliyor.
Açıklama
Text in English ; Abstract: English and Turkish
Includes bibliographical references (leaves 54-56)
ix, 57 leaves
Includes bibliographical references (leaves 54-56)
ix, 57 leaves
Anahtar Kelimeler
Sarcasm, News headlines, Sarcasm classification, Transformers, Text augmentation, Alaycılık, Haber manşetleri, Alaycılık sınıflandırması, Metin arttırma
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Gümüşçekiçci, G. (2024). Sarcasm detection in text using deep neural networks. İstanbul: Işık Üniversitesi Lisansüstü Eğitim Enstitüsü.