Türkmed: Türkçe metinlerin konusal / duygusal sınıflandırması ve kelimelerin anlam bulanıklığını gidermek için difüzyon ve Seq2seq-füzyon algoritmalarını içeren özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi

dc.authorid0000-0002-7097-6143
dc.contributor.otherAltınel Girgin, Ayşe Bernaen_US
dc.contributor.otherŞipal Sert, Bilgeen_US
dc.contributor.otherKaradeniz, Zeynep İlknuren_US
dc.contributor.otherGümüşçekiçci, Gizemen_US
dc.contributor.otherÖztürk, Mehmeten_US
dc.contributor.otherBuzlu, Kübraen_US
dc.contributor.otherElma, Erenen_US
dc.contributor.otherÇelikmasat, Gökberken_US
dc.contributor.otherMercan, Berraen_US
dc.contributor.otherAktürk, Muhammed Enesen_US
dc.contributor.otherÖnkol, Ahmeten_US
dc.contributor.otherOrmancı, Batıkan Boraen_US
dc.contributor.otherİpek, Kaanen_US
dc.contributor.otherErtunç, Yunus Emreen_US
dc.contributor.otherBirdemir, Nuri Canen_US
dc.date.accessioned2024-04-16T14:50:03Z
dc.date.available2024-04-16T14:50:03Z
dc.date.issued2023-02-15
dc.departmentIşık Üniversitesi, Mühendislik ve Doğa Bilimleri Fakültesi, Bilgisayar Mühendisliği Bölümüen_US
dc.departmentIşık University, Faculty of Engineering and Natural Sciences, Department of Computer Engineeringen_US
dc.description.abstractBu proje teklifinde sunulan projemiz 3 ana hedeften oluşmaktadır. Bunlar: 1. Türkçe eş sesli kelimelerin bulundukları bağlamdaki doğru anlamlarının tespit edilmesi, 2. Türkçe uzun ve kısa metinlerin konu ve duygu bazlı sınıflandırması, 3. Türkçe metinlerin konu ve duygu siniflandirmasinı yapan kamuya açik ve ulaşilabilir bir servisin oluşturulmasi. Bu hedeflere ulaşmak için geliştirilecek olan projemiz aşağıdaki katkıları sağlayacaktır: 1. Anlam bulanıklığını (Word Sense Disambiguation) gidermek için Difüzyon Algoritması tabanlı özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi. 2. Türkçe metinlerin konu bazlı ve duygu bazlı olarak sınıflandırılması için özgün eğiticili ve yarı-eğiticili makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi. Bu proje teklifinde sunulan eğiticili ve yarı-eğiticili Difüzyon Algoritması ve bi-LSTM Algoritması içerikli makine öğrenmesi ve derin öğrenme algoritmaları Türkçe metinlerin duygu sınıflandırması için gözlemlediğimiz kadarıyla daha önce hiç kullanılmamıştır. 3. Türkçe eş sesli kelimelerin anlam bulanıklığını gidermeye yönelik olarak Fan ve ekibi tarafından (2018) birçok doğal dil modelleme teknikleri birleştirilerek ortaya çıkarılmış literatürdeki en başarılı Seq2Seq modellerinden birisi olarak gösterilen Self Attention (?Fusion of Seq2Seq+Self Attention?) algoritması kullanılması. Bu algoritma Türkçe metinler için gözlemlediğimiz kadarıyla daha önce hiç kullanılmamıştır. 4. İngilizce sözlüklerden çeviri yapılmadan, Türkçe sözlük kaynaklarının sözlük-tabanlı özellikler geliştirilerek mevcut kapsamının genişletilmesi ve bu konuda çalışan araştırmacıların erişimine açık hale getirilmesi. 5. Türkçe Metinlerin Duygu Sınıflandırması için makine öğrenmesi ve sözlük temelli yaklaşımların birleşimiyle oluşan hibrit bir yöntemin sunulması. 6. Türkçe için özelleştirilmiş ön işleme çalışmasının yapılması:Kelimelerin köke indirgeme işlemleri yapılırken ?-me/ma, sız/siz? gibi eklerin korunması gerekir, çünkü bunlar kelimelerin duygu polarite değerlerini etkilemektedir. 7. Bu proje teklifinde önerilen çalışma kapsamında Türkçe için büyük miktarda duygu ve konu bazlı veri kümelerinin oluşturulması, ayrıca ilgili kıyaslama ve doğrulama yöntemlerinin de yine sunulacak sistem içerisinde kamuya açık hale getirilmesi. 8. Türkçe metinlerin duygu sınıflandırması çalışmalarında duyarlılık analizinin (-5 ve +5 arasında) yapılması ve metnin tüm özelliklerinin (emojiler vb.) dikkate alınması. Yukarıda listelenen bilimsel ve teknolojik katkıların, çeşitli sosyo-ekonomik etkileri de olacaktır. Örneğin Türkiye?de 2018 yılında günlük ortalama 7 milyon tweet atılmaktadır. Bu bağlamda metinlerin konu ve duygu bazlı olarak doğru ve hızlı sınıflandırılması pazarlama, reklam,ekonomi gibi alanlarda ve politik ve askeri bazı senaryolarda da kritik kararlar verirken yüksek bir öneme sahiptir. Sunulan proje 30 ayda, Matematik konularında uzman bir kişiden alınacak eğitim ile, 1 yüksek-lisans bursiyeri ve 4 lisans bursiyerinin katkılarıyla disiplinlerarası bir çalışma olarak yürütülecektir. Proje yürütücüsü 3501 kodlu bu proje önerisi ile büyük bir projede proje yürütücülüğü deneyimi kazanıp ve sonrasında Avrupa Birliği projeleri yazmayı ve doçentlik başvurusunu yapmayı planlamaktadır.Projede geliştirilecek yöntemler bursiyerlerin tezlerine katkı sağlayacaktır. Geliştirilecek olan sistem diğer araştırmacıların erişimine açılacağı için Türkçe dilinin tanıtılması, yaygınlaşması ve Türk ve yabancı araştırmacılar tarafından daha çok kullanılmasını teşvik edecektir. Ayrıca ulusal şirketlerle işbirliği yapılarak geliştirilecek yöntem ve tecrübelerin aktarılması ve bu konuda ulusal ekonomiye katkı sağlanması da amaçlanmaktadır.en_US
dc.description.abstractThe project presented in this project proposal consists of 3 main objectives. These: 1. Word Sense Disambiguation of Turkish words, 2. Subjective and Sentiment Classification of Turkish short and long texts, 3. Creation of a publicly available service that performs the subject and sentiment classification of Turkish texts. Our project, which will be developed to reach these goals, will make the following contributions: 1. Development of Diffusion-based novel machine learning and deep learning methods for Word Sense Disambuguation. 2. Development of novel supervised and semi-supervised machine learning and deep learning methods for sentiment classification of Turkish texts. To the best of our knowledge, supervised and semi-supervised diffusion algorithm and bi-LSTM algorithm based machine learning and deep learning algorithms which are proposed in this project proposal have never been used for the sentiment classification of Turkish texts. 3. Using the Self Attention (?Fusion of Seq2Seq + Self Attention?) algorithm, which is shown by Fan and his team (2018) as one of the most successful Seq2Seq models in the literature, by combining many natural language modeling techniques to resolve the ambiguity of Turkish polysemous words. This algorithm has never been used in the literature as far as we can observe for Turkish texts. 4. Extending the available scope of Turkish dictionary resources by developing dictionary-based features without making translations from English dictionaries and making these extended resources accessible to researchers working on this topic. 5. To present a hybrid method which is formed by the combination of machine learning and dictionary based approaches for sentiment classification of Turkish texts. 6. Conducting customized preprocessing for Turkish: Attachments such as ?-me/ma, sız/siz? should be preserved while stemming, because these affect the emotional polarity values of the words. 7. Within the scope of the study proposed in this project proposal, it is planned to create a large amount of sentimental and subjective data sets for Turkish, and to make the corresponding comparison and verification methods publicly available within the system to be presented. 8. Conducting sensitivity analysis (between -5 and +5) in the sentiment classification studies of Turkish texts and taking all the features of the text (emojis etc.) into account. The scientific and technological contributions listed above will also have various socio-economic impacts. For example, in Turkey, in 2018, 7 million tweets per day was sent In this context, accurate and fast subjective and sentiment classification of texts is of great importance when making critical decisions in areas such as marketing, advertising, economics and in some political and military scenarios. The presented project will be carried out in 30 months as a multidisiplineary study with the contribution of 1 training, 1 graduate scholarship and 4 undergraduate students. With this 3501 Carrier Project Proposal, the project manager plans to gain project management experience in a larger project and then write European Union projects and apply for associate professorship.The methods to be developed in the project will contribute to the thesis of scholars, and the experience of the researchers. Since the system to be developed will be accessible to other researchers, it will encourage the introduction of Turkish language, its widespread use, and its use by Turkish and foreign researchers at home and abroad. It is also aimed to transfer methods and experiences to be developed in cooperation with national companies and to contribute to the national economy in this regard.en_US
dc.description.sponsorshipTÜBİTAKen_US
dc.format.extent101 leavesen_US
dc.identifier.citationAltınel Girgin, A. B., Şipal Sert, B., Karadeniz, Z. İ., Gümüşçekiçci, G., Öztürk, M., Buzlu, K., Elma, E., Çelikmasat, G., Mercan, B., Aktürk, M. E., Önkol, A., Ormancı, B. B., İpek, K., Ertunç, Y. E. & Birdemir, N. C. (2023). Türkmed: Türkçe metinlerin konusal / duygusal sınıflandırması ve kelimelerin anlam bulanıklığını gidermek için difüzyon ve Seq2seq-füzyon algoritmalarını içeren özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesi. Tübitak.en_US
dc.identifier.urihttps://hdl.handle.net/11729/5979
dc.identifier.urihttps://search.trdizin.gov.tr/tr/yayin/detay/1223101
dc.indekslendigikaynakTR-Dizinen_US
dc.institutionauthorKaradeniz, Zeynep İlknuren_US
dc.institutionauthorid0000-0002-7097-6143
dc.language.isotren_US
dc.publisherTübitaken_US
dc.relation.publicationcategoryDiğeren_US
dc.relation.tubitak"info:eu-repo/grantAgreement/TUBITAK/EEEAG/120E187"
dc.rightsinfo:eu-repo/semantics/closedAccessen_US
dc.subjectMetinsel Veri Madenciliğien_US
dc.subjectKelime Anlamı Belirginleştirmeen_US
dc.subjectDuygu Sınıflandırmasıen_US
dc.subjectMakine Öğrenmesien_US
dc.titleTürkmed: Türkçe metinlerin konusal / duygusal sınıflandırması ve kelimelerin anlam bulanıklığını gidermek için difüzyon ve Seq2seq-füzyon algoritmalarını içeren özgün makine öğrenmesi ve derin öğrenme yöntemlerinin geliştirilmesien_US
dc.title.alternativeTurKSA: Development of novel machine learning and deep learning methods including diffusion and Seq2Seq-fusion algorithms for subjective and sentiment classification of Turkish texts and WSDen_US
dc.typeProjecten_US
dspace.entity.typeProject

Dosyalar

Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.44 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: