English to Turkish machine translation using synchronous grammars

Yükleniyor...
Küçük Resim

Tarih

2022-06-14

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Işık Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 United States

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Machine translation (MT) has been one of the hot topics in NLP research over recent years. However, most of the related studies have been done for specific languages, and there are a limited number of comprehensive studies for languages with free word order, such as Turkish. English-Turkish is also one of the least frequently studied language pairs in translation due to the morphological and syntactic gaps between the two languages. This also makes it hard to build parallel corpora, which is crucial for the machine translation task. This thesis aims to be the first statistical syntax tree-based machine translation approach to the English-Turkish language pair, as well as a parallel corpus for translation tasks. We construct an English-Turkish parallel treebank of approximately 17K sentences by following a three-phased approach: manual transformation of English trees from Penn Treebank (PTB) by constraining the translated trees to the reordering of the children and gloss replacement; morphological analysis of the translated gloss; and morphological enrichment of the target tree. For translation consistency, we also developed a set of tools. We also apply the transformation schema to the closed-domain and build 8.3K sentences corpus. We employ both corpora on machine translation task. In our experiments, we obtained a 12.8 BLEU score in the open-domain and a 26.8 BLEU score in the closed-domain. We also evaluate both corpora intrinsically through perplexity analysis. The results show that our studies on making a corpus can be repeated, and studies on machine translation using the small corpus look promising.
Makine Çevirisi, son yıllarda Doğal Dil İşleme araştırma araştırmalarında en önde gelen araştırma alanlarından biri olmaktadır. Ancak, ilgili çalışmaların büyük bir bölümü belirli diller için yapılmış olup, Türkçe gibi serbest sözcük dizilişine sahip diller için sınırlı sayıda kapsamlı çalışma bulunmaktadır. İngilizce ve Türkçe, iki dil arasındaki biçimbilimsel ve sözdizimsel farklılıklar sebebi ile daha az çalışılan dil çiftlerinden biridir. Bu durum aynı zamanda makine çevirisi alanının en önemli bölümünü oluşturan paralel derlem çalışmalarını da zorlaştırmaktadır. Bu tez, İngilizce-Türkçe dil ikilisine yönelik ilk istatistiksel sözdizimi ağacı tabanlı makine çevirisi yaklaşımı olmayı amaçlamakta ve makine çevirisi uygulamaları için paralel derlem oluşturma çalışmalarını sunmaktadır. Üç aşamalı bir yaklaşım izleyerek 17000 cümle boyutunda bir İngilizce-Türkçe paralel derlem oluşturduk. İzlenen adımlar: çevrilmiş ağaçların alt ağaçlarının yeniden sıralanması ve kelime değişimi ile sınırlandırarak, İngilizce ağaçların Penn Treebank’tan (PTB) el ile dönüştürülmesi; çevrilmiş kelimelerin morfolojik analizi ve hedef ağacın morfolojik olarak zenginleştirilmesi olarak belirtilmiştir. Çeviri tutarlılığı amacı ile bir yazılım araçları seti de geliştirdik. Ağaç dönüşümü yaklaşımımızı teknik alana da uygulayarak kapalı-alan için 8300 cümleden oluşan başka bir derlem daha oluşturduk. Her iki derlemi de makine çevirisi çalışmalarında kullandık. Denemelerimizde, açık-alan için 12.8 BLEU puanı ve kapalı-alan için 26.8 BLEU puanı elde ettik. Ayrıca, karmaşıklık anazili aracılığı ile her iki derlemi de öz değerlendirmeye tabi tuttuk. Sonuçlar göstermektedir ki derlem oluşturma çalışmalarımız tekrarlanabilir olup, oluşturulan kısıtlı derlem ile yapılan makine çevirisi çalışmalarının umut verici olduğunu göstermektedir.

Açıklama

Text in English ; Abstract: English and Turkish
Includes bibliographical references (leaves 60-68)
xi, 69 leaves

Anahtar Kelimeler

Syntax tree, Tree-based translation, Synchronous grammars, Statistical machine translation, Sözdizim ağacı, Ağaç-temelli çeviri, Eşzamanlı dilbilgisi, İstatistiksel makine çevirisi

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Görgün, O. (2022). English to Turkish machine translation using synchronous grammars. İstanbul: Işık Üniversitesi Lisansüstü Eğitim Enstitüsü.