Vektör uzayında sıradüzensel ağaç yapısı ile düzenlenmiş metin veri tabanlarının çoklu yollar üzerinden sorgulanması
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Web sayfaları, makaleler, kitap veya dergi isimlerinden oluşan büyük doküman yığınları üzerinde sorgulama yaparken dokümanları vektörlere ve doküman topluluklarını matrislere indirgemek sorgulamaları çok daha hızlandırır ve kolaylaştırır. Kullanılan matris ve vektörlerin boyutlarının büyüklüğü sebebiyle sorgulamalarda ortaya çıkan yüksek hesap karmaşıklığından kaçınılması için literatürde tekil değer ayrışımı ve ana bileşen analizi gibi boyut indirgeme yöntemleri önerilmiştir. Boyut indirgemeyle beraber hesap karmaşıklığını indirgeme için [12]’ de veritabanını sıradüzensel ağaç yapısı ile düzenleme ve bu yapı üzerinden tekli ve çoklu yollar kullanarak sorgulama önerilmiştir. Bu bildiride statik ve uyarlanabilir çoklu yolla sorgulama yöntemlerinin hesap karmaşıklığı başarım ödünleşimleri incelenmekte ve karşılaştırılmaktadır.
Representation of large document databases consisting of web pages, articles, book and magazine titles in terms of matrices for the purpose of text querying and retrieval simplifies and expedites the querying process. In the literature, dimensionality reduction techniques based on singular value decomposition and principal component analysis have been proposed to reduce the high computational complexity resulting from the use of high dimensional matrices and vectors. In [12], organization of the text database in the form of a hierarchical tree structure, and single path and multi path querying over this structure, was proposed as a technique to reduce the computational complexity in addition to dimensionality reduction. In this paper, we analyze and compare the tradeoff between the computational complexity and the performance of the static and adaptive multipath querying methods by varying the number of paths.