Türkçe Arama Motorlarında Performans Değerlendirme

Tonta, Yaşar and Bitirim, Yıltan and Sever, Hayri . Türkçe Arama Motorlarında Performans Değerlendirme., 2002 Total Bilişim. [Book]

[img]
Preview
PDF
tonta-bitirim-sever-arama-motorlari.pdf

Download (3585Kb) | Preview

English abstract

Evaluation of Information Retrieval Performance of Turkish Search Engines This is an investigation on the information retrieval performances of search engines based on various measures. We searched 17 queries of differing types on four Turkish search engines, namely Arabul, Arama, Netbul and Superonline. We classified each document/Web site contained in the retrieval results as being “relevant” or “non-relevant”. Based on this classification, we calculated the precision and normalized ranking ratios in various cut-off points for each query run on each search engine. We checked the “dead” or “broken” links among the retrieval results to determine how often the crawlers of search engines visit the sites they index and how often they update their indexes, if needed. We found out the coverage and novelty ratios of each search engine by searching five keywords that have been the most frequently submitted queries to the Turkish search engines. Those keywords are “mp3”, “oyun” (game), “sex”, “erotik” (erotica) and “porno” (porn). By means of two modest experiments, we tested to see if Turkish search engines make use of index terms that are assigned by the authors of Web pages and included under the “keywords” and “description” meta tags of HTML documents. Using Kruskal-Wallis and Mann-Whitney statistics, we tested if up-to-dateness, precision, normalized ranking, coverage and novelty ratios of each search engine differ significantly from each other. Major findings of our research are as follows: On the average, one in six documents retrieved by search engines was not available due to dead or broken links. Netbul retrieved fewer documents with dead or broken links than other search engines did. Some search engines retrieved no documents (so called “zero retrievals”) or no relevant documents for some queries. On the average, five in six documents retrieved were not relevant. Average precision ratios of search engines ranged between 11% (Netbul) and 28% (Arama)(Superonline being 20% and Arabul 15%). Arama retrieved more relevant documents than that of Arabul and Netbul in the first five documents retrieved. Search engines do not seem to make every efforts to retrieve and display the relevant documents in higher ranks of retrieval results. Average normalized ranking ratios of search engines ranged between 20% (Arabul) and 54% (Arama) (Superonline being 37% and Netbul 30%). Arama retrieved the relevant documents in higher ranks than that of Arabul and Netbul. The strong positive correlation between the precision and normalized ranking ratios got weakened as the number of documents that we evaluated increased. Search engines were less successful in finding relevant documents for specific queries or queries that contained broad terms. Although nonrelevant documents were higher in number, search engines were more successful in singleterm queries or queries with Boolean “OR” operator. The success rate was lower for queries with Boolean “AND” operator. Search engines seemingly do not use stemming algorithms to better analyze queries and to increase retrieval performance. The use of Turkish characters such as “ç”, “ö”, and “ş” in queries still creates problems for Turkish search engines as retrieval results differed for such queries. Superonline’s coverage rate was much higher than that of other search engines for the most frequently searched queries on the Turkish search engines. Except Arama, search engines index fewer documents/sites with domain names ending with “.tr”. Arama is the indisputable leader in covering documents with Turkish addresses. Almost all search engines scored high in novelty ratios for the most frequently searched queries. Different search engines tend to retrieve different relevant documents for the same queries. For retrieval purposes, Netbul and Superonline seem to index and make use of metadata fields that are contained in HTML documents under “keywords” and “description” meta tags. The research report concludes with some recommendations to improve the information retrieval performances of Turkish search engines.

Turkish abstract

Bu çalışmada Türkçe arama motorlarının bilgi erişim performansları çeşitli ölçütlere göre değerlendirilmiştir. Ülkemizde yaygın olarak kullanılan Arabul, Arama, Netbul ve Superonline arama motorları üzerinde çeşitli türde 17 farklı soru için arama yapılmış ve bu sorulara karşılık erişilen “ilgili” ve “ilgisiz” belgelere dayanarak söz konusu dört arama motorunun çeşitli kesme noktalarındaki duyarlık ve normalize sıralama değerleri hesaplanmıştır. Arama motorlarının dizinlenen belgeleri ne kadar sıklıkla ziyaret ettikleri ve güncelleştirdikleri erişim çıktılarında yer alan “ölü” (yani erişilemeyen) adreslerin sayısına bakılarak saptanmıştır. Türkçe arama motorlarında en sık aranan beş sözcük ("mp3", "oyun", "sex", "erotik" ve "porno") dört arama motorunda aranmış ve her arama motorunun kapsama ve yenilik oranları bulunmuştur. Arabul, Arama, Netbul ve Superonline'ın belgeleri dizinlemek amacıyla "anahtar sözcük", "tanım" gibi HTML üst veri (metadata) alanlarından yararlanıp yararlanmadıkları iki küçük deneyle sınanmıştır. Kruskal-Wallis ve Mann-Whitney istatistikleri kullanılarak arama motorlarının güncellik, uyarlık, normalize sıralama, kapsama ve yenilik oranlarının birbirinden farklı olup olmadığı test edilmiştir. Araştırmadan elde edilen belli başlı bulgular şunlardır: Arabul, Arama, Netbul ve Superonline’ın eriştiği ortalama her altı belgeden birisi ölü bağlantı içermektedir. Netbul’un ölü bağlantı oranı diğer arama motorlarından daha düşüktür. Arama motorları bazı sorular için hiç bir belgeye ya da hiç bir ilgili belgeye erişememiştir. Erişilen ortalama her altı belgeden beşi ilgisizdir. Arama motorlarının ortalama duyarlık oranları %11 (Netbul) ile %28 (Arama) arasında değişmektedir (Superonline %20, Arabul %15). Arama, ilk 5 belgede Arabul ve Netbul’dan daha fazla sayıda ilgili belgeye erişmiştir. Arama motorları erişilen ilgili belgeleri erişim çıktılarının ilk sıralarında gösterme konusunda yeterince çaba sarfetmemektedirler. Arama motorlarının ortalama normalize sıralama değerleri %20 (Arabul) ile %54 (Arama) arasında değişmektedir (Superonline %37, Netbul %30). Arama, erişim çıktılarında ilgili belgeleri Arabul’dan ve Netbul’dan daha üst sıralarda göstermektedir. Duyarlık ile normalize sıralama değerleri arasında gözlenen güçlü pozitif ilişki, değerlendirilen belge sayısı arttıkça giderek zayıflamaktadır. Arama motorları, Web’de yaygın olarak kullanılan terimlerin geçtiği spesifik arama sorularında nispeten daha az başarı göstermişlerdir. Tek sözcükten oluşan ya da “VEYA” işleci kullanılan sorularda, erişilen ilgisiz belge sayısı yüksek olmasına rağmen, arama motorları nispeten daha başarılı olmuştur. “VE” işlecinin kullanıldığı sorularda ise başarı oranı daha düşüktür. Arama motorları soruları daha iyi analiz etmek ve performansı artırmak için gövdeleme algoritmalarından yararlanmamaktadırlar. Türkçe arama motorlarında Türkçe karakter sorunu henüz çözülememiştir. Arama motorları Türkçe karakterler kullanılarak yapılan aramalarda farklı sonuçlar vermektedir. En sık aranan “mp3”, “oyun”, “sex”, “erotik” ve “porno” soruları için Superonline’ın kapsama oranları daha yüksektir. Arama dışında diğer Türkçe arama motorlarının Türkiye adresli belgeleri/siteleri pek dizinlemedikleri ortaya çıkmıştır. Türkiye adresli belgeleri kapsamada Arama tartışmasız bir üstünlüğe sahiptir. En sık aranan sorularda hemen hemen tüm arama motorlarının yenilik oranları yüksektir. Aynı sorulara karşılık farklı arama motorları farklı ilgili belgelere erişmektedirler. HTML belgelerinde yer alan “anahtar sözcük” ve “tanım” üst veri (metadata) alanlarında geçen terimlerin bazı arama motorları (Netbul ve Superonline) tarafından dizinlendiği ve erişim amacıyla bu terimlerden yararlanılmadığı ortaya çıkmıştır. Çalışmanın sonunda Türkçe arama motorlarının bilgi erişim performanslarını geliştirmek için bazı önerilere yer verilmektedir.

Item type: Book
Keywords: Türkçe arama motorları, performans değerlendirme; information retrieval effectiveness, Turkish search engines
Subjects: L. Information technology and library technology. > LS. Search engines.
Depositing user: yaşar tonta
Date deposited: 09 May 2007
Last modified: 14 Dec 2012 19:58
URI: http://hdl.handle.net/10760/9476

Actions (login required)

View Item View Item