Türkçe metin tabanlı açık arşivlerde kullanılan dizinleme yönteminin değerlendirilmesi / Evaluation of indexing method used in Turkish text-based open archives

Çapkın, Çağdaş Türkçe metin tabanlı açık arşivlerde kullanılan dizinleme yönteminin değerlendirilmesi / Evaluation of indexing method used in Turkish text-based open archives., 2011 Master thesis thesis, Hacettepe University (Turkey). [Thesis]

[thumbnail of Cagdas_CAPKIN_Yuksek_Lisans_tezi.pdf] Text
Cagdas_CAPKIN_Yuksek_Lisans_tezi.pdf - Accepted version

Download (4MB)

English abstract

The purpose of this research is to evaluate performance of information retrieval systems designed for open archives, and standards/protocols enabling retrieving and organizing information in open archives. In this regard, an open archive was developed with 2215 text-based documents from "Turkish Librarianship" journal and three different information retrieval systems based on Boolean and Vector Space models were designed in order to evaluate information retrieval performances in the open archive developed. The designed information retrieval systems are: "metadata information retrieval system" (ÜBES) involving indexing with metadata created based only on human, "full-text information retrieval system" (TBES) involving (automatic) indexing based on only machine, and "mixed information retrieval system" (KBES) involving indexing based both on human and machine. Descriptive research method is used to describe the current situation and findings are evaluated based on literature. In order to evaluate performances of information retrieval systems, "precision and recall" and "normalized recall" measurements are made. The following results are found at the end of the research: It is determined that the precision performance of KBES information retrieval system designed for open archives creates statistically significant difference in comparison to ÜBES and TBES. In each information retrieval system, a strong negative correlation is identified between recall and precision, where precision decreases as recall increases. It is determined that the "normalized recall" performance of ÜBES and KBES create statistically significant difference in comparison to TBES. In "normalized recall" performance, no statistically significant difference is identified between ÜBES and KBES. ÜBES is the information retrieval system through which minimum number of relevant and nonrelevant documents; TBES, through which maximum number of nonrelevant and second most relevant documents, and KBES, through which maximum number of relevant and second most nonrelevant documents are retrieved. It is concluded that using OAI-PMH and OAI-ORE protocols together rather than using only OAI-PMH protocol fits the purpose of open archives.

Turkish abstract

Bu araştırmanın amacı; açık arşivler için tasarlanabilecek bilgi erişim sistemlerinin performanslarının ve açık arşivlerde bilginin organizasyonu ve erişimini sağlayan standartların/protokollerin değerlendirilmesidir. Bu amaçla, "Türk Kütüphaneciliği" dergisinde yer alan 2215 adet metin tabanlı doküman ile bir açık arşiv oluşturulmuş, oluşturulan açık arşivde bilgi erişim performanslarını değerlendirmek üzere Boole ve Vektör Uzayı modellerine dayalı üç farklı bilgi erişim sistemi tasarlanmıştır. Tasarlanan bilgi erişim sistemleri; sadece insana dayalı üretilmiş üstveri ile dizinlemenin yapıldığı "üstveri bilgi erişim sistemi" (ÜBES), sadece makineye dayalı (otomatik) dizinlemenin yapıldığı "tam-metin bilgi erişim sistemi" (TBES) ve hem insana hem de makineye dayalı dizinlemenin yapıldığı "karma bilgi erişim sistemi"dir (KBES). Araştırmada betimleme yöntemi kullanılarak var olan durum betimlenmiş ve elde edilen bulgular literatüre dayalı olarak değerlendirmiştir. Araştırmada, bilgi erişim sistemlerinin performanslarını değerlendirmek amacıyla "anma-duyarlılık" ve "normalize sıralama" ölçümleri yapılmıştır. Araştırmada aşağıdaki sonuçlara ulaşılmıştır. Açık arşivler için tasarlanan bilgi erişim sistemlerinden KBES'in sergilediği duyarlılık performansının ÜBES'e ve TBES'e göre istatistiksel açıdan anlamlı bir fark yarattığı saptanmıştır. Ayrıca, her bir bilgi erişim sisteminde anma ve duyarlılık arasında güçlü bir negatif ilişki saptanmış, anma arttıkça duyarlılık düşmüştür. ÜBES'in ve KBES'in sergiledikleri normalize sıralama performansının TBES'e göre istatistiksel açıdan anlamlı bir fark yarattığı saptanmıştır. Normalize sıralama performansında ÜBES ile KBES arasında ise istatistiksel açıdan anlamlı bir fark saptanmamıştır. ÜBES, hem en az ilgili hem de en az ilgisiz dokümana erişilen; TBES, en fazla ilgisiz ve ikinci sırada en fazla ilgili dokümana erişilen; KBES ise, en fazla ilgili ve ikinci sırada ilgisiz dokümana erişilen bilgi erişim sistemi olmuştur. Açık arşivlerde OAI-PMH ile OAI-ORE protokollerinin birlikte kullanımının sadece OAI-PMH protokolü kullanımına göre açık arşivlerin amacına daha uygun olduğu sonucuna varılmıştır.

Item type: Thesis (UNSPECIFIED)
Keywords: Açık erişim, açık arşivler, üstveri, bilgi erişim, otomatik dizinleme, Apache Lucene, Open access, open archives, metadata, information retrieval, automatic indexing, Apache Lucene
Subjects: H. Information sources, supports, channels. > HP. e-resources.
H. Information sources, supports, channels. > HS. Repositories.
L. Information technology and library technology > LL. Automated language processing.
L. Information technology and library technology > LM. Automatic text retrieval.
L. Information technology and library technology > LS. Search engines.
Depositing user: Dr. Çağdaş ÇAPKIN
Date deposited: 10 Feb 2016 09:42
Last modified: 10 Feb 2016 09:42
URI: http://hdl.handle.net/10760/28804


