Kučerová, Helena Odborná terminologie knihovnictví a informační vědy očima uživatelů databáze TDKIV: Předběžné výsledky projektu., 2012 . In IKI - Informace, konkurenceschopnost, inovace, Prague (Czech Republic), 17 January 2012. [Conference paper]
Preview |
Text (Conference Paper)
DataMiningTDKIV.pdf Download (786kB) | Preview |
English abstract
The presentation accompanying the talk on the IKI 2012 conference. The talk presented the preliminary outputs of a research project conducted on Higher Professional School of Information Services (VOŠIS) in Prague during the winter school term in 2011/2012. The research goal was to use methods of quantitative analysis in order to discover new knowledge and issues, hidden within the stored user data (i. e. search logs) about retrieval in Czech Explanatory Terminological Database of Library and Information Science (TDKIV).
Czech abstract
Prezentace k přednášce na konferenci IKI 2012. Přednáška představila předběžné výsledky projektu realizovaného na Vyšší odborné škole informačních služeb (VOŠIS) Praha v zimním semestru 2011/2012. Cílem projektu bylo využít metody kvantitativní analýzy k objevení nových poznatků a námětů, skrytých v uchovávaných uživatelských datech o vyhledávání v České terminologické databázi knihovnictví a informační vědy (TDKIV). -- Teoretická východiska výzkumu představují následující teze: Každý národní jazyk tvoří jednak vrstva psaná a hovorová pro běžnou denní komunikaci, jednak vrstvy jazyků speciálních, jejichž nejvýznamnějšími zástupci jsou oborové terminologie. V době všeobecné nadvlády angličtiny, jež funguje jako lingua franca současné odborné komunikace, je existence terminologie v národním jazyce mimořádně důležitá. Nebude-li národní jazyk disponovat vlastní odbornou terminologií, přestane plnit svou komunikační funkci a zanikne. Termíny tvoří obsahovou páteř či kostru jakéhokoli oboru. Mění-li se obor, musí se měnit i jeho terminologie. A protože knihovnictví a informační věda jsou obory, které v současnosti procházejí dramatickými změnami, očekává se to samé od jejich terminologie. Redakční rada TDKIV se rozhodla nespoléhat při aktualizaci obsahu databáze pouze na experty v oboru a v souladu s trendy Webu 2.0 se snaží zapojit do tvorby obsahu databáze i její uživatele. Nabídka na stránkách TDKIV – formulář pro návrh nového hesla, případně pro návrh úprav v záznamu termínu, však nemá mezi uživateli TDKIV příliš velký ohlas. Cílem výzkumného projektu proto bylo využít k aktualizaci databáze „vedlejší produkt“ z vyhledávání – uživatelské logy, jejichž analýza byla založena na hypotéze, že to, co uživatelé hledají, chtějí mít obsažené v TDKIV. -- Metodika výzkumu spočívala v tzv. korpusové terminografii, tj. v tvorbě termínů založené na využití korpusu textů. Ve funkci korpusu byly použity logy z vyhledávání v bázi TDKIV v systému Aleph za období březen 2010 – srpen 2011 (cca 80 000 záznamů). Data byla vložena do databáze MS SQL a zpracována pomocí dotazů v jazyce SQL. Výzkumné otázky se zaměřily na tyto jevy: četnost hledaných a nalezených / nenalezených výrazů; četnost způsobů vyhledávání; čas vyhledávání; rozdělení IP adres; příčiny neúspěšných dotazů; společně hledané termíny. -- Přehled znalostí získaných z databáze uživatelských vyhledávacích logů a interpretace předběžných výsledků: 1) Vyhledávání podle měsíců (snímek 15) – vazby na pracovní cyklus (doba dovolených) a studijní cykly. Nejméně se vyhledává v letních měsících, nejvíce v září a v říjnu. 2) Vyhledávání podle dní (snímek 16) – poměrně překvapivé jsou vysoké počty vyhledávání v neděli. Komentář ke grafu – ukázka čištění dat: byly odstraněny tzv. duplicity, tj. vícenásobná vyhledávání stejných výrazů z jedné IP adresy a ve stejném čase. 3) Čas vyhledávání (snímek 17) – klesající úspěšnost vyhledávání se stoupající noční hodinou. 4) Rozdělení uživatelů (snímek 18) – potvrdilo se Paretovo rozdělení (20 % příčin, tj. IP adres, působí 80 % následků, tj. vyhledávání). Ukazuje na reálnou možnost navázání těsnější spolupráce s (nečetnými) klíčovými uživateli TDKIV. 5) Nejvyhledávanější výrazy (snímek 19) – ukázka nutnosti čištění dat: zatím nebyla sjednocena data za různé způsoby vyhledávání. 6) Úspěšnost vyhledávání (snímek 20) – vysoký podíl (cca 60 %) neúspěšných dotazů. 7) Nenalezené výrazy (snímek 21) – potvrdilo se rozdělení podle Zipfova zákona: z 10 000 nenalezených výrazů se pouze 500 výrazů hledalo více než pětkrát. Graf ukazuje výsledek intelektuálního rozboru 500 nejfrekventovanějších nenalezených výrazů. 8) Výrazy hledané společně (snímek 22) – většina dvojic, vyhledávaných společně, je spojena sémantickou souvislostí. -- Předběžné shrnutí výsledků výzkumu: Bylo potvrzeno, že kvantitativní metody (bibliometrie, bibliomining) mohou poskytnout jak náměty ke zkvalitnění použitelnosti a přístupnosti databáze, tak i přímé podněty k terminologické práci. Byly získány náměty na zařazení nových termínů nebo ekvivalentů do TDKIV. Bylo potvrzeno, že shluky (klastry) současně hledaných termínů umožňují nacházet sémantické vztahy. Byly odhaleny problémy k řešení: 2/3 vyhledávání končí neúspěchem, 1/5 z nenalezených výrazů jsou překlepy, významný podíl dotazů ve slovenštině, dotazy na zkratky. Plány na další pokračování výzkumu: tvorba vícečetných klastrů, ontologizace TDKIV (převod syntagmatických vztahů na paradigmatické), porovnání vyhledávacích výrazů s termíny v databázi, analýza vyhledávacích procesů. (ISSN 1803-6090).
Item type: | Conference paper |
---|---|
Keywords: | bibliometrics, corpus-based terminography, Czech Explanatory Terminological Database of Library and Information Science, data mining, knowledge discovery in databases Terminography, terminology, bibliometrie, Česká terminologická databáze knihovnictví a informační vědy, dobývání znalostí z databází, korpusová terminografie TDKIV, terminografie, terminologie |
Subjects: | B. Information use and sociology of information > BB. Bibliometric methods C. Users, literacy and reading. > CA. Use studies. |
Depositing user: | Eva Bratková |
Date deposited: | 03 Apr 2013 11:42 |
Last modified: | 02 Oct 2014 12:25 |
URI: | http://hdl.handle.net/10760/18928 |
References
Downloads
Downloads per month over past year
Actions (login required)
View Item |