Technické riešenie projektu
Rýchly prehľad
- Rozvoj existujúcej platformy BIBLIB s dôrazom na interoperabilitu a škálovanie.
- Jadro riešenia: metadáta a kvalita dát, inteligentné vyhľadávanie, vizualizácia a sumarizácia.
- Výstupy budú integrované do reálnych produkčných systémov.
Súvisiace stránky
Rýchla navigácia
Metadáta a kvalita
Rozšírenie schémy, interoperabilita, deduplikácia a kontrola kvality záznamov.
Vyhľadávanie a NLP
Sémantické vyhľadávanie, prirodzený jazyk a hybridné vyhľadávacie prístupy.
Vizualizácia a sumarizácia
Grafové zobrazenia, interaktívne prehliadanie a sumarizované výsledky.
Celková koncepcia technického riešenia
Projekt BIBLIB.AI je zameraný na rozvoj a inováciu existujúcej vývojovej platformy BIBLIB, ktorá už dnes predstavuje pokročilý nástroj na správu, vyhľadávanie a prezentáciu bibliografických metadát. Projekt nenadväzuje na vývoj úplne nového systému, ale cielene rozširuje a modernizuje existujúcu platformu na základe reálnych dát a dlhodobo overených postupov.
Základným princípom riešenia je pretavenie výsledkov výskumu a vývoja priamo do praxe, a to využitím rozsiahlych dátových zdrojov, ktoré spoločnosť SVOP dlhodobo spravuje. Technické riešenie je navrhnuté ako viacvrstvové, modulárne a škálovateľné, s dôrazom na interoperabilitu, udržateľnosť a spätnú kompatibilitu.
Vedecké prístupy a metodika riešenia
Technické riešenie projektu je postavené na interdisciplinárnom prístupe, ktorý prepája knižničnú vedu, informatiku, databázové technológie, spracovanie prirodzeného jazyka (NLP) a metódy umelej inteligencie. Metodika riešenia vychádza z iteratívnych výskumno-vývojových cyklov typu design – test – validate, pričom jednotlivé kroky budú priebežne overované v spolupráci s koncovými používateľmi z univerzít a knižníc.
Projekt kladie dôraz na experimentálne overovanie nových prístupov v reálnych podmienkach, s využitím existujúcich produkčných dát. Takýto prístup umožňuje rýchlu spätnú väzbu, identifikáciu limitov navrhovaných riešení a ich postupnú optimalizáciu.
Modelovanie a rozvoj metadát
Jednou z kľúčových oblastí technického riešenia je rozvoj modelu bibliografických metadát. Platforma BIBLIB dlhodobo využíva vlastný výmenný formát, ktorý definuje pravidlá prenosu, ukladania a validácie údajov v prostredí komplexných sémantických vzťahov.
Projekt sa zameriava na:
- analýzu a porovnanie existujúcich metadátových štandardov (MARC21, MARCXML, Dublin Core, MODS, BibTeX),
- kompatibilitu s modelom BIBFRAME, vyvíjaným Kongresovou knižnicou USA,
- prepojenie s ontologickým rámcom FRBR pre presnejší popis entít a ich vzťahov,
- rozšírenie schémy o podporu generatívnej umelej inteligencie na extrakciu a prevod textu na štruktúrované metadáta.
Výsledkom bude rozšírená a anotovaná schéma XML-BIBLIB, ktorá zabezpečí interoperabilitu s medzinárodnými štandardmi, podporu otvorených dát a otvorenej vedy a zároveň umožní efektívnejšie spracovanie hlbokých metadátových štruktúr.
Kontrola kvality dát a deduplikácia
Súborný katalóg a národné registre predstavujú ideálne prostredie na výskum automatizovanej kontroly kvality dát. Obsah vzniká agregáciou údajov z množstva heterogénnych zdrojov, často bez priameho zásahu človeka.
Projekt sa zameriava na vývoj a integráciu algoritmov umelej inteligencie pre:
- detekciu duplicít a podobných záznamov,
- identifikáciu nekonzistencií a syntaktických chýb,
- hodnotenie kvality obsahu metadát.
Použité budú metódy ako clustering algorithms (napr. K-means), fuzzy matching, string similarity (Jaccard, cosine similarity) a algoritmy detekcie anomálií (Random Forest, SVM, DBSCAN). Výsledky budú integrované priamo do produkčných procesov súborného katalógu INFOGATE a ďalších systémov platformy BIBLIB.
Robustné a inteligentné vyhľadávanie
Jedným z kľúčových výstupov projektu je rozvoj hybridného vyhľadávacieho mechanizmu, ktorý kombinuje tradičné a moderné prístupy k vyhľadávaniu informácií.
Aktuálne platforma BIBLIB využíva:
- relačné databázové vyhľadávanie,
- plnotextové vyhľadávanie s podporou relevancie (ElasticSearch),
- fazetovú navigáciu.
Projekt rozšíri tieto mechanizmy o:
- sémantické vyhľadávanie, založené na významových vzťahoch medzi entitami,
- vyhľadávanie v prirodzenom jazyku, ktoré umožní transformovať neformálne otázky používateľov na formálne vyhľadávacie kritériá,
- experimentálne formy hlasového a inštrukčného vyhľadávania.
Osobitný dôraz je kladený na podporu slovenského jazyka, ktorý je v oblasti pokročilého NLP často nedostatočne pokrytý. Projekt využíva veľké objemy kvalitných dát v slovenskom jazyku, čo umožňuje experimentálne overovanie riešení v reálnych podmienkach.
Vizualizácia a prezentácia dát
Druhou zásadnou oblasťou technického riešenia je návrh moderných používateľských rozhraní pre vizualizáciu komplexných dátových štruktúr. Projekt sa zameriava na grafickú prezentáciu ontologických a sémantických vzťahov medzi entitami.
Vizualizácia bude založená na:
- grafových algoritmoch,
- sieťových diagramoch a interaktívnych grafoch,
- technológiách umožňujúcich dynamickú prácu s veľkými dátovými množinami.
Cieľom nie je samotné generovanie grafov, ale vytvorenie interaktívneho vyhľadávacieho prostredia, ktoré podporí nové formy orientácie v dátach a zlepší používateľskú skúsenosť najmä pre odborných používateľov (knihovníkov, rešeršérov, výskumníkov).
Sumarizácia a pokročilá analýza informácií
Projekt využíva potenciál veľkých jazykových modelov na experimentálny výskum sumarizácie textu v rôznych kontextoch:
- sumarizácia vstupných textov v procese katalogizácie,
- automatická tvorba anotácií a kľúčových slov,
- sumarizácia výsledkov vyhľadávania.
Cieľom je prekročiť tradičný model zoznamu výsledkov a ponúknuť používateľovi prehľadnú sumarizovanú odpoveď, ktorá zohľadňuje kontext, predchádzajúce interakcie a preferencie používateľa. Systém bude vždy umožňovať návrat k tradičným formám prezentácie výsledkov.
Inovatívnosť a spoločenský prínos technického riešenia
Technické riešenie projektu BIBLIB.AI je inovatívne v niekoľkých rovinách:
- zavádza rozšírený metadátový formát kompatibilný s medzinárodnými štandardmi,
- prepája tradičné vyhľadávacie mechanizmy s umelou inteligenciou a NLP,
- prináša nové možnosti vizualizácie a sumarizácie komplexných dát,
- zvyšuje kvalitu a spoľahlivosť bibliografických údajov.
Výsledky projektu budú využiteľné v akademickom, verejnom aj komerčnom sektore. Projekt podporí rozvoj informačnej gramotnosti, transparentnosť vo vede a efektívnejší prístup ku kvalitným informačným zdrojom.