Technické riešenie projektu

Rýchly prehľad

  • Rozvoj existujúcej platformy BIBLIB s dôrazom na interoperabilitu a škálovanie.
  • Jadro riešenia: metadáta a kvalita dát, inteligentné vyhľadávanie, vizualizácia a sumarizácia.
  • Výstupy budú integrované do reálnych produkčných systémov.

Metadáta a kvalita

Rozšírenie schémy, interoperabilita, deduplikácia a kontrola kvality záznamov.

Vyhľadávanie a NLP

Sémantické vyhľadávanie, prirodzený jazyk a hybridné vyhľadávacie prístupy.

Vizualizácia a sumarizácia

Grafové zobrazenia, interaktívne prehliadanie a sumarizované výsledky.


Projekt BIBLIB.AI je zameraný na rozvoj a inováciu existujúcej vývojovej platformy BIBLIB, ktorá už dnes predstavuje pokročilý nástroj na správu, vyhľadávanie a prezentáciu bibliografických metadát. Projekt nenadväzuje na vývoj úplne nového systému, ale cielene rozširuje a modernizuje existujúcu platformu na základe reálnych dát a dlhodobo overených postupov.

Základným princípom riešenia je pretavenie výsledkov výskumu a vývoja priamo do praxe, a to využitím rozsiahlych dátových zdrojov, ktoré spoločnosť SVOP dlhodobo spravuje. Technické riešenie je navrhnuté ako viacvrstvové, modulárne a škálovateľné, s dôrazom na interoperabilitu, udržateľnosť a spätnú kompatibilitu.


Technické riešenie projektu je postavené na interdisciplinárnom prístupe, ktorý prepája knižničnú vedu, informatiku, databázové technológie, spracovanie prirodzeného jazyka (NLP) a metódy umelej inteligencie. Metodika riešenia vychádza z iteratívnych výskumno-vývojových cyklov typu design – test – validate, pričom jednotlivé kroky budú priebežne overované v spolupráci s koncovými používateľmi z univerzít a knižníc.

Projekt kladie dôraz na experimentálne overovanie nových prístupov v reálnych podmienkach, s využitím existujúcich produkčných dát. Takýto prístup umožňuje rýchlu spätnú väzbu, identifikáciu limitov navrhovaných riešení a ich postupnú optimalizáciu.


Jednou z kľúčových oblastí technického riešenia je rozvoj modelu bibliografických metadát. Platforma BIBLIB dlhodobo využíva vlastný výmenný formát, ktorý definuje pravidlá prenosu, ukladania a validácie údajov v prostredí komplexných sémantických vzťahov.

Projekt sa zameriava na:

  • analýzu a porovnanie existujúcich metadátových štandardov (MARC21, MARCXML, Dublin Core, MODS, BibTeX),
  • kompatibilitu s modelom BIBFRAME, vyvíjaným Kongresovou knižnicou USA,
  • prepojenie s ontologickým rámcom FRBR pre presnejší popis entít a ich vzťahov,
  • rozšírenie schémy o podporu generatívnej umelej inteligencie na extrakciu a prevod textu na štruktúrované metadáta.

Výsledkom bude rozšírená a anotovaná schéma XML-BIBLIB, ktorá zabezpečí interoperabilitu s medzinárodnými štandardmi, podporu otvorených dát a otvorenej vedy a zároveň umožní efektívnejšie spracovanie hlbokých metadátových štruktúr.


Súborný katalóg a národné registre predstavujú ideálne prostredie na výskum automatizovanej kontroly kvality dát. Obsah vzniká agregáciou údajov z množstva heterogénnych zdrojov, často bez priameho zásahu človeka.

Projekt sa zameriava na vývoj a integráciu algoritmov umelej inteligencie pre:

  • detekciu duplicít a podobných záznamov,
  • identifikáciu nekonzistencií a syntaktických chýb,
  • hodnotenie kvality obsahu metadát.

Použité budú metódy ako clustering algorithms (napr. K-means), fuzzy matching, string similarity (Jaccard, cosine similarity) a algoritmy detekcie anomálií (Random Forest, SVM, DBSCAN). Výsledky budú integrované priamo do produkčných procesov súborného katalógu INFOGATE a ďalších systémov platformy BIBLIB.


Jedným z kľúčových výstupov projektu je rozvoj hybridného vyhľadávacieho mechanizmu, ktorý kombinuje tradičné a moderné prístupy k vyhľadávaniu informácií.

Aktuálne platforma BIBLIB využíva:

  • relačné databázové vyhľadávanie,
  • plnotextové vyhľadávanie s podporou relevancie (ElasticSearch),
  • fazetovú navigáciu.

Projekt rozšíri tieto mechanizmy o:

  • sémantické vyhľadávanie, založené na významových vzťahoch medzi entitami,
  • vyhľadávanie v prirodzenom jazyku, ktoré umožní transformovať neformálne otázky používateľov na formálne vyhľadávacie kritériá,
  • experimentálne formy hlasového a inštrukčného vyhľadávania.

Osobitný dôraz je kladený na podporu slovenského jazyka, ktorý je v oblasti pokročilého NLP často nedostatočne pokrytý. Projekt využíva veľké objemy kvalitných dát v slovenskom jazyku, čo umožňuje experimentálne overovanie riešení v reálnych podmienkach.


Druhou zásadnou oblasťou technického riešenia je návrh moderných používateľských rozhraní pre vizualizáciu komplexných dátových štruktúr. Projekt sa zameriava na grafickú prezentáciu ontologických a sémantických vzťahov medzi entitami.

Vizualizácia bude založená na:

  • grafových algoritmoch,
  • sieťových diagramoch a interaktívnych grafoch,
  • technológiách umožňujúcich dynamickú prácu s veľkými dátovými množinami.

Cieľom nie je samotné generovanie grafov, ale vytvorenie interaktívneho vyhľadávacieho prostredia, ktoré podporí nové formy orientácie v dátach a zlepší používateľskú skúsenosť najmä pre odborných používateľov (knihovníkov, rešeršérov, výskumníkov).


Projekt využíva potenciál veľkých jazykových modelov na experimentálny výskum sumarizácie textu v rôznych kontextoch:

  • sumarizácia vstupných textov v procese katalogizácie,
  • automatická tvorba anotácií a kľúčových slov,
  • sumarizácia výsledkov vyhľadávania.

Cieľom je prekročiť tradičný model zoznamu výsledkov a ponúknuť používateľovi prehľadnú sumarizovanú odpoveď, ktorá zohľadňuje kontext, predchádzajúce interakcie a preferencie používateľa. Systém bude vždy umožňovať návrat k tradičným formám prezentácie výsledkov.


Technické riešenie projektu BIBLIB.AI je inovatívne v niekoľkých rovinách:

  • zavádza rozšírený metadátový formát kompatibilný s medzinárodnými štandardmi,
  • prepája tradičné vyhľadávacie mechanizmy s umelou inteligenciou a NLP,
  • prináša nové možnosti vizualizácie a sumarizácie komplexných dát,
  • zvyšuje kvalitu a spoľahlivosť bibliografických údajov.

Výsledky projektu budú využiteľné v akademickom, verejnom aj komerčnom sektore. Projekt podporí rozvoj informačnej gramotnosti, transparentnosť vo vede a efektívnejší prístup ku kvalitným informačným zdrojom.