====== Technické riešenie projektu ====== **Rýchly prehľad** * Rozvoj existujúcej platformy BIBLIB s dôrazom na interoperabilitu a škálovanie. * Jadro riešenia: metadáta a kvalita dát, inteligentné vyhľadávanie, vizualizácia a sumarizácia. * Výstupy budú integrované do reálnych produkčných systémov. === Súvisiace stránky === * [[projekt:biblib_ai:implementacia|Implementácia projektu]] * [[projekt:biblib_ai:dopad|Dopad projektu]] * [[projekt:biblib_ai:excelentnost|Excelentnosť projektu]] === Rýchla navigácia === * [[projekt:biblib_ai:start|Prehľad projektu]] * [[start|Hlavná stránka]] === Metadáta a kvalita === Rozšírenie schémy, interoperabilita, deduplikácia a kontrola kvality záznamov. === Vyhľadávanie a NLP === Sémantické vyhľadávanie, prirodzený jazyk a hybridné vyhľadávacie prístupy. === Vizualizácia a sumarizácia === Grafové zobrazenia, interaktívne prehliadanie a sumarizované výsledky. ---- ===== Celková koncepcia technického riešenia ===== Projekt BIBLIB.AI je zameraný na rozvoj a inováciu existujúcej vývojovej platformy BIBLIB, ktorá už dnes predstavuje pokročilý nástroj na správu, vyhľadávanie a prezentáciu bibliografických metadát. Projekt nenadväzuje na vývoj úplne nového systému, ale cielene rozširuje a modernizuje existujúcu platformu na základe reálnych dát a dlhodobo overených postupov. Základným princípom riešenia je pretavenie výsledkov výskumu a vývoja priamo do praxe, a to využitím rozsiahlych dátových zdrojov, ktoré spoločnosť SVOP dlhodobo spravuje. Technické riešenie je navrhnuté ako viacvrstvové, modulárne a škálovateľné, s dôrazom na interoperabilitu, udržateľnosť a spätnú kompatibilitu. ---- ===== Vedecké prístupy a metodika riešenia ===== Technické riešenie projektu je postavené na interdisciplinárnom prístupe, ktorý prepája knižničnú vedu, informatiku, databázové technológie, spracovanie prirodzeného jazyka (NLP) a metódy umelej inteligencie. Metodika riešenia vychádza z iteratívnych výskumno-vývojových cyklov typu **design – test – validate**, pričom jednotlivé kroky budú priebežne overované v spolupráci s koncovými používateľmi z univerzít a knižníc. Projekt kladie dôraz na experimentálne overovanie nových prístupov v reálnych podmienkach, s využitím existujúcich produkčných dát. Takýto prístup umožňuje rýchlu spätnú väzbu, identifikáciu limitov navrhovaných riešení a ich postupnú optimalizáciu. ---- ===== Modelovanie a rozvoj metadát ===== Jednou z kľúčových oblastí technického riešenia je rozvoj modelu bibliografických metadát. Platforma BIBLIB dlhodobo využíva vlastný výmenný formát, ktorý definuje pravidlá prenosu, ukladania a validácie údajov v prostredí komplexných sémantických vzťahov. Projekt sa zameriava na: * analýzu a porovnanie existujúcich metadátových štandardov (MARC21, MARCXML, Dublin Core, MODS, BibTeX), * kompatibilitu s modelom **BIBFRAME**, vyvíjaným Kongresovou knižnicou USA, * prepojenie s ontologickým rámcom **FRBR** pre presnejší popis entít a ich vzťahov, * rozšírenie schémy o podporu generatívnej umelej inteligencie na extrakciu a prevod textu na štruktúrované metadáta. Výsledkom bude rozšírená a anotovaná schéma XML-BIBLIB, ktorá zabezpečí interoperabilitu s medzinárodnými štandardmi, podporu otvorených dát a otvorenej vedy a zároveň umožní efektívnejšie spracovanie hlbokých metadátových štruktúr. ---- ===== Kontrola kvality dát a deduplikácia ===== Súborný katalóg a národné registre predstavujú ideálne prostredie na výskum automatizovanej kontroly kvality dát. Obsah vzniká agregáciou údajov z množstva heterogénnych zdrojov, často bez priameho zásahu človeka. Projekt sa zameriava na vývoj a integráciu algoritmov umelej inteligencie pre: * detekciu duplicít a podobných záznamov, * identifikáciu nekonzistencií a syntaktických chýb, * hodnotenie kvality obsahu metadát. Použité budú metódy ako **clustering algorithms (napr. K-means)**, **fuzzy matching**, **string similarity** (Jaccard, cosine similarity) a algoritmy detekcie anomálií (Random Forest, SVM, DBSCAN). Výsledky budú integrované priamo do produkčných procesov súborného katalógu INFOGATE a ďalších systémov platformy BIBLIB. ---- ===== Robustné a inteligentné vyhľadávanie ===== Jedným z kľúčových výstupov projektu je rozvoj hybridného vyhľadávacieho mechanizmu, ktorý kombinuje tradičné a moderné prístupy k vyhľadávaniu informácií. Aktuálne platforma BIBLIB využíva: * relačné databázové vyhľadávanie, * plnotextové vyhľadávanie s podporou relevancie (ElasticSearch), * fazetovú navigáciu. Projekt rozšíri tieto mechanizmy o: * **sémantické vyhľadávanie**, založené na významových vzťahoch medzi entitami, * **vyhľadávanie v prirodzenom jazyku**, ktoré umožní transformovať neformálne otázky používateľov na formálne vyhľadávacie kritériá, * experimentálne formy hlasového a inštrukčného vyhľadávania. Osobitný dôraz je kladený na podporu slovenského jazyka, ktorý je v oblasti pokročilého NLP často nedostatočne pokrytý. Projekt využíva veľké objemy kvalitných dát v slovenskom jazyku, čo umožňuje experimentálne overovanie riešení v reálnych podmienkach. ---- ===== Vizualizácia a prezentácia dát ===== Druhou zásadnou oblasťou technického riešenia je návrh moderných používateľských rozhraní pre vizualizáciu komplexných dátových štruktúr. Projekt sa zameriava na grafickú prezentáciu ontologických a sémantických vzťahov medzi entitami. Vizualizácia bude založená na: * grafových algoritmoch, * sieťových diagramoch a interaktívnych grafoch, * technológiách umožňujúcich dynamickú prácu s veľkými dátovými množinami. Cieľom nie je samotné generovanie grafov, ale vytvorenie interaktívneho vyhľadávacieho prostredia, ktoré podporí nové formy orientácie v dátach a zlepší používateľskú skúsenosť najmä pre odborných používateľov (knihovníkov, rešeršérov, výskumníkov). ---- ===== Sumarizácia a pokročilá analýza informácií ===== Projekt využíva potenciál veľkých jazykových modelov na experimentálny výskum sumarizácie textu v rôznych kontextoch: * sumarizácia vstupných textov v procese katalogizácie, * automatická tvorba anotácií a kľúčových slov, * sumarizácia výsledkov vyhľadávania. Cieľom je prekročiť tradičný model zoznamu výsledkov a ponúknuť používateľovi prehľadnú sumarizovanú odpoveď, ktorá zohľadňuje kontext, predchádzajúce interakcie a preferencie používateľa. Systém bude vždy umožňovať návrat k tradičným formám prezentácie výsledkov. ---- ===== Inovatívnosť a spoločenský prínos technického riešenia ===== Technické riešenie projektu BIBLIB.AI je inovatívne v niekoľkých rovinách: * zavádza rozšírený metadátový formát kompatibilný s medzinárodnými štandardmi, * prepája tradičné vyhľadávacie mechanizmy s umelou inteligenciou a NLP, * prináša nové možnosti vizualizácie a sumarizácie komplexných dát, * zvyšuje kvalitu a spoľahlivosť bibliografických údajov. Výsledky projektu budú využiteľné v akademickom, verejnom aj komerčnom sektore. Projekt podporí rozvoj informačnej gramotnosti, transparentnosť vo vede a efektívnejší prístup ku kvalitným informačným zdrojom.