Infobazy 2011 - streszczenia

Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych

Remigiusz Baran1, Andrzej Dziech2, Paweł Fornalski2, Tomasz Ruść3, Przemysław Ślusarczyk3

1Politechnika Świętokrzyska,  Wydział Elektrotechniki, Automatyki i Informatyki ,
al. 1000-lecia PP 7, 25-314 Kielce
2AGH, Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki,
al. Mickiewicza 30, 30-059 Kraków
3Uniwersytet Jana Kochanowskiego, Wydział Matematyczno-Przyrodniczy,
ul. Świętokrzyska, 25-406 Kielce

 

 

W artykule przedstawiono rozwiązania pozwalające na efektywną cyfryzację i następnie gromadzenie oraz katalogowanie (grupowanie) dokumentów tekstowych w ich elektronicznej postaci. Kluczowym elementem przedstawionych rozwiązań jest jednak możliwość szybkiego i elastycznego wyszukiwania informacji w dużych zbiorach danych tak zorganizowanej biblioteki cyfrowej. Wiele przedsiębiorstw ze sfery gospodarki oraz instytucji administracji państwowej (w tym prokuratura i sądy) jest właśnie na etapie wdrażania takich lub podobnych rozwiązań albo też pilnie ich poszukuje. Szybki transfer dokumentów z postaci papierowej do postaci cyfrowej oraz możliwości ich późniejszego szybkiego przeszukiwania to zalety, które w oczywisty sposób podnoszą efektywność działania ww. podmiotów. W ostatnich latach powstało kilka systemów próbujących sprostać ww. wymaganiom: Sydig, jDokument. Żaden z wymienionych systemów nie wychodzi jednak w pełni naprzeciw oczekiwaniom. Albo przyjęte w nich rozwiązania są zamknięte, tj. pozwalają na zastosowania jedynie w instytucjach o określonym profilu, albo też użyte w nich technologie i ich wzajemne ograniczenia wykluczają możliwość efektywnego zarządzania dużymi zbiorami danych. Autorzy pracy pragną zaprezentować swoją propozycje ww. systemu, będącego efektem kilku lat doświadczeń z zakresu przetwarzania dokumentów tekstowych. Proponowany system jest nie tylko elektronicznym obiegiem dokumentów zrealizowanym w oparciu o środowisko bazodanowe wspierane przez indekser informacji tekstowej, ale przede wszystkim uniwersalnym systemem do tworzenia własnej, wielopoziomowej, elastycznie zorganizowanej struktury dokumentów z możliwością wyszukiwania pełno-tekstowego. Efektywność tego wyszukiwania jest wspierana przez zastosowanie elektronicznych słowników fleksyjnych i synonimów. Dodatkowymi elementami systemu, również podnoszącymi jego efektywność wyszukiwania, są tzw. elektroniczne notatki (indywidualne uwagi, komentarze użytkownika), nanoszone na zdigitalizowany dokument w postaci dodatkowej, niemodyfikującej oryginału warstwy oraz adnotacje niejawne, głownie o charakterze technicznym, ukrywane w oryginalnym dokumencie przy wykorzystaniu technologii cyfrowych znaków wodnych. Na koniec, w uzupełnieniu do zaprezentowanych rozwiązań oraz w celu potwierdzenia ich skuteczności, przedstawiona została oraz krótko scharakteryzowana ich przykładowa implementacja, w postaci systemu do archiwizacji akt sądowych, który obecnie jest testowany w jednym z polskich sądów.