05.06.2019

„Automatyczne streszczanie dużych tekstów” – felieton


Skrócona wersja poniższego felietonu autorstwa prof. Ryszarda Tadeusiewicza została opublikowana w Gazecie Krakowskiej 5.6.2019 r.

 

Tydzień temu opublikowałem felieton, w którym scharakteryzowałem komputer jako narzędzie pomagające w pisaniu tekstów. Można go przeczytać klikając na ten link.

Obecnie chcę opowiedzieć, co jeszcze mogą robić komputery operujące na tekstach.

Otóż obszarem, w którym trwają intensywne prace naukowe jest dziś automatyczne streszczanie obszernych tekstów. Łatwość generowania i gromadzenia informacji tekstowych doprowadziła do tego, że na każdy temat możemy dziś otrzymać bardzo wiele informacji. Wystarczy wpisać do Google trafne słowa kluczowe – i już dostajemy potrzebne informacje. Czasem jest to jeden obszerny raport, innym razem może to być kolekcja krótszych artykułów, ale problem zawsze jest ten sam:

Tekst jest długi, a my mamy mało czasu!

Ludzie na wysokich stanowiskach radzą sobie tak, że mają asystentów, którzy muszą taki obszerny tekst (lub zbiór tekstów) przeczytać, przemyśleć, a potem krótko streścić. W ten sposób można szybko poznać kwintesencję problemu bez straty czasu na studiowanie nieistotnych szczegółów.

Ale ilu z nas dziś stać na takiego sprytnego asystenta?

Dlatego z wielką nadzieją patrzymy wszyscy na rozwój prac zmierzających do stworzenia systemów automatycznie sporządzających streszczenia. Zadanie nie jest łatwe, dlatego że streszczenie musi być krótkie, a jednocześnie musi oddawać wiernie najważniejsze treści streszczanych tekstów. W dodatku muszą to być właśnie te treści, które tego właśnie użytkownika interesują! Łatwo sobie wyobrazić sytuację, kiedy streszczenia tego samego zbioru tekstów źródłowych dla dwóch różnych użytkowników będą całkowicie odmienne.

Programy komputerowe budujące automatyczne streszczenia działają na kilku zasadach. Najczęściej wybierają z długiego tekstu tylko niektóre zdania spełniające jakieś kryteria (na przykład zawierające jakieś słowo kluczowe). Dodatkowym kryterium selekcji zdań bywa czasem ich długość albo lokalizacja w tekście (najważniejsze treści są zwykle w końcowym podsumowaniu dłuższego dokumentu). Zaletą metod opartych na selekcji jest ich łatwa komputerowa realizacja. Wadą jest to, że uzyskaną z takiego programu zbitkę „wyczesanych” z dużego tekstu zdań bardzo źle się czyta.

Inne podejście oparte jest na statystyce. Jeśli w streszczanym tekście jakiś termin albo zwrot się szczególnie często powtarza – to zapewne jest on ważny. Można dodatkowo badać korelacje występowania pewnych terminów, albo ich kolejność. Przy takim podejściu najpierw usuwa się z tekstu słowa, które na pewno nie niosą znaczącej informacji (w języku angielskim są to przykładowo słowa „the”, „by”, „a”, „an” itp.) Dopiero potem dla pozostałych słów liczy się rozmaite parametry statystyczne, a na ich podstawie wybiera się ze streszczanego tekstu zdania, które zapewne najlepiej charakteryzują jego zawartość.

Najambitniejsze programy streszczające próbują automatycznie ustalić, o co w streszczanym tekście chodzi. Takie podejście nazywane jest – z pewną przesadą - automatycznym rozumieniem tekstu. Odwołuje się ono do tak zwanych ontologii (specjalnego typu słowników), drzew reprezentujących strukturę dokumentu oraz do metod logiki wykorzystujących zasoby odpowiednio dobranych reguł. Użyteczne są tu także sieci semantyczne, zaproponowane przez Tima Bernersa-Lee, pomysłodawcę www, a także narzędzie zwane RDF (Resource Description Framework), służące do takiej prezentacji wiedzy zawartej w sieci, żeby widoczne i zrozumiałe były merytoryczne związki treści zawartych w różnych dokumentach.

Opisany tu zbiór usług komputerowych jest na razie bardzo prymitywny, a produkowane automatycznie streszczenia nie zawsze dobrze oddają istotę sprawy. Ale ten obszar zastosowań informatyki bardzo intensywnie się rozwija, więc jest szansa na to, że niebawem streszczenia dostarczane przez elektronicznego asystenta będą lepsze od tych, które potrafi wyprodukować człowiek. Z pewnością będzie to korzystne dla wielu użytkowników!

 

 

Wykaz wszystkich publikacji popularnonaukowych prof. Tadeusiewicza wraz z odnośnikami do ich pełnych wersji