28.09.2011

Postrach cyberprzestępców powstaje w AGH

Komenda Główna Policji testuje pionierskie oprogramowanie, opracowane w Krakowie przez zespół naukowców pod kierownictwem profesora Wiesława Lubaszewskiego z Katedry Informatyki Akademii Górniczo-Hutniczej. System o nazwie Monitorowanie Polskojęzycznego Internetu (MPI), ułatwia tropienie przestępczości w sieci www. Jego działanie opiera się na nowatorskim podejściu do problemu wyszukiwania informacji.


Według profesora Wiesława Lubaszewskiego system MPI uzyskuje bardzo wysoką trafność wyników wyszukiwania wynoszącą ok. 98 proc.

Oprócz policji wynalazkiem zainteresowały się m.in. służby celne, dla których zorganizowano specjalną prezentację we wrześniu b.r.

Opracowany w AGH system to rodzaj wyszukiwarki internetowej, która w odróżnieniu od ogólnie dostępnych, takich jak np. Google, daje odpowiedzi wyłącznie na zadany temat. Nie „zarzuca" użytkownika odnośnikami do tysięcy przeróżnych stron www, które łączy jedynie słowo wpisane do wyszukiwarki. MPI to system inteligentny, który działa na zasadzie skojarzeniowej, uwzględniając znaczenie słów w pożądanym przez szukającego kontekście. Jeśli np. policjant szuka w sieci ogłoszeń o sprzedaży narkotyków, to MPI "wie", że z narkotykami należy skojarzyć takie wyrazy jak śnieg, kreska, działka itp. Z pewnością nie wyszuka prognozy pogody. - Uzyskujemy bardzo wysoką dokładność - aż 98 proc., co oznacza, że 98 proc. tekstów było dokładnie takich, o jakie chodziło. W tym przypadku dotyczących handlu narkotykami - zapewnia prof. Lubaszewski.

 

System MPI powstał pod auspicjami Polskiej Platformy Bezpieczeństwa Wewnętrznego, której jednym z założycieli jest AGH. Zadania Platformy polegają na tworzeniu nowych technologii dla instytucji państwowych, zwłaszcza tych związanych z bezpieczeństwem. W roku 2007 krakowscy naukowcy rozpoczęli współpracę z Komendą Główną Policji, gdzie powstał wydział do zwalczania cyberprzestępczości.

 

Przystąpienie do pracy nad projektem MPI poprzedziła szczegółowa analiza przeszkód napotykanych przez funkcjonariuszy tej jednostki podczas monitorowania Internetu i dokładne określenie przez nich oczekiwań dotyczących nowego narzędzia pracy. Podstawowym problemem było to, że wyszukiwarki, używane dotychczas przez policję, nie pozwalają na uzyskanie dokładnie wyselekcjonowanych wyników. Na dane zapytanie dostaje się najczęściej taką masę odpowiedzi, że potrzebny jest sztab ludzi, który wszystkie te informacje przeczyta i przeanalizuje. To wymaga czasu. Jednak aby być skutecznymi, policjanci muszą działać szybko, dlatego poproszono o zbudowanie takiego systemu, który umożliwi precyzyjne wyszukiwanie w Internecie. 

 

Po trzech latach wysiłków krakowscy uczeni przygotowali prototyp systemu MPI, który już od roku z powodzeniem testują policjanci z komendy głównej. Obecnie trwają prace wdrożeniowe, których celem jest wyprodukowanie wersji komercyjnej. Program jest więc cały czas dopracowywany i ulepszany. Dzięki rewelacyjnym efektom, jakie potrafi osiągnąć, jest o nim coraz głośniej. Ostatnio wynalazkiem zainteresowały się m.in. służby celne, dla których specjalną prezentację zorganizowano na początku września w Opolu.

 

Wynaleziona w AGH wyszukiwarka jest przystosowana do wykonywania czterech typów zadań. Typ A to poszukiwanie nieznanych wcześniej stron www, zawierających określone informacje, np. ogłoszenia o sprzedaży organów do przeszczepu, oraz odnajdywanie znanych już przedtem serwisów, które przestępcy, np. pedofile czy przemytnicy, przenieśli z jednego serwera na inny, powodując zmianę ich adresów. Typ B umożliwia systematyczne monitorowanie określonego portalu internetowego poprzez zdefiniowanie częstotliwości jego automatycznego przeszukiwania. Ta funkcja ułatwia policji m.in. monitorowanie ogłoszeń dotyczących handlu organami do przeszczepów; samo ogłoszenie czy sprzedaż nie są przestępstwem, natomiast ścigane i karane jest pośrednictwo w sprzedaży organów. Zadaniem typu C jest sprawdzanie stanu aktualizacji danego serwisu www oraz identyfikacja komputera, z którego dokonano zmiany. System potrafi znaleźć na stronie nawet bardzo drobną modyfikację. Jest to bardzo trudne, gdyż wiele danych, jak data, godzina, imieniny, zmienia się automatycznie. Problem polega na znalezieniu tylko tych aktualizacji, które są robione ręcznie, bo nawet drobna zmiana tekstu może służyć do zakamuflowanej komunikacji pomiędzy grupą cyberprzestępców. Typ D służy do poszukiwania niejawnych powiązań pomiędzy tekstami. Można ściągnąć całą stronę www i zbadać podobieństwo zamieszczonych na niej tekstów do tekstu porównywanego. Co to oznacza? Załóżmy, że policja znajdzie na miejscu przestępstwa jakiś list. Wtedy warto poszukać tekstów podobnych do znalezionego, bo to może naprowadzić policję na trop jego autora.

 

Dlaczego tak opracowany program przynosi nadspodziewanie dobry efekt? - Człowiek działa stereotypowo; dzięki temu np. uczymy się, a pewne czynności już wyuczone łatwiej nam wykonywać. Zazwyczaj w pierwszym podejściu też działamy modelowo i dlatego było potrzebne narzędzie, które będzie umiało kojarzyć, ale nie stereotypowo - tłumaczy profesor Lubaszewski.

 

Precyzyjne wyszukiwanie jest możliwe dzięki właściwemu interpretowaniu przez automat poszukiwanej informacji. Zwykła wyszukiwarka znajduje najpierw tekst, w którym występują obydwa wpisane słowa kluczowe, potem jedno z nich, a na kolejność wyników ma wpływ pozycjonowanie. W tej sytuacji nie jest łatwo znaleźć właściwą informację. Przy tworzeniu MPI natomiast przyjęto taki model, który nie szuka w całym tekście, ale przeszukuje zdanie po zdaniu. Każdy człowiek opisuje bowiem daną sytuację w sposób subiektywny - zwięźle lub poetycko, wprost albo dwuznacznie. Np. myśląc o wypitej herbacie, możemy napisać dosłownie: „herbata była smaczna" lub „łyk aromatycznego, gorącego naparu poprawił mi samopoczucie". W drugim z przytoczonych zdań nie padło słowo „herbata", choć odnosi się ono do tego właśnie napoju. Twórcy systemu MPI zaprogramowali go tak, aby umiał znaleźć również takie teksty. Przyjęto więc model oparty na koncepcji semantycznego modelu tekstu - bo myśl można wyrazić w postaci wielu zdań lub bardzo zwięźle i syntetycznie. MPI obsługuje oba typy informacji, dlatego umożliwia wyszukiwanie o wiele bardziej zaawansowane niż to oparte na słowach kluczowych. Ten sposób działania można wytłumaczyć na przykładzie wspomnianych już ogłoszeń dotyczących handlu organami do przeszczepów. Mamy semantyczny model zdania; w zdaniu musi zaistnieć zdarzenie, które definiujemy wieloma określeniami. Jeśli policja tropi przestępstwa dotyczące handlu organami, to zdarzeniem może być cała seria wyrazów, które to zdarzenie reprezentują: kupię, sprzedam, oddam, odstąpić, potrzebny, dać, sprzedaż. Następnie w zdaniu określamy sprawcę, obiekt, narzędzie, czyli to, co się nazywa rolami semantycznymi. Tym rolom semantycznym przypisujemy konkretne wyrazy. Może ich być bardzo wiele. Im precyzyjniej opiszemy każdą ze składowych części zdania, tym lepszy będzie efekt wyszukiwania.

 

Chciałoby się powiedzieć: drżyjcie cyberprzestępcy! MPI może śledzić w sieci wszelkie przestępstwa, nie tylko już popełnione, ale i te, które są dopiero planowane. Informacje, znalezione przy pomocy wyszukiwarki opracowanej przez zespół prof. Lubaszewskiego, analizują specjalnie przeszkoleni funkcjonariusze, którzy prowadzą dalszą pracę dochodzeniowo-śledczą i podejmują odpowiednie działania. Od razu można się poczuć bezpieczniej.

 

Tekst: Ilona Trębacz