Przejdź do treści Przejdź do stopki
Artykuły z kategorii Nauka

Wirtualny doradca - projekt naukowców AGH

Naukowcy Wydziału Elektrotechniki, Automatyki, Informatyki i Elektroniki pracujący nad wirtualnym doradcą. mgr Dawid Skurzok, mgr Mariusz Mąsior, prof. Mariusz Ziółko, dr Bartosz Ziółko /Zdjęcie: Zbigniew Sulima

Wirtualny doradca - projekt naukowców AGH

Dynamiczny rozwój branży IT już od wielu lat kreśli kierunek rozwoju instytucji, przedsiębiorstw, a nawet całych gałęzi przemysłu. W tej dziedzinie to, co jeszcze wczoraj nie było możliwe, jutro stanie się faktem. Bogactwo pomysłów i rozwiązań jest wprost niewyobrażalne. Dowodem na to, a zarazem kolejną cegiełką w rozwoju technologii informatycznych, jest urządzenie opracowane przez naukowcówz Akademii Górniczo-Hutniczej, które możemy określić jako słuchającego wirtualnego doradcę. Nowatorstwo pomysłu polega na opracowaniu programu umożliwiającego rozmowę z komputerem w języku polskim.

Początki wirtualnego doradcy w Akademii Górniczo-Hutniczej sięgają roku 2004, kiedy to zespół profesora Mariusza Ziółki z Katedry Elektroniki na Wydziale Elektrotechniki, Automatyki, Informatyki i Elektroniki odpowiedział na zapotrzebowanie Polskiej Platformy Bezpieczeństwa Wewnętrznego. Chodziło o to, aby usprawnić pracę w policji i sądownictwie. Podstawą pomysłu do stworzenia potrzebnych tam aplikacji było spostrzeżenie, że przeciętny człowiek może trzy razy szybciej mówić niż pisać na klawiaturze. W ciągu siedmiu lat pracowało przy projekcie kilkanaście osób, ale trzon zespołu to: prof. Mariusz Ziółko, dr Bartosz Ziółko, dr Jakub Gałka, mgr Tomasz Jadczyk i mgr Dawid Skurzok.  

 

Interfejs głosowy dla pracowników sądu i policji

 

Ważną rolę w pracy policjanta odgrywa możliwość obserwowania osoby przesłuchiwanej. Jeśli prowadzący przesłuchanie funkcjonariusz musi jednocześnie pisać protokół, to zamiast na rozmówcę patrzy na monitor i klawiaturę komputera. Chodziło więc o to, aby wymyślić sposób na transkrybowanie treści przekazywanych za pomocą mowy i zapisywanie ich w postaci dokumentów. Zadanie okazało się bardzo trudne, bo w tekście raportów jest wiele różnorodnych słów. Dlatego zespół prof. Ziółki postanowił rozważyć pomysły związane

z interakcją z komputerem. Trzy lata temu prof. Ziółko otrzymał grant rozwojowy na opracowanie tego projektu i teraz może pochwalić się znacznymi sukcesami. „Dla sądów kończymy obsługę głosowego interfejsu do programu zarządzającego aktami. W tym przypadku chodziło o to, aby usprawnić pracę osób udzielających rozmaitych informacji. Jeśli w jakimś sekretariacie dzwoni telefon i ktoś chce się dowiedzieć np. o nazwiska osób uczestniczących

w danej rozprawie, to osoba odbierająca telefon nie musi już wstukiwać na klawiaturze komputera numeru sprawy, tylko go komputerowi dyktuje i informacje wyświetlają się na ekranie" - mówi dr Bartosz Ziółko. - Taka aplikacja jest dość prosta, bo komputer musi jedynie rozróżniać cyfry i łatwe komendy typu "otwórz", "zamknij", więc to działa bezbłędnie - wyjaśnia naukowiec.
Dla policji powstaje podobna aplikacja. Ma pomóc w pracy operacyjnej i usprawnić poszukiwania danego obiektu. Program dostosowano do stanowiska dyżurnego obsługującego kilka komputerów. Praca dyżurnego polega nie tylko na archiwizowaniu danych od operatorów telefonii komórkowej i informacji napływających z urządzeń wyposażonych w systemy radiolokacji opartej na GPS, ale także na udzielaniu na ich podstawie informacji funkcjonariuszom pracującym w terenie. Przykładowo: gdy dzieje się coś ważnego i wielu funkcjonariuszy dzwoni równocześnie do centrali zadając rozmaite pytania, osoby pracujące tam musiały dotychczas wystukiwać dane na klawiaturach kilku komputerów. Podczas policyjnych operacji często liczy się każda sekunda, a dzięki interfejsowi głosowemu wymiana informacji jest dużo szybsza. Pracownicy w centrali nie muszą już przemieszczać się między kilkoma stanowiskami i pisać na klawiaturze. Werbalizują pytania, a odpowiedzi podawane przez komputer błyskawicznie odczytują funkcjonariuszom biorącym udział w akcji.

 

Wirtualna mysz  

 

Szukając dodatkowych możliwości zastosowań dla swojego produktu, nasi naukowcy rozpoczęli współpracę z Fundacją Anny Dymnej. Rozpoczęli pracę nad projektem mającym pomóc osobom niepełnosprawnym, które nie mogą używać klawiatury i myszki. Chodzi o to, że jeśli użytkownik wymówi komendy typu: "lewo", "prawo", "podnieś" itp., to w ten sposób może samodzielnie sterować komputerem. Wirtualna mysz już pod koniec roku ma zostać uruchomiona

i przekazana podopiecznym. 

 

Nowatorskie rozwiązania IT 

 

"Obecnie szukamy pomysłów na to, co z wynikami naszego grantu można zrobić poza policją

i sądem. Dlatego skontaktowaliśmy się z firmą Stanusch Technologies. Efektem spotkań

z przedstawicielami tej firmy było podpisanie dwa miesiące temu umowy licencyjnej na długofalową współpracę między firmą Stanusch Technologies a Akademią Górniczo-Hutniczą" - mówią naukowcy. „Współpraca ta będzie wielopłaszczyznowa. Z jednej strony będzie to praca nad wirtualnym doradcą, który w przypadku Akademii ma pokazywać studentom, w jaki sposób tego typu rozwiązania funkcjonują, w jaki sposób się je konfiguruje i jak działają. Drugi obszar jest związany

z rozpoznawaniem mowy, gdzie nasza firma chce rozwijać tę technologię, a wiedza i doświadczenie naukowców z AGH jest dla Stanusch Technologies bezcenne" - stwierdza Maciej Stanusch, prezes Spółki Stanusch Technologies SA. Firma ta tworzy oparte

o sztuczną inteligencję rozwiązania umożliwiające automatyczne udzielanie precyzyjnych odpowiedzi na wszelkie pytania pracowników, klientów oraz interesantów firm i instytucji. Są to technologie,

w które zazwyczaj inwestują firmy m.in. z sektora handlu, internetowego, bankowego, ubezpieczeniowego, energetyki, budownictwa, traktując to jako formę reklamy. Pokazują tym samym, że są innowacyjni i chętnie inwestują w tak nowatorskie rozwiązania IT. „Pod kątem rozwoju tej gałęzi IT jest jeszcze wiele przed nami. Z drugiej strony, jeśli czyta się jakiekolwiek prognozy związane z rozwojem Internetu, rozwojem komunikacji między człowiekiem a maszyną to zdecydowanie mówi się, że w przyszłości komunikacja ta będzie wyglądała tak, jak rozmowa z wirtualnym doradcą. Raczej więc przyszły Internet zmieni się i nie będziemy przeglądać stron internetowych, ale jakiś system typu wirtualny doradca będzie prowadził nas przez ten gąszcz informacji, który jest w Internecie - w taki sposób, jak rozmawia człowiek z człowiekiem" - wyjaśnia Maciej Stanusch. 

 

Chatterbot lub awatar, czyli animowana postać na stronach www  

 

Wirtualnych doradców na stronach internetowych jest już kilkudziesięciu w różnym stopniu zaawansowania. Można im zadać pytania z gatunku ciekawostek np. „jak powstałaś?", jednak przede wszystkim znają odpowiedzi na pytania fachowe dotyczące oferty firmy, jej procedur czy usług. Wirtualnych doradców nazywa się chatterbotami lub avatarami. Wyposaża się je

w ogromną bazę danych, dzięki którym potrafią udzielić odpowiedzi na wiele pytań. Istnieje jednak pewne ograniczenie - wszystkie pytania trzeba wpisywać. Wirtualny doradca może mówić, ale nie umie słuchać. Dlatego firma Stanusch chce wprowadzić wirtualnych doradców,

z którymi będzie możliwy kontakt werbalny. Nasi naukowcy opracowują zatem tę część, która odpowiada za słuchanie i rozumienie mowy. Istnieje kilka przeszkód ograniczających rozwój technologii rozpoznawania mowy. Pierwsza z nich jest powiązana z jedną z głównych barier rozwoju metod sztucznej inteligencji. Większość metod mniej lub bardziej opiera się na statystykach. Przy tworzeniu tego programu naukowcy musieli uwzględnić bardzo dużo statystyk, które później pomagają ustalić, co zostało powiedziane. Są to statystyki dotyczące języka, akustyki, dźwięku, i tego, jakie częstotliwości mają poszczególne fonemy. Trzeba po prostu utworzyć specjalny program, dzięki któremu wirtualny doradca "zrozumie" to, co ktoś do niego mówi. „Wiarygodność statystyki zależy od ilości danych użytych do ich wygenerowania.

Z tego powodu ograniczeniem jakości metod technologii mowy są rozmiary dostępnych zbiorów mowy lub tekstu, zwanych korpusami. Teoretycznie, wiele z modeli działa perfekcyjnie jedynie przy nieskończenie wielkich zasobach szkoleniowych. Drugim ograniczeniem jest to, że większość metod technologii mowy jest pewnego rodzaju symulacją procesów zachodzących w naszych zmysłach i mózgu. Szczególnie zrozumienie funkcjonowania mózgu jest na razie nieosiągalne. Potrafimy bowiem wytworzyć elektroniczne implanty zastępujące ucho, a syntezatory mowy są niemalże idealne. Jednak bardzo duża część przetwarzania informacji zachodzi w mózgu,

w oparciu o połączenie danych otrzymywanych aktualnie z różnych zmysłów i porównanie ich

z nabytym doświadczeniem. Proces słuchania mowy jest dużo bliższy zgadywaniu i interpretacji, niż większość z nas podejrzewa. Poza tym istotne jest kto mówi do takich systemów: wiek, płeć, używany dialekt, umiejętność prawidłowego trzymania mikrofonu itp. Istotne może być także otoczenie, na przykład systemy przystosowane do pracy na lotnisku lub jako punkty informacyjne w mieście muszą uwzględniać hałas powodowany przez okoliczne urządzenia" - mówi prof. Ziółko.

 

Osobnym problemem jest umiejętność przewidywania, co ludzie będą mówić i jakie zadawać pytania. Dlatego najpierw należało stworzyć bazę danych, czyli zestaw możliwych pytań, które mogą dostawać doradcy i zbiory odpowiedzi. Na typowe pytania uzyskamy prawidłową odpowiedź, ale jeśli ktoś zada pytanie zupełnie niezwiązane z założeniami, to doradca powinien odpowiedzieć, że nie zrozumiał. Może zdarzyć się i tak, że awatar błędnie zinterpretuje mowę i będzie sądził, że zadano mu zupełnie inne pytanie; wtedy oczywiście udzieli bezsensownej odpowiedzi. „Nie są to więc technologie, które działają idealnie, dlatego przynajmniej na razie wirtualny doradca nie może zastąpić informacji przekazywanej przez człowieka" - mówi dr Ziółko.
Pierwsze systemy rozpoznawania mowy powstały już w latach 60. ubiegłego stulecia, czyli na początku epoki komputerów. Systemy te osiągnęły pewną złożoność, ale nie odniosły sukcesu. Dopiero na początku XXI wieku komputery stały się na tyle szybkie i pojemne, że rozpoznawanie mowy zaczęło przeżywać drugą młodość.

 

Tym samym niemożliwe staje się możliwym - dzięki uczonym z AGH komputery zaczynają rozmawiać z ludźmi. A to zapewne dopiero początek drogi zmierzającej do stworzenia robotów podobnych do tych, które kochają miliony fanów „Gwiezdnych wojen" George'a Lucasa. Wprawdzie daleko nam do stworzenia inteligentnych i błyskotliwych R2-D2 i C-3P0, ale jedno jest pewne - już teraz dzięki interfejsowi głosowemu opracowanemu przez naszych naukowców oszczędzimy cenny czas - jedną z niewielu rzeczy, którymi człowiek jeszcze nie nauczył się sterować.

 

Tekst: Ilona Trębacz

 

Stopka