Jau 2010 metais turėtų atsirasti tokių kompiuterių, kuriais bus galima dirbti ir šnekantis. Jie, pasak prof. habil. dr. Laimučio Telksnio, bus tarsi nauji mūsų bendradarbiai ir jei nešnekės lietuviškai, gali atsitikti taip, kaip yra pasakęs vienas „Microsoft” strategų prof. Davidas Brooksas: „Kalba, kuri nepasklis elektroninėje terpėje, pamažu išnyks.”
„Čia turėtų būti valstybės politika, – LŽ sakė akademikas L.Telksnys. – Atsakyti Mikalojui Daukšai, kaip bus, ar mes pasirūpinsime savo šneka, kuri palaiko ir vienybę, ir valstybę, ir visą tautą. Man atrodo, tokio klausimo negalima net kelti – turi būti pasirūpinta, ir kuo greičiau.”
Tyloje ir aiškiai
Tokioms pasaulyje plačiai paplitusioms kalboms kaip anglų, vokiečių, prancūzų, ispanų ar italų jau dabar yra sukurta programinė įranga, kai mašina gali spausdinti jai diktuojamus tekstus. Kol kas atpažįstama tik tam tikros srities kalba, pavyzdžiui, medicinos, verslo ar teisės. Jei yra labai daug žodžių, mašinai sunkoka susigaudyti.
Gydytojams pritaikyta tokia įranga jau pardavinėjama ir kainuoja apie tūkstantį dolerių. Ji gerokai palengvina medikų darbą. Gydytojai mašinai gali diktuoti ligos istorijas ir daugiau laiko skirti paciento apžiūrai, tiesiog pasakydami kompiuteriui, ką užrašyti.
„Vis dėlto tai nereiškia, kad bus tokie kompiuteriai, su kuriais galėsime bendrauti kaip tarpusavyje, – sakė Matematikos ir informatikos instituto Atpažinimo procesų skyriaus vadovas prof. habil. dr. L.Telksnys. – Apribojimų šnekant su kompiuteriu, kad šis atpažintų, yra nemažai. Aplink turi būti gana tylu, nes triukšmas kompiuteriui trukdo. Be to, reikia gana aiškiai kalbėti. Ir žmonėms tarpusavyje kalbantis kartais tenka perklausti, ką kitas pasakė, – gal per greitai ar truputį neaiškiai, suveltu sakiniu, tačiau mums tie dalykai paprastai netrukdo.”
Per daug sudėtinga
Lietuvių, kaip ir latvių ar kitos mažų tautų kalbos, verslo požiūriu yra nepatrauklios, todėl, pasak informatikos profesoriaus, reikia patiems kurti programinę įrangą lietuvių kalbai. Neįmanoma tiesiogiai pritaikyti ir kitoms kalboms sukurtos atpažinimo įrangos, nes lietuvių kalba dar yra ir labai sudėtinga.
Prof. L.Telksnys prisiminė tokią istoriją. Jo mokiniui, dabar jau apgynusiam daktaro laipsnį, per seminarą Vokietijoje vienas vokiečių profesorius pasiūlė lietuvių kalbai naudoti vokiečių kalbos atpažinimo įrangą. Kai lietuvis pradėjo aiškinti, kodėl ta programinė įranga netinka, vokiečių profesorius paragino rašyti mokslinį straipsnį, nes lietuvių kalba yra daug sudėtingesnė mašinai atpažinti. Pavyzdžiui, dėl priegaidžių: šAuk – šaUk, lAuk – laUk, kAltas – kaLtas. Ir mašinoms neužtenka turėti akustinį signalą. Norint, kad mašina gerai atpažintų žodžius, reikia ir gramatikos žinių.
50 kartų daugiau
„Kai rašome, naudojame rašto ženklus – abėcėlę. Garsams ji netinka. Juos aprašo garsų abėcėlė – fonemos. Lietuvių kalba turi 32 rašto ženklus, o fonemų būna ir pusantro šimto, – pasakojo pašnekovas. – Vis dėlto, kad būtų galima patiems sukurti mašinas, kurios atpažintų dideliu patikimumu, neužtenka vien teorinių žinių, negana vien matematiškai aprašyti kalbos procesą, neužtenka ir tokios programinės įrangos, kuri būtų padaryta remiantis tokia teorija. Reikia dar ir kalbos pavyzdžių.”
Į specialias duomenų bazes, vadinamuosius garsynus, turi būti įrašyta įvairių šnekos pavyzdžių, nes mašinai, pasak prof. L.Telksnio, ne tas pats, kai kalba aukštaitis, žemaitis ar dzūkas. Netgi svarbu, ar šneka moteris, ar vyras, nes skiriasi signalas: vienas – aukštas, o kitas – žemas.
Informatikams talkina Lietuvos radijas. Bendradarbiauti pradėta beveik prieš porą metų. Radijo diktorių dukart per dieną skaitomos žinios automatiškai įrašomos į kompiuterį. Diktoriai taip pat leidžia informatikams pasinaudoti jų tekstais. Atpažintuvams tekstas netinka – reikia turėti garsą ir jį fonemizuoti, t. y. užrašyti ne rašto ženklais, o fonemomis. Jos reikalingos kompiuteriui, kad jis galėtų pradėti atpažinti.
Duomenų saugykla turi būti gana didelė. Pavyzdžiui, anglai turi įrašę 500 valandų ir tą šneką jau fonemizavę. Kai kompiuteriai mokomi atpažinti, ta medžiaga naudojamasi. Nepaisant visų pastangų, lietuvių mokslininkai kol kas turi tik 10 valandų, tad dar trūksta 50 kartų tiek.
Reikia proto
Reikia mokslininkų branduolio numatytam darbui atlikti, tačiau jauni žmonės apsigina daktaro laipsnį ir susiranda pelningesnį darbą. Matematikos ir informatikos instituto Atpažinimo procesų skyriaus vadovas ir jo kolegos skaitydami paskaitas mėgina prisikalbinti jaunimo.
„Čia ne šiaip sau programinė įranga. Reikia įvairių žinių sintezės. Turi būti kietas informatikas, pakaustytas teoriškai iš procesų analizės ir akustinės fonetikos srities. Pavyzdžiui, dabar mano doktorantai laiko fonetikos egzaminą pas prof. Antaną Pakerį. Kitaip nieko nepadarysi, – sakė informatikos profesorius. – Dėl įrangos nesiskundžiame, jos mums užtenka. Reikia proto. Ir matote – kokio. Reikia kūrybingų ir mokslui smalsių žmonių. Yra jaunimo, bet kai žmogus toks kvalifikuotas, iškart pagriebia.”
Lietuva nuo kitų pasaulio šalių, užsibrėžusių jau 2010 metais pradėti gaminti kompiuterius, turinčius šnekos atpažintuvus, atsiliks, pasak prof. L.Telksnio, keleriais metais. Jeigu gautume didesnę paramą, darbus būtų galima atlikti greičiau. Vilčių suteikia jau parengta programa „Lietuvių kalba informacinėje visuomenėje”. Jei ji bus šiemet patvirtinta, joje numatytos lėšos leistų gerokai suintensyvinti darbus.
Kompiuteriniai imigrantai?
„Čia iš esmės strateginis klausimas, ar išlaikysime lietuvių kalbą, ar ne, ir mūsų kaip lietuvių atsakomybė, – kalbėjo akademikas. – Kompiuteriai vis gudrėja. Jų bus vis daugiau, ir mes turėsime vis daugiau pagalbininkų, tačiau kaip su jais šnekėsime? Kai atvažiuoja imigrantai, rūpinamės, kad jie išmoktų lietuviškai. Kai atkeliaus kompiuteriniai imigrantai, privalome turėti priemonių juos išmokyti kalbėti lietuviškai.”
Pasaulyje jau atliekami tokie laboratoriniai eksperimentai, kai atpažįstama, tarkim, anglų kalba ir užrašoma rašto ženklais, tada išverčiama, tarkim, į japonų kalbą, o japoniški rašto ženklai sintezuojami – mašina tekstą paverčia garsu. Pavyzdžiui, kalbi telefonu angliškai, o kitas žmogus girdi japoniškai, nes iš karto verčiama. Tačiau kad būtų galima vieną šneką išversti į kitą, pirmiausia reikia atpažinti.
„Dabar įsivaizduokite, kaip mūsų mokinukai mokysis naudotis šitomis galimybėmis? – retoriškai klausė mokslininkas. – Reikia, kad jie bent jau mokykloje su kompiuteriais galėtų šnekėtis lietuviškai. Mes, lietuviai, turime pasirūpinti, kad mūsų kalba būtų vartojama ir elektroninėje terpėje. Informacinių technologijų pasaulyje neturėdami kompiuterių, su kuriais galėtume šnekėtis ir lietuviškai, sulauksime naujų imigrantų – kompiuterių, su kuriais teks šnekėtis kitomis kalbomis.”
Pirmosios kregždės
Problemos problemomis, tačiau kad nebūtų labai liūdna, prof. L.Telksnys pasakė ir gerų naujienų. Jau sukurta tokia programinė įranga, kuri leidžia kompiuteriui atpažinti sakomas komandas. Kai kurie Matematikos ir informatikos instituto darbuotojai tokiomis komandomis jau atsidaro interneto svetaines. Kompiuteris atpažįsta frazes ir jomis naudojantis galima ieškoti informacijos. Arba ištarus kokį nors žodį lietuviškai, mašina pasakys jį, pavyzdžiui, angliškai ar prancūziškai. Vadinasi, atpažįsta, kas pasakyta, ir atsako kita kalba.
Viena prof. L.Telksnio studentė savo seseriai, dėl ligos negalinčiai aiškiai kalbėti, sukūrė tokią programą, kuri padeda susikalbėti. Mašina tarsi vertėja – merginos savaip ištartus žodžius pasako suprantamai.
Mokslininkai dabar planuoja bendradarbiauti su gastroenterologais, kad būtų galima sukurti šios srities lietuvių kalbos atpažintuvus, leisiančius kompiuteriui diktuoti ligos istorijas. Pirmieji pavyzdžiai turėtų pasirodyti po dvejų trejų metų.
Mokykloms žadama jau gana greitai pateikti tokių pavyzdžių, kad moksleiviai galėtų žodžiu sakomomis komandomis žaisti. Pavyzdžiui, atsidaryti interneto svetaines. Arba mokytis kalbų: pasako lietuviškai, o kompiuteris atsako kita kalba.
Nuo Ali Babos
Kompiuteris gerai atpažįsta vieno kalbėtojo šneką ir jam gali būti ne tas pats, kas kalba. Jis gali neatpažinti. Kartais gerai, kai kompiuteris neatpažįsta kito žmogaus, tai veikia tarsi balso raktas, tačiau jau yra sukurta programinė įranga, kuri padeda kompiuteriui atpažinti kelis kalbėtojus.
„Mes dabar kalbame lyg ir apie didelę naujieną, bet juk „1000 ir vienos nakties” pasakoje „Ali Baba ir 40 plėšikų” jau seniai atidarinėjo duris sakydami: „Sezamai, atsiverk.” Atpažinimas buvo!” – juokėsi pašnekovas.
Akademikas L.Telksnys yra šešių išradimų autorius. Jis sukūrė originalią teoriją ir konstruktyvius metodus atsitiktinių procesų savybių staigių ir lėtų pasikeitimų atpažinimui. Būtent ta teorija ir buvo vienas iš teorinių pagrindų, naudojamų atpažinimui.
„Tada mašinos netraukė, – prisiminė mokslininkas. – Atpažinimo darbams reikia galingų mašinų. Šiais klausimais pradėjau domėtis nuo neatmenamų laikų. Esame sukonstravę rašto ženklų atpažinimo mašiną. Ir ji buvo ne tik sukurta, bet ir išleista visa serija tokių mašinų. Tais laikais technologijos buvo labai silpnos, tad ta mašina buvo maždaug kaip trys spintos. Nepaisant to, tai buvo pirmas gaminys Europoje. 1964 metais Leipcigo mugėje gavome aukso medalį. Vokiečiai pasiūlė kartu su jais pradėti gaminti atpažinimo automatus. Buvo sukurtas naujas atpažintuvo modelis ir sutarta taip – vokiečiai gamins mechaniką, o Lietuvoje bus „daromas protas”, bet staiga Maskva viską nutraukė. Vokiečiai net buvo spėję gamyklą pastatyti, įvykdyti tarptautiniai bandymai, viskas buvo patikrinta ir veikė. Vėliau vokiečių mokslininkai klausė: „Kas jūs per valstybė?!” (anais laikais – Sovietų Sąjunga), jie net nesuprato, kaip šitaip galima daryti. O dabar tie rašto atpažintuvai jau yra programinė įranga, telpanti į kompiuterį.”
Iš garso – apie laivus
Prof. L.Telksnio išradimai yra susiję ir su kitomis sritimis. Sovietiniais metais mokslininkai atpažindavo povandeninius laivus pagal garsą. Radiolokatoriai jų nefiksuoja, nes po vandeniu nesklinda elektromagnetinės bangos, todėl, pasak pašnekovo, tik pagal garsą galima nustatyti, kur yra povandeninis laivas. Dar reikia žinoti, kieno jis. Laivui plaukiant jo sraigtai sukelia vandenyje sūkurius, o jų daromi burbuliukai – garsą. Įrašius tą garsą galima nustatyti net laivo tipą.
„Sudėtinga, tačiau truputį paprasčiau nei šneka, – pripažino mokslininkas. – Kai kalbame, tiek pasikeitimų būna! Pavyzdžiui, vien tariant „laba diena”: l, a, b, a… – vis nauji dalykai. O kai laivas plaukia, mažai kas kinta. Tokie procesai, kurie laikui bėgant teoriškai visai nekinta, praktiškai – mažai, vadinami stacionarūs. Tuo požiūriu truputį lengviau. Kitas dalykas – surinkti medžiagą. Primėto į jūrą bujų – tokių rutulių, kuriuose sumontuota labai gudri elektronika. Ji tuos garsus, kuriuos skleidžia povandeninis laivas, priima ir užrašo. Gaudavome tik garso įrašą, jokios papildomos informacijos. Tokius darbus pasaulyje darė rimčiausi centrai, ir mes nebuvome iš žiopliųjų.”
Apie rimtą informatikų ir kardiologų darbą liudija mokslinis leidinys „Širdies ritmo autonominis reguliavimas”, bendradarbiavimą su Vilniaus Gedimino technikos universiteto pastatų akustikos tyrėjų grupe – Vytauto Jono Stauskio knyga „Muzikos salių akustika”.
Teorija – sausa šaka
„Mano teoriniai darbai ir buvo susiję su tuo, kaip atskirti, kai koks nors procesas vyksta, kada jo savybės buvo vienokios, kada – kitokios. Bet teorija, kaip sakė mūsų mylimas Mefistas „Fauste”, yra sausa šaka, – juokėsi prof. L.Telksnys. – Šnekai atpažinti vien teorijos neužtenka, reikia turėti, kaip sakiau, šnekos pavyzdžių. Jie, fonemizuoti, sudėti į kompiuterio atmintį, jau ir yra pažinimo medžio elementai.”
Atpažinimo procesų skyrių, kaip pripažino pašnekovas, domina būtent tokios teorijos, kurias galima „įdėti į kompiuterį”, nes tik taip gali gauti kokios nors praktinės naudos. Kadangi visi virpesiai, ar jie yra povandeninio laivo, ar širdies ritmo, ar pastatų akustikos, ar mūsų šnekos, teoriniu požiūriu vis tiek yra virpesiai, tai kai kurie principai gali būti panaudoti ir vienoje, ir kitoje srityje. Svarbiausia – visada reikia įsigilinti į reiškinį, kurį analizuoji, antraip ir teorija, ir programos bus perniek.