Konačno stiže aplikacija koja glas pretvara u tekst: Na listu čekanja korisnika već se upisao Hrvatski sabor, bit će korisna i mnogim drugima

Riječ je o prvom specijaliziranom računalnom programu koji u realnom vremenu pretvara glas u tekst. Princip je jednostavan – korisnik uz pomoć mikrofona diktira na računalo, a izgovorena riječ automatski se pretvara u tekst. Program je razvila tvrtka Newton Technologies Adria, zagrebačka podružnica u vlasništvu Newton Media grupe iz Praga, kojoj je na čelu Marko Poljak, piše Globus.

Novinar ste, snimili ste intervju ili neku ekskluzivnu reportažu s nizom sugovornika i jedva čekate da je vidite na stranicama novina? Sjajno, ali ono što slijedi – višesatno “skidanje”, odnosno pretipkavanje snimljenog materijala – malo tko će svrstati u omiljeni posao. Gotovo da i nema novinara koji nije poželio da snimljeni materijal odmah ugleda na ekranu svog kompjutera. No, takvim problemima mogao bi biti kraj. Naime, novinari, liječnici odvjetnici, suci, ali i svi oni koji sate i sate troše na pisanje nalaza, presuda, sređivanja dokumentacije ili transkripte sastanaka i sjednica, mogli bi doskočiti ovom problemu zahvaljujući aplikaciji Newton Dictate. Riječ je o prvom specijaliziranom računalnom programu koji u realnom vremenu pretvara glas u tekst na hrvatskom jeziku. Princip je jednostavan – korisnik uz pomoć mikrofona diktira na računalo, a izgovorena riječ automatski se pretvara u tekst. S obzirom na to da je diktiranje znatno brže od tipkanja, ne treba isticati koliko se uz pomoć ovog programa može uštedjeti na vremenu.

Program Newton Dictate, koji je već neko vrijeme u primjeni, razvila je tvrtka Newton Technologies Adria, zagrebačka podružnica u vlasništvu Newton Media grupe iz Praga, inače druge najveće europske grupacije za praćenje medija i evaluacije komunikacije.

Diktiranje

Ovaj program koji omogućuje značajnu uštedu vremena i resursa trenutačno je dostupan na devet jezika, a u cijeloj regiji ima više od 7000 korisnika. U Hrvatskoj se njime za sada, kaže Marko Poljak, direktor Newton Technologies Adrije i član Uprave Presscuta, koristi stotinjak klijenata, a jedan od njih uskoro će postati i Hrvatski sabor.

“Našim programom korisnicima se omogućuje brže obavljanje radnih zadataka, a može biti od velike pomoći posebno u sektorima zdravstva, odvjetništva i novinarstva. Također je koristan osiguravajućim kućama, kad je, primjerice, čovjek na terenu i procjenjuje štetu. Umjesto da sve zapisuje, a poslije sređuje dokument i prepisuje ga, jednostavno može samo izdiktirati te tako ubrzati cijeli proces. Osim toga, program je primjenjiv i osobama s invaliditetom jer se može pokrenuti bez dodira”, pojašnjava Poljak.

Za sada Newton Dictate koristi dio zdravstvenih ustanova, poput KBC-a Zagreb i njihova odjela radiologije gdje je već duže vrijeme u stalnoj primjeni.

Pilot-projekt

“Uz pomoć našeg sustava liječnici koji sami pišu nalaze odrade oko 80 posto nalaza i sve je puno brže. Smisao je da se ubrza izrada nalaza. Liječnici na taj način ne gube vrijeme na pretipkavanje nalaza i mogu se više posvetiti pacijentima, a smanjuje se i broj mogućih grešaka ako nalaze pretipkava netko drugi. Na odjelima radiologije jako su zadovoljni programom, pa sada imamo zahtjeve njihovih kolega s ostalih odjela, primjerice za internu, citologiju, endoskopiju, patologiju… Za sljedeću godinu ekipa za medicinu, koju vodi Maša Martinić, priprema desetak pilot-programa iz zdravstvenog sustava, a imamo i nekoliko projekata za call centre koji su sada u fazi prilagodbe. Započeli smo suradnju i s Medicinskim fakultetom, a program koriste i na HRT-u za obradu arhive”, kaže Poljak o ovoj aplikaciji na koju se u Hrvatskoj dugo čekalo iako je u svijetu sličan sustav već godinama u upotrebi. Poljak kaže kako je glavni problem bio u tome što s jedne strane ljudi kod nas pružaju otpor kad su u pitanju noviteti, a s druge strane razlog je bio što niti jedna tvrtka iz inozemstva nije htjela razvijati takav alat za naše područje jer im to nije bilo isplativo.

“Razvoj jednog takvog sustava vrlo je skup. Izrada akustičnog modela u koji je uključen jako velik broj ljudi traje šest do osam mjeseci, a izrada svakog rječnika i njegovo ažuriranje traje dva do tri mjeseca. Mi smo se upustili u to jer ionako već godinama razvijamo i koristimo sustave transkripcije govora u tvrtkama unutar naše Grupe. Naša grupacija Newton Media ima ukupno 26 tvrtki, a samo u Hrvatskoj ih je šest. Tako da je to za nas bio uhodan proces”, govori Poljak. Kaže kako je sve počelo još negdje 2006. godine.

“Kolega Dražen Slabinac, koji radi s nama, u to je vrijeme napravio sustav za transkripciju govora – Krospik. U jednoj verziji to je bio program za smartphone koji je omogućavao da se glasovnom naredbom pokrene aplikacija za slanje i diktiranje SMS poruka. Bilo je to nešto potpuno novo u Hrvatskoj, pa je 2007. Krospik osvojio treću nagradu – Brončano Teslino jaje. No, Krospik je radio sa 70-ak posto točnosti i bio vrhunski alat za naše potrebe praćenja medija u Presscutu, budući da transkribirani tekst prolazi kroz napredne sustave obrade prirodnog jezika. I to možda zvuči solidno, no toliki postotak točnosti nekog teksta znači da kao pojedinac nikada ne bi koristili taj sustav. Potom smo na osnovi Krospika s partnerima u Češkoj napravili sličnu priču, ali s tehnologijom neuronskih mreža. Točnost je sada oko 95 posto, pa i više. Sustav funkcionira puno bolje – ima specijalizirane rječnike i omogućuje personalizaciju. To znači da svatko može dodavati riječi koje nedostaju i tako samostalno obogaćivati rječnik, uz to da samo provjeri je li izgovor koji sugerira pravilan. Jedan od naših klijenata, profesor Ivan Drinković, sam je unio oko 800 kombinacija svojih riječi. Sada govori da bez toga ne bi mogao raditi”, ispričao je direktor Newton Technologies Adrije.

Za sada je razvijeno nekoliko specijaliziranih rječnika – radiološki koji je, kažu u Newtonu, već na 17. verziji i jako je precizan, a tu su još opći rječnik, opći medicinski, pravni za odvjetništvo i sudstvo te rječnik za parlament. Svaki od tih rječnika, a posebno opći, kontinuirano se, svaka dva do tri mjeseca, dorađuje i obogaćuje novim verzijama. Ti rječnici koji koriste stotine tisuća riječi razvijeni su na temelju neuronskih mreža, a program prati kontekst izgovorenog i ima mogućnost da se sam ispravi. Što je rječnik bolji, veća je i točnost transkripcije koja iznosi i do 98 posto.

“Rječnik specijaliziramo da prilagodimo kontekst svakom pojedinom korisniku odnosno instituciji”, pojašnjava Poljak, dodajući kako im je u planu razvijanje i drugih rječnika. Osim toga, ne planiraju se zadržati samo na hrvatskom jeziku, već razvijaju regionalne slavenske jezike. Ovih dana u Newtonu su priveli kraju i posao za Hrvatski sabor.

“Razvili smo sustav za Sabor sa specijaliziranim rječnikom, čime smo povećali točnost transkripcije, a sada treba vidjeti hoće li medijima i javnosti biti dovoljno dobro ono što dobivaju u realnom vremenu do službenog fonograma, dakle je li im za početak dovoljna ta brža, instantna transkripcija. Problem je sa sjednicama Sabora u tome što više zastupnika govori istovremeno, pa može doći do pogreške, odnosno da ono što izađe van prije službenog dokumenta ne bude sasvim precizno. No, trudimo se obaviti što bolji posao, ekipa iz Sabora s kojom surađujemo odlična je i za sada je to sve još u volonterskoj fazi”, pojašnjava Poljak te ističe kako točnost sustava dobrim dijelom definira sam korisnik.

Newton Dictate, kažu u Newtonu, mogu koristiti i klijenti s vrlo malo računalnog znanja. Program sprema datoteku tako da je zvuk povezan s tekstom, pa je pretraživanje arhive vrlo lagano. Datoteke su uz to obilježene dodatnim informacijama poput imena autora i trajanja, a datoteke se mogu slati i mailom ili se direktno spremati na mrežni folder.

Što im je bilo najteže u razvijanju ovog programa? Poljak kaže kako nisu imali poteškoća u samom razvoju, ali da je problem bilo tržište. “Kad potencijalnim klijentima u Sloveniji spomenemo program, jedno od njihovih prvih pitanja jest koja je cijena i jesmo li jeftiniji od konkurencije. A kod nas je sam program mnogima prava nepoznanica. Uglavnom ne znaju o čemu je točno riječ, što im sve to može donijeti i koje su prednosti”, komentira Poljak. A kad je o cijenama riječ, jedan takav sustav u Sloveniji stoji između 6000 i 10.000 eura po korisniku, dok je ta cijena u Hrvatskoj bitno niža. “U Hrvatskoj je cijena po korisniku višestruko niža, a ako ih je više, dogovara se još prihvatljivija cijena. Unutar te cijene dobije se softver i mikrofon. Zapravo se vrlo brzo prikaže povrat te investicije”, govori Poljak kojemu, kao i njegovu timu, sama prodaja nije omiljeni dio posla.

Širenje na regiju

Više se, kaže, vole baviti razvojem. Uostalom, dodaje, većinu posla obavljaju kroz partnerstva. “U cijeloj Newton Media grupi ima nas oko 500 i izuzetno njegujemo inicijative bazirane na inovaciji, kao što su vlastiti alati za praćenje društvenih mreža i automatsku tematsku klasifikaciju baziranu na umjetnoj inteligenciji. Zagrebačku podružnicu tehnologija širimo i već nas je petero, ali za prezentacije imamo partnere. U Sloveniji trenutačno dogovaramo dva partnera, dok smo u Srbiji dogovorili ekskluzivnu distribuciju. Radimo na taj način jer je naš sustav lako prezentirati i pokazati kako on funkcionira. Osim toga, nismo nikome konkurencija jer to nitko ne radi. Tako da nam odgovara taj model s partnerima jer nama ostaje vremena za bavljenje onim što želimo – osmišljavanjem novih stvari. Mi smo, zapravo, suprotni brojnim startupima koji se žele globalno širiti jer se kod nas ide na specijalizaciju. Radimo i nadamo se da će stvari koje smo razvili zaživjeti i početi jedni s drugima korelirati. Mi želimo jednu stabilnu stvar – koja ima mogućnost horizontalnog širenja na zemlje regije i vertikalnog širenja na specijalizaciju po rječnicima. Zašto ne bismo imali nešto preciznije od jednog Googlea ako oni to ikada budu počeli razvijati”, zaključio je direktor Newton Technologies Adrije, piše Globus.

Facebook Komentari