Strojno prevođenje sve više uzima maha, na internetu postoji mnoštvo stranica na kojima jednostavno možete zalijepiti tekst koji želite prevesti i za nekoliko sekundi imati gotov tekst. Poput Google Translatea za kojeg znaju i vrapci pod krovom. No kada želimo provjeriti pravopis i gramatiku, tada nam u pomoć stiže dobri prijatelj Hašek.
On je prvi hrvatski alat za jezičnu provjeru, s radom je započeo 21. ožujka 1994. godine, a dijete je pokojnog FER-ova profesora Šandora Dembitza.
"Hašek je pohrvaćeni oblik akronima Hascheck, nastalog iz naziva Hrvatski akademski spell checker, koji označava jezgrenu komponentu sustava koji već više od 20 godina u raznim oblicima služi za strojnu pravopisnu provjeru tekstova pisanih hrvatskim jezikom", rekao je onomad profesor Dembitz.
Čitaj više
Microsoft preuzeo emiratsku tvrtku G42 za 1,5 milijardi dolara
Microsoft tom investicijom želi preuzeti vodeću ulogu u području umjetne inteligencije.
22.04.2024
Sam Altman postao milijarder i bez udjela u OpenAI-ju
Prema Bloombergovom indeksu milijardera, Altmanovo bogatstvo procjenjuje se na barem dvije milijarde dolara.
05.03.2024
New York Times tuži OpenAI i Microsoft zbog kršenja autorskih prava
Tužba tvrdi da je OpenAI kopirao milijune Timesovih članaka za obuku UI modela.
28.12.2023
Google tvrdi da je njegov Gemini u većini testova nadmašio ChatGPT
Google je predstavio Gemini koji naziva "najvećim i najmoćnijim modelom umjetne inteligencije".
06.12.2023
Hašek je obradio korpus koji premašuje 10 milijardi pojavnica (najveći ikada obrađeni korpus u Hrvatskoj) te raspolaže s rječničkom bazom s više od dva milijuna različnica, koje sve imaju potvrdu u tekstovima pisanim hrvatskim jezikom.
Zbog toga je i pouzdan, ima više od 600 tisuća korisnika, od privatnih pa sve do novinskih redakcija. Uz to je i iznimno jednostavan za korištenje.
Alat, a ne zamjena
Hašek je obradio 7,45 milijuna tekstova, iza sebe ima 1,74 milijarde obrađenih riječi, tj. u prosjeku 234 riječi po tekstu.
"Ako se to pretvori u radne sate, banalnom okvirnom analizom računamo da je automatskom provjerom pravopisa korisnicima ušteđeno 363 tisuće dana, tj. ukupno gotovo 1700 radnih godina, ako kao parametre uzmemo 20 kartica teksta na dan i osmosatno radno vrijeme", rekao je za Bloomberg Adriju profesor Gordan Gledec s FER-a.
Ipak, lektori mogu biti sigurni, smatraju na FER-u, to je samo alat koji nikako ne može zamijeniti čovjeka. "Nije realno očekivati da će Hašek biti 100 posto točan. Osmišljen je kao usluga za predlektoriranje, da bi se uređivaču teksta olakšao i skratio najnekreativniji, a zamorni dio posla", objašnjavaju.
Kada uspoređujemo Hašek sa spell checkerima velikih jezika, prvenstveno engleskim , treba voditi računa kako je engleski tvorbeno jednostavniji. "Hrvatski je jezik složen, riječi inflektiraju u velikom broju oblika. Uz to, njime se u inženjerskom smislu bavi mali broj ljudi koji slabo međusobno komuniciraju i razmjenjuju ideje", smatra Gledec.
U pozadini usluge djeluje stručni sustav koji uči nove riječi iz tekstova pristiglih na obradu. Radi očuvanja visoke čistoće rječničke baze učenje je nadgledano, što predstavlja ljudski energetski unos u održavanje i poboljšavanje usluge. Rečeni unos držimo razlogom zašto usluga ima dugogodišnji eksponencijalni trend porasta opsega prometa s gradijentom od nekoliko postotaka mjesečno.
Nekada mailom, danas aplikacija
Hašek je 1990-ih s korisnicima komunicirao putem elektroničke pošte. Korisnici bi poslali tekst koji su željeli provjeriti, riječi su se označavale stupnjem sumnjivosti, a korisnicima su se vraćali popisi nepoznatih riječi, vrlo brzo dopunjeni sa sugestijama za ispravke. Sustav se tako razvijao, baze su rasle, Hašek je iz dotad nepoznatih riječi učio nove te je postao uobičajen akademski alat pri izradi diplomskih i znanstvenih radova, ali i prilikom provjere poslovnih komunikacija.
Tada u priču, sredinom 2003. godine ulazi profesor Gordan Gledec, svjestan kako je vrijeme da se usluga postavi na web. "Brzo i lako, jednog su lipanjskog popodneva Dembitz i Gledec izradili jednostavnu skriptu koja je putem weba provjeravala tekst koji se upisivao u obrazac i označavala greške, a nudila je i analizu PDF-dokumenata i URL-ova", objasnili nam s FER-a. Usluga je dobro funkcionirala, a link na nju počeo se širiti te je broj korisnika rastao.
Hašek ne posustaje, krajem 2023. godine obogaćen je novim funkcionalnostima (npr. ispravljanjem datuma, suvišnih razmaka, pisanjem jedinica i postotaka iza brojeva), a značajno je ubrzana kontekstualna provjera teksta. "Na FER-u kontinuirano pratimo što korisnici žele te se shodno njihovim potrebama i našim mogućnostima sustav i nadograđuje".
Hašek je trenutno besplatan za privatne korisnike i članove akademske zajednice, a profesionalni korisnici moraju sklopiti ugovor. "Ali kako je izostala potpora uobičajena za takav tip usluga, korisnici mogu očekivati određena ograničenja njezina korištenja u budućnosti", poruka je za kraj.