Umjetna inteligencija bez problema prevodi 5000 godina staro pismo i jezik

Umjetna inteligencija bez problema prevodi 5000 godina staro pismo i jezik
Louvre Obélisque de Manishtusu, primjer drevnog akadskog pisma

Multidisciplinarni tim arheologa i računalnih znanstvenika razvio je umjetnu inteligenciju koja može gotovo trenutno prevesti drevni akadski jezik i otključati povijesne zapise sačuvane na ovim pločicama starim 5000 godina

Akadski je bio materinji jezik Akadskog Carstva, koje je nastalo oko 2300. godine prije Krista osvajanjima njegovog osnivača, Sargona Velikog. Kao govorni jezik, akadski će se s vremenom podijeliti na asirski i babilonski dijalekt prije nego što ga je potpuno potisnuo aramejski u ranom prvom tisućljeću pr. Kr.

Danas je to doista izumrli jezik, bez jezika koji bi prenio njegovo nasljeđe

Međutim, kao pisani jezik, akadski se pokazao trajnijim. Carstvo je posudilo klinasto pismo svoje prethodnice, sumerske civilizacije. Ovaj sustav pisanja koristio je iglu od trske za utiskivanje glifa u obliku klina u vlažne glinene pločice prije pečenja (otuda naziv klinasto pismo). Čak i nakon što je aramejski istisnuo akadski kao uobičajeni jezik u regiji, znanstvenici su nastavili pisati akadskim klinastim pismom u prvom stoljeću nove ere, čak su iu antici, čini se, akademski znanstvenici bili nevjerojatno tvrdoglavi.

Ovaj tradicionalni način razmišljanja također je imao nenamjernu korist za moderne arheologe. Dok se klinastim pismom moglo pisati na papirusu, češće se pisalo na glini ili kamenu. Ovi materijali podnose požare i poplave mnogo bolje od drugih materijala.

Ironično, razorni požari sačuvali su neke od najvećih knjižnica drevne Mezopotamije, jer su bile napravljene od gline. Nasuprot tome, sve knjižnice papirusa u starom Egiptu izgorjele su ili se raspale u prah, iako su mnogi pojedinačni kodeksi preživjeli”, piše lingvist Steven Roger Fischer u Povijesti pisanja.

Čak i uz takvo jezično bogatstvo, ispravno prevođenje ovih drevnih tekstova nije mala stvar. Osim već navedenih izazova, akadski jezik je polivalentan. To jest, njegovi klinasti znakovi mogu imati nekoliko različitih čitanja, ovisno o tome kako svaki funkcionira u rečenici.

Mnogo je razloga za ovakav razvoj događaja, ali prema Fischeru, jedan od razloga koji Akađanci nikad nisu pojednostavili je taj što se “činilo da su vezani tradicijom i samonametnutom učinkovitošću”. Ovaj tradicionalni način razmišljanja naveo ih je da nastave koristiti sumersko pismo za jezik koji se jako razlikuje od sumerskog.

Prevođenje akadskog je proces u dva koraka

Kao takav, prevođenje akadskog je proces u dva koraka. Prvo, znanstvenici moraju transliterirati klinaste znakove. To jest, oni uzimaju klinasto pismo i transkribiraju ga koristeći sličnu fonetiku ciljanog jezika. Znanstvenici zatim uzimaju svoju transliteraciju teksta i prevode ga na moderan jezik.

To može biti dug i naporan proces, za koji su potrebne godine treninga i predanosti kako biste naučili raditi dobro. Kako bi ubrzao stvari, istraživački tim razvio je model neuralnog strojnog prevođenja za akadski klinasti zapis, istu tehnologiju koju koristi Google Translate.

Tim je trenirao AI model na uzorku klinastih tekstova iz Open Richly Annotated Cuneiform Corpus i naučio ga da prevodi na dva različita načina. Prvo, AI model naučio je prevoditi akadski iz transliteracije izvornih tekstova. Također je naučio kako izravno prevoditi klinaste simbole. Točnije, preveo je u Unicode glifove klinastog pisma koje je generirao drugi alat za uštedu vremena koji automatski proizvodi Unicode iz originalne slike ploče.

Model umjetne inteligencije tada je morao otkriti kako se nositi s nijansama različitih žanrova uzoraka, na primjer, razlika između književnih djela i administrativnih pisama, kao i kako se nositi s promjenama pronađenim u klinastom pismu tijekom tisuća upotreba. AI model je zatim testiran pomoću Bilingual Evaluation Substudy 4 (BLEU4), algoritma koji se koristi za procjenu strojno prevedenog teksta.

Došlo je do iznenađujućeg rezultata

U svom testu transliteracije engleskog, AI model tima postigao je 37,47. Na testu engleskog klinastog pisma dobio je 36,52. Oba su rezultata bila iznad ciljane osnovne vrijednosti iu rasponu visokokvalitetnog prijevoda. I došlo je do iznenađujućeg rezultata: model je uspio reproducirati nijanse žanra svake ispitne rečenice. Iako to nije bio jedan od ciljeva istraživača, u studiji napominju da bi to moglo otvoriti mogućnosti za korištenje izvan prijevoda.

U gotovo svakom slučaju, bez obzira je li [prijevod] točan ili ne, žanr je prepoznatljiv”, piše tim. “Scenarij budućnosti koji obećava bio bi da [model] korisniku pokaže popis izvora na kojima su temeljili svoje prijevode, što bi također bilo posebno korisno za znanstvene svrhe.”

Tim je svoje rezultate objavio u recenziranom časopisu PNAS Nexus. Također su objavili svoje istraživanje i izvorni kod na GitHubu u Akkademiji.

Budućnost prošlosti izgleda svjetlije

Koliko god početni rezultati bili obećavajući, još uvijek ima posla. U oba slučaja neke od testnih rečenica bile su netočno prevedene. Kao i drugi AI modeli, i ovaj je sklon halucinacijama, trenucima u kojima odgovor nema veze s izvorom.

U jednom slučaju, ljudski prevoditelj proizveo je rečenicu “Zašto bismo (također) vodili parnicu pred čovjekom Libbi-Ali?” AI-jev prijevod je bio “Oni su u centru grada u centru grada.”

Općenito, model umjetne inteligencije najbolje funkcionira pri prevođenju kratkih do srednje dugih rečenica. Također mu bolje ide s više formulacijskim žanrovima, kao što su kraljevski dekreti i administrativni zapisi, nego s književnim žanrovima kao što su mitovi, himne i proročanstva.

S više obuke na većem skupu podataka, napominju istraživači u studiji, cilj im je poboljšati njihovu točnost. S vremenom se nadaju da će njihov AI model moći djelovati kao virtualni pomoćnik znanstvenicima. AI može brzo pružiti sirovi prijevod, dok ga znanstvenik može poboljšati svojim znanjem o povijesnim jezicima, kulturama i ljudima.

Stotine tisuća glinenih pločica s klinastim pismom dokumentiraju političku, društvenu, gospodarsku i znanstvenu povijest drevne Mezopotamije. Međutim, većina tih dokumenata ostaje neprevedena i nedostupna zbog njihovog ogromnog broja i ograničenog broja stručnjaka koji ih mogu čitati“, piše tim u studiji, piše Bigthink.com, prenosi klix.ba.