Zpravodajský server Romea.cz. Vše o Romech na jednom místě

Zpravodajský server Romea.cz. Vše o Romech na jednom místě

Komentáře

Viktor Elšík: Romština v překladači společnosti Google, současný stav a výhledy

01. července 2024
Čtení na 8 minut
Překladač od společnosti Google nabízí možnost překladů do romštiny a z romštiny (FOTO: Zdeněk Ryšavý)
Překladač od společnosti Google nabízí možnost překladů do romštiny a z romštiny (FOTO: Zdeněk Ryšavý)
Před pár dny oznámila firma Google na svém blogu, že rozšířila jazykovou paletu svého překladače Google Translate o dalších 110 jazyků. Jedním z nich je i tradiční jazyk Romů.

Romština patří počtem mluvčích, možná nečekaně, mezi tři procenta největších jazyků. Zároveň je to však jazyk marginalizované menšiny, jejíž jazyková práva jsou málokde naplňována – kdo pochybuje, ať si odpoví na otázku, kolik dětí vyrůstajících v romštině má možnost aspoň první stupeň základní školy absolvovat ve svém rodném jazyce – a která ho mnohde pod tlakem rozličných sociálních faktorů ztrácí nebo už v minulosti ztratila. Tento poměrně velký, avšak ohrožený jazyk tak bude konečně důstojně reprezentován ve virtuálním veřejném prostoru. Symbolickou hodnotu toho, že romštinu najdeme v nabídce jednoho z nejpoužívanějších překladačů, lze těžko přecenit. Není proto divu, že mezi mými romskými a romistickými přáteli z Česka a ze Slovenska zpočátku z této novinky převládalo nadšení. Ti, kteří si překladač vyzkoušeli podrobněji, však začínají vyjadřovat pochyby o kvalitě jeho překladů.

Musím jim dát za pravdu. V současné chvíli jsou googlovské překlady do romštiny pro české a slovenské Romy a další zájemce o „naši“ romštinu užitečné jen velmi omezeně, a překlady z „naší“ romštiny do češtiny a dalších jazyků bych se dokonce nezdráhal charakterizovat jako převážně zoufalé. Jednoduchou větu s významem „mám psa“, která v různých varietách české a slovenské romštiny může mít například podoby hin man rikono, hin man rukono, si ma žukel nebo hi man džukel překladač do češtiny přeloží jako „kdo je bohatý“, „kdo bude kupovat“, „mám chuť“ a nesmyslné „ahoj chlape jukele“. Jak je tohle možné, když třeba pro překlady z češtiny do větších jazyků (a naopak) funguje překladač docela slušně?

Pro odpověď na tuto otázku je potřeba si připomenout základní metodologii překladače Google Translate. Jeho překlady, tak jako překlady většiny dnešních online překladačů, nejsou založeny na předem daném popisu slovní zásoby a gramatických pravidel překládaného jazyka, nýbrž vycházejí z rozsáhlého korpusu textů, včetně bilingvních, na kterých je model trénován. Je proto zásadní, jaké množství textových dat a z jakých zdrojů má překladač pro daný jazyk k dispozici. Z kvantity a výběru romských textů, na kterých se překladač zaučoval, se odvíjí kvalita a adekvátnost jeho překladů.

Lingvističtí konzultanti firmy Google jsou si dobře vědomi nářeční variace v rámci jazyků, a romština je ve zmíněném blogu dokonce uvedena jako její význačný příklad. Dozvídáme se, že překladač byl trénován převážně na textech v tzv. jihovlašské romštině (tou mluví značná část Romů především v zemích bývalé Jugoslávie a jinde na Balkáně a je podle Googlu na internetu nejběžněji používaná), ale i na textech z některých dalších nářečních skupin romštiny. Mezi explicitně zmíněnými však nefiguruje tzv. centrální romština, kterou mluví většina mluvčích romštiny v Česku a na Slovensku. V tomto kontextu je potřeba si připomenout, že romské dialekty jsou nejen ve své slovní zásobě skutečně velmi odlišné a nelze o nich uvažovat jen jako o jakýchsi odchylkách od standardní, spisovné variety, tak jak to někdy činíme třeba u češtiny. Nic takového jako jednotná spisovná romština čili panromský standard totiž neexistuje. Postupně vznikající regionální romské standardy jsou založeny právě na různých dialektech romštiny. Romistka Milena Hübschmannová v této souvislosti mluvila o polycentrickém modelu standardizace.

Důsledkem toho, že překladač využívá data z několika romských dialektů, je značná lexikální variabilita jeho překladů. Zadáte-li k překladu do romštiny slovo „voják“ v základním tvaru, nabídne vám překladač podobu xelavdo (původně tajné slovo znamenající „opláchlý, vymydlený“), kterou používají mimo jiné autoři některých hesel romské wikipedie. Chcete-li však do romštiny přeložit množné číslo „vojáci“, získáte ketani, což je tvar přejímky ze starší rumunštiny (cătană), charakteristické pro vlašské dialekty. Překlad předložkové konstrukce „s vojákem“ pak zní e soldatosa a obsahuje podobu slova soldato, což je zas přejímka z moderní rumunštiny či nářeční srbochorvatštiny. Googlovské překlady do romštiny jsou, obecně řečeno, nářečně nedůsledné a narazíme i na větné překlady obsahující prvky z několika různých romských dialektů, prvky, které by spolu v žádné reálné, nepřekladové romštině nemohly koexistovat.

Pojďme se podívat i na opačný směr překladu jednotlivých slov, tj. z romštiny do češtiny. Výrazy pro vojáka běžné v „našich“ romštinách překladač vůbec nezná: východoslovenské slugaďis nebo slugadžis překládá jako „služebník“, středoslovenské a jihoslovenské lukesto jako „rychlost“, západoslovenské sasos jako „byl“, lurdo v původní, dnes už zaniklé české romštině jako „hmotnost“ a olašské ketana paradoxně nepřeloží vůbec, tj. zachovává i v češtině podobu ketana. Překladač si moc dobře neporadí ani s mezinářeční hláskovou variabilitou: zatímco vlašskou podobu milaj přeloží správně jako „léto“, podoby ňilaj, linaj a ľinaj, běžné v centrální romštině, překládá jako „s pozdravem“, „čára“ a „snížit“. Není divu: tato špatně přeložená slova se prostě v romských textech, na kterých byl překladač trénován, nevyskytla nebo vyskytla jen velmi řídce.

O překladačích typu Google Translate je známo, že nejméně úspěšné jsou při překladu jednotlivých slov a slovních tvarů mimo širší jazykový kontext. Abych otestoval úspěšnost překladače při překladu o něco delších textových úseků, vybral jsem z našeho dialektologického korpusu centrální romštiny náhodně deset vět ve varietě, kterou hovoří Romové v jedné nejmenované obci nedaleko Prešova, a nechal je Google Translate přeložit. Zde je výsledek:

Vlevo správný překlad zadané romské věty, vpravo překlad strojový

  1. „Všechny jeho děti jsou pokřtěné.“ > „Všechny jeho děti jsou pokřtěny.“
  2. „Chodí do práce pěšky.“ > „Vstupuje do profesionální práce nohou.“
  3. „Tímhle jídlem se nenasytíš.“ > „Černá jídla nezpůsobují hlad.“
  4. „Strom stojí vedle domu.“ > „Proud teče kolem domu.“
  5. „Ten člověk byl dobrý hudebník.“ > „Ten člověk má dobrého řečníka.“
  6. „Na nedělní mši nechodím.“ > „Týden nechodím.“
  7. „Ohněte se pro ty peníze!“ > „Banjo za všechny peníze!“
  8. „To by mohl říct kdokoli.“ > „Oda může říci hociko.“
  9. „Je v poledne někdo doma?“ > „Je někdo doma po dilu?“
  10. „Pohřbili ho a do hrobu mu dali housle.“ > „Změnili ho a dali do něj lavutu.

 

Věty jsou seřazeny zhruba podle úspěšnosti googlovského překladu. Zcela adekvátní překlad má jen věta první. Druhý překlad aspoň vystihuje základní význam překládané věty, byť od uživatele vyžaduje značnou míru stylistické tolerance. Ve zbylých případech si překladač adekvátně poradil s některými částmi vět, celkově ale význam strojově přeložené věty významu původní věty neodpovídá. V sedmé až desáté větě překladač v českém překladu ponechává romské slovo nebo ho překládá jen na základě formální podobnosti (značeno kurzívou), a překlady tak budou lidem, kteří „naši“ romštinu neovládají, jen těžko srozumitelné. Opět, není divu: věty v uvedené varietě romštiny obsahují slova, se kterými se při svém tréningu překladač nejspíš nesetkal.

Je známo, že googlovské překlady mezi relativně menšími jazyky, třeba mezi romštinou a češtinou, jsou zprostředkovávány angličtinou. Potvrzuje se to mimo jiné na příkladě výše uvedené romské věty hi man džukel „mám psa“. S jejím překladem do angličtiny si překladač neví rady, a tak ji ponechává bez překladu, jen v grafemicky odlišné podobě hi man jukel. V následném překladu do češtiny je „anglické“ hi man přeloženo jako ahoj chlape a „anglické“ jukel identifikováno jako oslovení a přeloženo „českým“ vokativním tvarem jukele neexistujícího slova jukel. Na roli prostředkující angličtiny narazíme i při překladech opačného směru: české „děkuju ti“ i „děkuju vám“ je do (vlašské) romštiny přeloženo jako nais tuqe, což je ale formule, kterou nelze použít, děkujeme-li více lidem; tuqe, u nás běžně psáno tuke, totiž znamená „tobě“, nikoli „vám“. Důvod je zřejmý: anglické you rozdíl v čísle nevyjadřuje, a tak se distinkce, kterou mají jak čeština, tak romština, mezipřekladem ztratí.

Ve světle nářeční nedůslednosti romských dat v Google Translate zůstává jen okrajovým problémem nedůslednost jejich zápisu. (Překladač pracuje pouze s texty v latince, ačkoli mnoho romštin je běžně zapisováno cyrilicí a zřídka i dalšími písmy.) Zatímco romský překlad české věty „chci jít do města“, kamav te ʒav anθ-o foro, je zapsán exotizující a zavrženíhodnou grafemikou, kterou koncem 20. století vytvořil francouzský romista Marcel Courthiade a jež je už dnes běžněji užívána jen v Rumunsku, překlad záporné věty „nechci jít do města“, chi kamav te zhav ando foro, obsahuje angličtinou inspirované grafémy ch = č a zh = ž, které se zas používají především při oficiálním zápisu vlašských dialektů v Maďarsku.

Co tedy překladač Google Translate mluvčím „našich“ romštin a těm, kdo se je učí, nabízí a co od něho můžeme očekávat do budoucna?

To, že do googlovského romského korpusu nebylo dosud zařazeno větší množství textů v kterémkoli dialektu české a slovenské romštiny, znamená, že překladač se hodí spíše pro nahodilé, nesystematické seznamování se se slovní zásobou a gramatickou strukturou některých dalších, dialektologicky převážně vlašských a geograficky převážně balkánských dialektů romštiny. (Systematické poznání variability romštiny překladač nenabízí, to lze získat pouze studiem romských dialektů z mnoha existujících slovníků a gramatik anebo samozřejmě přímo od jejich mluvčích.) Nejpodstatnější závěr z výše uvedeného je tento: v českém a slovenském kontextu by bylo více než pošetilé chtít překladač užívat při výuce, samostudiu, nebo pro úřední a jiné překlady.

Značná chybovost při překladech z „našich“ dialektů romštiny do češtiny a dalších jazyků může být časem poměrně snadno odstraněna tím, že bude googlovský romský korpus rozšířen o množství textů i v těchto dialektech. Takovéto datové obohacení však samo o sobě nemůže přispět k didaktickému či jinému využití překladače u překladů z češtiny či slovenštiny do romštin, kterými se mluví u nás. Vzhledem k tomu, že texty v různých dialektech romštiny nejsou v googlovském korpusu rozlišeny, bude překladač nabízet nejfrekventovanější varianty slov a konstrukcí, a překlady tak budou nadále nářečně hybridní, a v regionálním českém a slovenském kontextu tedy prakticky téměř nevyužitelné.

Lexikální i gramatická různorodost romských dialektů zhruba odpovídá různorodosti slovanských jazyků. Představme si proto analogickou hypotetickou situaci: Někdo, kdo se bude chtít naučit česky nebo si do češtiny přeložit životopis, si v Google Translate vyhledá „slovanštinu“, protože přímo češtinu překladač nabízet nebude, zadá větu třeba v angličtině a získá překlad obsahující tři slova ruská, dvě polská nebo ukrajinská a možná po jednom srbochorvatském, bulharském či českém.

Jediným praktickým řešením tohoto problému by bylo rozdělení romského korpusu do menších částí, totiž subkorpusů jednotlivých romských dialektů, a tedy vlastně rozdělení romštiny – pro účely překladu – do několika jazyků. Vzhledem k obrovské různorodosti variet romštiny není vůbec absurdní uvažovat o romštině nikoli jako o jediném, nářečně silně diferencovaném jazyce, ale jako o skupině tuctu či více blízce příbuzných jazyků (tak romštinu koncipuje třeba skvělý katalog jazyků světa Glottolog). To už jsou ale otázky, které mají nejen lingvistický, ale i podstatný kulturní rozměr a vyžadují nesnadná politická rozhodnutí, ideálně ze strany romských elit.

Pokud naopak googlovský romský korpus zůstane v budoucnu celistvý, nelze podceňovat ani standardizační potenciál jeho nářečně hybridních překladů. Ty mohou u uživatelů překladače vytvářet představu o tom, jak vypadá „mezinárodní“ romština, o jejíž nápodobu se pak mohou v globálnějších kontextech, třeba při transnacionální online komunikaci v romštině, snažit. I z tohoto důvodu by bylo pro mluvčí „naší“ romštiny příznivé, aby se texty v českých a slovenských dialektech romštiny součástí googlovského korpusu staly a podobu potenciálního online standardu modulovaly.

Na závěr ještě jedna poznámka. V úvodu článku jsem zmínil, že čeští a slovenští Romové zařazení romštiny mezi jazyky dostupné v Google Translate převážně vítají. Ozývají se však i hlasy opačné, hlavně od zahraničních Romů některých vlašských skupin. Podle nich – tak se například vyjadřuje rumunský romský vlogger Florian – by romština měla zůstat jazykem, který je Neromům nesrozumitelný, a obávají se, že tato kryptická funkce romštiny je existencí překladače ohrožena. Zaznamenal jsem dokonce i výzvu jednoho argentinského romského lingvisty, aby mluvčí romštinu přestali na sociálních sítích používat zcela, a neposkytovali tak data k dalšímu trénování překladačů. (Sintové, jejichž dialekt romštiny je členy komunity všeobecně a přísně chápán jako tajný jazyk, můžou zůstat klidní: překladač si se sintštinou vůbec neporadí, protože googlovský korpus žádné významné množství sintských textů neobsahuje.)

Pomozte nám šířit pravdivé zpravodajsví o Romech
Teď populární icon