Ahol a magyar nyelv nagynak számít: így zajlik a fordítóprogramok forradalma

8 perc

2024.07.07. 11:00

2024.07.07. 12:10

Mennyivel lettek jobbak a fordítóprogramok a mesterséges intelligencia ugrásszerű fejlődése nyomán? A változások valóban forradalmiak, de csak néhány nagy nyelv profitál belőlük, sok ezer kicsit az eltűnés fenyeget. A magyar ebből a szempontból a nagyok közé tartozik.

„A medve lejött a hegyről. Ott volt egy út, és átment rajta.” Vagy: „A medve lejött a hegyről. Ott volt egy úthenger, és átment rajta.” Az efféle, egymástól alig különböző mondatokkal a régebbi gépi tanulású nyelvi modellekre épülő fordítóprogramok nemigen tudtak mit kezdeni (pontosan ki ment át kin vagy min?). A legújabb verzióknak viszont már nem okoz gondot, hogy érzékeljék, miként „öröklődik” az előző mondatból az egyes szám harmadik személy, és kire vonatkozik a névmás – hívta fel a figyelmet néhány hete a Magyar Tudományos Akadémia közgyűlésén tartott előadásában Prószéky Gábor matematikus-nyelvész, a Nyelvtudományi Kutatóközpont főigazgatója.

A nagy nyelvi modellekre (angol terminológiával: Large Language Model, LLM) épülő fordítóprogramoknak nem csak ez a képességük újdonság. Szakértők szerint az utóbbi 2–3 évben valóban forradalmi változások zajlottak le a gépi nyelvértés és fordítás területén. A különbség különösen a korábbi, nagyjából 70 éve tartó próbálkozásokkal összevetve válik nyilvánvalóvá.

Eleinte, évtizedeken át, a nyelvészek megpróbálták a számítógép számára értelmezhető formában betáplálni a nyelvtani szabályokat, de kiderült, hogy ez bizonyos szint felett áttekinthetetlenné válik, ráadásul kevéssé életszerű eredményekre vezet. Különösen a többértelműséggel nem tudtak mit kezdeni a szabályalapú fordítógépek. Az 1990-es évektől kezdtek statisztikai nyelvészeti módszerekre áttérni, és adtak nagy mennyiségű, emberek által fordított szöveghalmazt a komputereknek, hogy azt használják fordításhoz, ami a gyakorisága alapján valószínűbb. Ezzel már könnyebb volt felismerni szókapcsolatokat vagy mondatrészeket, de a szövegkörnyezetet ez a rendszer sem tudta figyelembe venni, a nagyobb szövegadatbázisokból ellentmondásos eredmények jöttek ki, továbbá nem tudott mit kezdeni a nagyon ritka szószerkezetekkel és a nagyon hosszú mondatokkal – magyarázta Prószéky Gábor.