Jakob Elming (CST, KU): Har vi brug for dybere viden om sprog for at lave maskinoversættelse?

Oversættelse fra ét sprog til et andet forudsætter en omfattende viden om flere niveauer af sprog. Det udsagn vil nok de færreste modsætte sig. Inden for det sidste årti har den data-drevne maskinoversættelse imidlertid gjort sit indtog ikke kun i forskningsverdenen men også hos den bredere befolkning gennem Google Translate.

Denne teknologi, der oftest går under navnet statistisk maskinoversættelse (SMT), er i sin mest udbredte form kendetegnet ved stort set ikke at abstrahere væk fra sprogets overflade. Ordformerne "cykel" og "cyklen" har for systemet lige så lidt med hindanden at gøre som "cykel" og "på". Overraskende nok har denne tilgang vist sig at være mere end konkurrencedygtig med systemer der anvender både morfologisk, syntaktisk og semantisk viden, og forsøg hvor oversættere retter maskinoversættelsen i stedet for selv at oversætte, viser væsentlige tidsbesparelser og højere kvalitet.

Der er dog visse aspekter af oversættelse som virker umulige at håndtere uden dybere sproglig viden. Ud over et indblik i grundlæggende SMT vil jeg præsentere eksperimenter hvor jeg har arbejdet med at forbedre ordstillingen i oversættelsen baseret på syntaktisk viden.