Seminar om sprogteknologi
Abstracts
Statistical dependency-based machine translation within Discontinuous Grammar
Foredraget forklarer hvordan jeg tror at man kan inkorporere syntaks i statistisk maskinoversættelse. Jeg vil fokusere på intuitionerne bag mit forslag, så også oversættelsesforskere, almene lingvister og andre kan få noget ud af foredraget uden nødvendigvis at kende alle tekniske detaljer på forhånd.
I foredraget præsenterer jeg min dependensbaserede syntaksformalisme, Diskontinuert Grammatik, og hvordan man indkoder dependenser, ordstilling og sekundære dependenser. Jeg præsenterer min psykolingvistiske model for hvordan mennesker foretager syntaktisk analyse af en tekst, og for hvordan mennesker sammenligner forskellige analyser mht. deres grammatikalitet og plausibilitet. Jeg skitserer min model for hvordan mennesker repræsenterer oversættelsers lingvistiske struktur, hvordan man kan definere "oversættelsesenheder" i denne model, og giver eksempler på de oversættelsesenheder man kan udtrække af vores parallelle dansk-engelske dependenstræbank (en stor samling af lingvistisk annoterede oversættelser). Til sidst præsenterer jeg min model for hvordan mennesker konstruerer en
oversættelse ud fra en kildetekst.
Emnet i min tale er abstrakte pronominelle anaforer (abstrakte anaforer i det følgende), fx. det i eksemplet nedenfor:
og så prøvede jeg så at gå lidt i svømmehallen og det prøver jeg sådan ind imellem, men jeg hader det
[Samtale med Lægen (Duncker and Herman, 1996)]
Demonstrative pronominer er de mest frekvente abstrakte anaforer på engelsk, mens personlige pronominer oftest bruges til at referere til konkrete entiteter, bl.a. Byron (2002), Gundel et al. (2004). I kognitive modeller af refererende udtryk, bl.a. Givòn (1979), Ariel (1988), signalerer reference med personlige pronominer at referenterne er de mest tilgængelige i modtagerens kognitive tilstand, mens reference med demonstrative pronominer signalerer at referenterne ikke er de allermest tilgængelige. Derfor har man foreslået at abstrakte entiteter har en lavere tilgængelighedsstatus end konkrete entiteter, bl.a. Webber (1991), Eckert & Strube (2000), Byron, (2002), Gundel et al. (2005). Undersøgelser af abstrakt reference på dansk (Navarretta, 2002; 2004) og italiensk (Navarretta, forthcoming) viser at abstrakte personlige pronominer i disse to sprog er mindst lige så almindelige som abstrakte demonstrative pronominer, og at det absolut mest frekvente abstrakte pronomen i danske tekster er det. I skriftsprog kan man ikke umiddelbart bestemme den pronominelle type for det, og derfor kan denne ikke være den afgørende faktor for identifikationen af referenten.
Jeg vil gennnemgå nogle af de vigtigste forskelle i abstrakt reference mellem de tre sprog og vil diskutere hvorvidt disse forskelle peger på at eksisterende kognitive modeller ikke helt er dækkende for reference på dansk og, i mindre grad, italiensk, eller om de indikerer noget andet.
Vidensbaseret leksikalsk disambiguering
Den flertydighed, der findes i sprog, er et af de største problemer for datamatisk natursprogsbehandling. Det skyldes, at opløsningen af en flertydighed kan afhænge af en ’dyb forståelse’ af teksten. ’Dyb forståelse’ modelleres almindeligvis ved, at teksten konverteres til en logisk repræsentation, som kan fortolkes og viderebehandles af maskiner. For automatisk at kunne bestemme den korrekte læsning af et flertydigt ord i kontekst skal man identificere beregningsprocesser, som på adækvat vis modellerer leksikalsk disambiguering på baggrund af de logiske repræsentationer.
I overensstemmelse med kommunikationskonventionen at fortolke tekst så konsistent som muligt, bruger logik-baserede tilgange en klassisk logik til at forkaste læsninger, der i den givne kontekst fører til en kontradiktion med vores begrebsviden. Problematisk er dog, at det anvendte inferensskema generelt set ikke er afgørligt og derfor ikke kan anvendes af computere.
Heldigvis er der evidens for, at en adækvat modellering forudsætter en ufuldstændig logik, da det ikke er al den information, der kan udledes fra en tekst, som er relevant for disambiguering. På basis af undersøgelser af disambiguerende slutninger vil vi udvikle en begrænset logik (ufuldstændig og afgørlig), som tillader at modellere menneskelig disambiguering på en måde, der er både empirisk adækvat og effektiv.