GeheugenvandeVU cookies

Voor optimale prestaties van de website gebruiken wij cookies. Overeenstemmig met de EU GDPR kunt u kiezen welke cookies u wilt toestaan.

Noodzakelijke en wettelijk toegestane cookies

Noodzakelijke en wettelijk toegestane cookies zijn verplicht om de basisfunctionaliteit van GeheugenvandeVU te kunnen gebruiken.

Optionele cookies

Onderstaande cookies zijn optioneel, maar verbeteren uw ervaring van GeheugenvandeVU.

Bekijk het origineel

VU Magazine 1996 - pagina 330

Bekijk het origineel

+ Meer informatie

VU Magazine 1996 - pagina 330

5 minuten leestijd Arcering uitzetten

het begin van de Koude Oorlog, had de Amerikaanse overheid (vooral de marine, de luchtmacht en de CIA) er grote bedragen voor over om op de hoogte te blijven van de activiteiten van het Oostblok. Vele tientallen miljoenen werden uitgetrokken voor het ontwerpen van computersystemen die m staat moesten zijn zich in hoog tempo door Russische kranten en wetenschappelijke literatuur te worstelen. Onder het motto: iedereen kent zijn eigen taal en weet wel zo ongeveer wat vertalen is, dacht men binnen een paar jaar klaar te zijn. Met groot enthousiasme togen de computerdeskundigen van IBM aan het werk. Het karwei werd een faliekante mislukking. Dat men nog tijdens het project tot het besef kwam dat vertalen meer inhoudt dan het in de machine opslaan van woordenboeken, maar dat ook tenminste de zinsstructuur bij het vertaalproces dient te worden betrokken, kon de zaak niet redden. Na een vernietigende evaluatie in 1965 van de tot dan toe behaalde resultaten draaiden de geldschieters de kraan dicht. Gewapend met veel meer taalkundige kennis - resultaat van de revolutie die de Amerikaanse theoretisch taalkundige Noam Chomsky eind jaren vijftig ontketende met zijn onderzoek naar de organisatie van natuurlijke talen - deed de Europese Gemeenschap in 1982 een nieuwe poging. Ook dit vertaalproject, Euiotia, stond bol van de technische en politieke ambities. Het was de bedoeling dat iedere taal die in de lidstaten werd gesproken (destijds negen) zonder restrictie automatisch zou kunnen worden vertaald in een van de acht andere voertalen, via een systeem van losse modules voor ieder talenpaar (in totaal dus 72 modules). Bovendien moest iedere lidstaat bij het project worden betrokken, of men ervaring had in dergelijk onderzoek of niet. Geen wonder dat de tweehonderd onderzoekers uit heel Europa een fors deel van hun tijd staken m reizen, vergaderen en het oneens zijn over de te gebruiken formalismen en methoden. Na tien jaar onderzoek (kosten: honderd miljoen gulden) rolde er slechts een beperkt vertaalsysteem uit, dat bij lange na niet beantwoordde aan de oorspronkelijke doelstelling. Anno 1996 bewerken de twaalfhonderd vertalers van de Europese Unie hun tekstberg - jaarlijks een miljoen pagina's - nog grotendeels met de hand. Het Nederlandse systeemhuis BSO, dat begin jaren tachtig eveneens een vertaalproject startte, gooide het over een andere boeg. In plaats van afzonderlijke systemen voor ieder talenpaar koos men voor een zogeheten inteilingnasysteem. Daarbij wordt een tekst die bijvoorbeeld van het Engels naar het Frans moet worden vertaald eerst omgezet in een 'neutrale' tussentaal, en van daaruit naar het Frans. Groot voordeel: het aantal taalmodules groeit niet kwadratisch maar lineair, en blijft dus beheersbaar. ledere nieuwe taal A die aan het systeem wordt toegevoegd vergt slechts twee extra modules, van de nieuwe taal naar de tussentaal (AT) en andersom (TA). Groot probleem: de keuze van de tussentaal. Kies je daarvoor een natuurlijke taal als Spaans, dan verdubbelt de kans op fouten,- het vertaalprobleem Engels-Frans wordt immers omgezet in het vertaalprobleem Engels-Spaans-Frans, BSO dacht het vraagstuk op te

46

WCS JULI - AUGUSTUS

I996

lossen door als tussentaal Esperanto te gebruiken, een kunsttaal met een eenvoudige, zeer regelmatige structuur. Maar Esperanto kent weer het nadeel dat de taal niet meer is dan een paspop: om er een echte taal van te maken kleedt de Esperantogebruiker haar aan met kennis van zijn moedertaal. Na acht jaar moeizaam onderzoek en hooggespannen persberichten draaide BSO het Disüibuted Language Translationproject in 1992 de nek om. Rond dezelfde tijd sneuvelde het Rosetta-project van het Natuurkundig Laboratorium van Philips. Overigens ging het daarbij niet om het concreet ontwikkelen van een vertaalautomaat, maar om het in huis halen van strategische kennis; wellicht zou daar dan een vertaalknecht uit voortkomen, een interactief systeem dat de gebruiker vragen stelt over de te vertalen tekst. Wereldkennis Alle projecten met als doel een universeel systeem te ontwerpen dat automatisch tekst kan omzetten van de ene natuurlijke taal in de andere, zonder tussenkomst van de mens, zijn tot nu toe geflopt. In de kern stuit men steeds weer op dezelfde barrière, zeggen Anton Nijholt en Fianciska de Jong, respectievelijk hoogleraar theoretische informatica en hoogleraar taaitechnologie & computerlinguïstiek aan de Universiteit Twente. Die kern is de ingewikkeldheid van natuurlijke taal. Als je uitgaat van normale taal, dus in principe alle constructies en alle woorden, moet je die eerst formeel beschrijven. Dat is al een groot obstakel, maar in een project als Rosetta heeft men het redelijk elegant weten op te lossen. Aan de andere kant: om goed te kunnen vertalen heb je ook 'wereldkennis' nodig. En daarvan staat de formalisering nog steeds in de kinderschoenen. Zolang een vertaalprogramma niet kan beschikken over dat soort kennis, is het probleem dat woorden vaak meer dan één betekenis hebben onoplosbaar. Neem het klassieke voorbeeld dat de Israëlische logicus en wetenschapsfilosoof Bar-Hillel in 1964 aandroeg: hoe vertaal je de zin "The box was in the pen"l Als "De doos stond m het hok"? Dat kan. Maar het woord 'box' kent nog minstens vijftien andere betekenissen, waaronder 'telefooncel', 'tv', 'cadeau' en 'loge in een theater'. 'Pen' staat voor ten minste vijf verschillende objecten. Een vertaler die niet veel verder komt dan het woordenboek doorbladeren heeft hier dus keuze uit minimaal tachtig combinaties. Globaal gaat de moderne computertaalkunde het probleem van de dubbelzinnigheid van woorden op drie manieren te lijf: via statistische technieken, via 'zelflerende systemen' en door omzeilen van het obstakel. Zowel de statistische benadering (wat is de kans dat 'box' in deze context de betekenis 'telefooncel' heeft?) als de ontwikkeling van zelflerende systemen of creatures (waarbij de software een leerproces doormaakt, vergelijkbaar met dat van een kind) verkeren nog in een beginstadium. Beide technieken eisen veel geheugencapaciteit en de beschikbaarheid van grote aantallen elektronische voorbeelddocumenten, willen ze de essentie van bepaalde regelmatigheden 'ontdekken'. Pas de laatste tien jaar wordt aan deze voorwaarden voldaan.

Deze tekst is geautomatiseerd gemaakt en kan nog fouten bevatten. Digibron werkt voortdurend aan correctie. Klik voor het origineel door naar de pdf. Voor opmerkingen, vragen, informatie: contact.

Op Digibron -en alle daarin opgenomen content- is het databankrecht van toepassing. Gebruiksvoorwaarden. Data protection law applies to Digibron and the content of this database. Terms of use.

Bekijk de hele uitgave van maandag 1 januari 1996

VU-Magazine | 568 Pagina's

VU Magazine 1996 - pagina 330

Bekijk de hele uitgave van maandag 1 januari 1996

VU-Magazine | 568 Pagina's