Middle East Eye | Londen

Computers kunnen niet overweg met de ruim dertig dialecten van het Arabisch, terwijl er toch 300 miljoen mensen zijn die die taal spreken. Met behulp van kunstmatige intelligentie werken computerwetenschappers nu aan het uitbreiden van de zogeheten inclusiviteit van technologie.

Alexa spreekt geen Arabisch. Cortana ook niet. Siri is het gestandaardiseerd Arabisch machtig, maar kan niet overweg met dialecten. Google Translate is bij lange na niet nauwkeurig genoeg.

Let wel: Alexa, Cortana en Siri zijn geen mensen van vlees en bloed. Het zijn computers, begiftigd met kunstmatige intelligentie. Er zijn veel talen die ze behoorlijk onder de knie hebben. Maar als het om de op vier na meest gesproken taal ter wereld gaat, tast de technologie van de eenentwintigste eeuw nog behoorlijk in het duister.

‘Arabisch wordt wereldwijd door ongeveer 300 miljoen mensen gesproken en is de taal van een religie met 1,5 miljard aanhangers,’ zegt Mustafa Jarrar, een computerwetenschapper aan de Palestijnse Universiteit van Bir Zeit, bij Ramallah, op de Westelijke Jordaanoever. ‘Maar het is een van de minst gebruikte talen in de technologie.’

Inclusiviteit

Daarin willen Jarrar en andere computerwetenschappers uit het Midden-Oosten verandering brengen. Ze zijn bezig de zogeheten inclusiviteit van ‘tech’ uit te breiden door ervoor te zorgen dat kunstmatige intelligentie (artificial intelligence, oftewel AI) ook raad weet met andere vormen van Arabisch dan alleen de standaardversie. Natural Language Processing (NLP): zo heet het onderdeel van AI waarbij computers menselijke taal verwerken en interpreteren.

Wanneer we Alexa, de spraakgestuurde virtuele assistent van Amazon, vragen een liedje ten gehore te brengen, gebruikt ze NLP-technieken om ons spraakcommando te verwerken. Maar het hoeft niemand te verbazen dat de manier waarop computers talenkennis opbouwen anders is dan die van mensen. ‘Computers leren talen door middel van statistieken,’ legt Jarrar uit. ‘Om van de ene taal naar een andere te vertalen, verzamelt de computer miljoenen en soms zelfs miljarden zinnen met dezelfde betekenis in de twee talen, en kiest hij de vertaling die het meest voorkomt.’