Nautilus | New York

De onlinebibliotheek arXiv is een droom voor wetenschappers: ze is gratis, volledig doorzoekbaar, en je kunt er praktisch alles vinden wat op je vakgebied het lezen waard is. De beheerders stuitten alleen op een eeuwenoud probleem: hoe bepaal je wat echte wetenschap is en wat niet?

xx.lanl.gov. Het adres was cryptisch, met een even verleidelijk als geheimzinnig vleugje overheid, of erger. De server zelf was precies het tegendeel. Overheid, ja – hij werd gehost door het Los Alamos National Laboratory – maar vrij toegankelijk, wat in die begindagen van het internet in de jaren negentig volkomen nieuw was, en ook nu nog baanbrekend is.

De site, bekend als arXiv (spreek uit: ‘archive’) maar allang omgedoopt tot het wat minder suspecte adres ‘arXiv.org’ en ondergebracht bij de bibliotheek van de Cornell-universiteit, is een onmetelijk reservoir van wetenschappelijke ‘preprints’, artikelen die nog niet door collega’s zijn beoordeeld en niet bedoeld zijn voor publicatie in toonaangevende vakbladen. (Artikelen kunnen ook worden opgenomen, vaak in herziene vorm, nadat ze elders zijn gepubliceerd.) In juli 2016 stonden er meer dan een miljoen artikelen op arXiv, met een duidelijke nadruk op de ‘harde’ exacte wetenschappen: wiskunde, computerwetenschap, kwantitatieve biologie, kwantitatieve finance, statistiek en, vooral, natuurwetenschap.

ArXiv is het soort bibliotheek waar wetenschappers dertig jaar geleden alleen nog maar van konden dromen: het is volledig doorzoekbaar, vrij toegankelijk om te lezen of uit te publiceren en bevat praktisch alles op het vakgebied wat de moeite van het lezen waard is. Op dit gouden moment in de technologische geschiedenis, waarop je op Wikipedia de geschiedenis van de atoomtheorie kunt opzoeken terwijl je in de rij staat bij Starbucks, lijkt dit misschien weinig opzienbarend. Maar destijds was het revolutionair.

Ginsparg wilde geen programma ontwerpen dat wetenschap van niet-wetenschap kon onderscheiden. Zijn aanvankelijke doel was bescheiden: een algoritme bouwen dat artikelen kon classificeren naar onderwerpscategorie