Het Wordfreq-project, dat veranderende taaltrends in 40 talen analyseerde door internetdata te scrapen, stopt wegens vervuiling door generatieve AI-spam. Volgens oprichter Robyn Speer is de betrouwbaarheid van taalgegevens na 2021 afgenomen door de groei van AI-gegenereerde inhoud, die volgens haar de frequentie van woordgebruik verstoort. Speer benadrukt dat webscraping, cruciaal voor Wordfreq, bemoeilijkt wordt doordat platforms als Twitter en Reddit geld vragen voor toegang tot hun data. Ze bekritiseert bovendien de dominantie van AI-modellen in het vakgebied van natuurlijke taalverwerking, dat volgens haar wordt overschaduwd door bedrijven als OpenAI en Google. Door de opkomst van AI wordt het verzamelen van betrouwbare tekstdata steeds moeilijker.
Bron: 404media