FrancophonIA/W2C
Viewer
•
Updated
•
116M
•
52
Note Il pourrait être intéressant de privilégier un dump plus récent de Wikipedia (https://dumps.wikimedia.org/other/enterprise_html/runs/) à parser en utilisant https://github.com/OpenLLM-France/wikiplaintext Wikiplaintext donne aussi des scripts pour Wikisource et Wiktionary.
Note Le split en breton serait à nettoyer. J'avais commencer à faire des choses (stats des sources, nettoyage, etc. qu'il faudra que je termine et upload le tout.