Taille des corpus – Blog de Frantext

Cet article est en ligne depuis longtemps. Il est possible que la réponse proposée ne soit plus d'actualité.

Quelle est la taille (en mots) des corpus partiels 20ème siècle et Contemporain ? Est-il possible qu’il y ait des textes identiques dans ces deux corpus ? Et s’il y a des intersections, comment puis-je les identifier ?

Il est possible de connaitre le nombre de mots et de tokens (mots + ponctuation) pour chaque corpus. Pour cela, sélectionnez un corpus, puis cliquez sur les onglets Corpus > Voir le corpus, puis à gauche sur l’onglet Informations. Dans Frantext 19.4, le corpus prédéfini 20ème siècle compte 108191214 mots, et le corpus prédéfini Contemporain 36396589 mots. Ces 2 corpus ont bien des œuvres en commun car le corpus Contemporain recense les ouvrages postérieurs à 1980, tandis que le corpus 20ème siècle recense les ouvrages publiés entre 1900 et 1999. Les textes en commun sont donc les 327 ouvrages publiés entre 1980 et 1999, que vous pouvez identifier en créant un sous-corpus ou en filtrant l’un des corpus à l’aide des métadonnées.