Comment lister les mots les plus fréquents ?

Je cherche une liste de 25 000 mots les plus fréquemment utilisés dans le corpus écrit. Existe-t-il une telle fonctionnalité de recherche ?

Fréquences de l'ensemble des mots d'un corpus
Fréquences de l'ensemble des mots d'un corpus

Pour afficher la liste de tous les tokens (mots + ponctuations) par ordre de fréquence, vous pouvez utiliser l'onglet Recherche, puis Fréquences (4e item en partant de la gauche), en conjonction avec l'utilisation de l'expression régulière .+. Le point . permet de rechercher n'importe quel caractère, et le plus + permet de chercher un ou plusieurs caractère. Vérifiez que vous avez bien coché la case check_box Expression régulière. Le résultat peut prendre plusieurs minutes pour s'afficher selon la taille du corpus.

Si nécessaire, vous pouvez exclure la ponctuation des résultats en utilisant l'expression régulière \w+. \w correspond ici à n'importe quel caractère alphanumérique.

Il n'existe pas de fonctionnalité pour exporter cette liste au moment de l'écriture de cet article, mais vous pouvez éventuellement choisir d'afficher 100 résultats par pages et de copier/coller ces résultats dans un tableur.

À propos de Gilles Toubiana

Membre de l'équipe Frantext, il s'occupe notamment des abonnements, de l'assistance auprès des utilisateurs, de la numérisation des ressources textuelles et de la rédaction de documentations.