Je cherche une liste de 25 000 mots les plus fréquemment utilisés dans le corpus écrit. Existe-t-il une telle fonctionnalité de recherche ?
Pour afficher la liste de tous les tokens (mots + ponctuations) par ordre de fréquence, vous pouvez utiliser l'onglet Recherche, puis Fréquences (4e item en partant de la gauche), en conjonction avec l'utilisation de l'expression régulière .+
. Le point .
permet de rechercher n'importe quel caractère, et le plus +
permet de chercher un ou plusieurs caractère. Vérifiez que vous avez bien coché la case Expression régulière. Le résultat peut prendre plusieurs minutes pour s'afficher selon la taille du corpus.
Si nécessaire, vous pouvez exclure la ponctuation des résultats en utilisant l'expression régulière \w+
. \w
correspond ici à n'importe quel caractère alphanumérique.
Il n'existe pas de fonctionnalité pour exporter cette liste au moment de l'écriture de cet article, mais vous pouvez éventuellement choisir d'afficher 100 résultats par pages et de copier/coller ces résultats dans un tableur.