Comment étudier la longueur des phrases d'un corpus ?

Comment étudier la longueur des phrases d'un corpus, autrement dit le nombre de mots dans chaque phrase ?

Phrases de 5 mots
Phrases de 5 mots débutant par un point suivi d'une majuscule

Frantext n'est pas du tout fait pour ce type de recherches. Vous pouvez toutefois faire des expérimentations avec la recherche Avancée. Pour chercher toutes les phrases, il vous faut définir ce qui caractérise le début et la fin d'une phrase. Pour commencer, partons sur l'hypothèse qu'une phrase est composée des mots ou signes de ponctuation, compris entre des ponctuations de fin de phrase (!?.…), à l'exception de ces derniers.

Avec la requête [word="[!?.…]+"] [word!="[!?.…]+"]+ [word="[!?.…]+"], nous recherchons une ou plusieurs formes graphiques dans la liste !?.…, suivies d'un ensemble de formes graphiques qui ne sont pas des ponctuations de fin de phrase, puis à nouveau une ou plusieurs ponctuations de fin de phrases !?.….

Dans ce cas précis, le moteur de recherche de Frantext atteint ses limites et ne retourne aucun résultat. Il est possible de contourner ce problème en décomposant la recherche en plusieurs sous-requêtes. Ainsi, pour dénombrer toutes les phrases composées de 5 mots, vous pouvez utiliser la requête suivante : [word="[!?.…]+"] [word!="[!?.…]+"]{5} [word="[!?.…]+"].

Vous pouvez ainsi effectuer des statistiques en améliorant la détection du début et de la fin des phrases. Vous pouvez modifier le chiffre 5 dans la requête actuelle pour chercher des phrases de différentes longueurs. Sachez toutefois que cette méthode atteindra les limites du moteur de recherche pour des phrases de plus de 30 mots.

Il est également important de noter qu'avec ce type de requête, vous n'obtenez qu'une phrase sur deux, car le point final de la phrase précédente est compris dans notre requête, et il n'est pas possible de l'exclure du résultat. L'idéal serait de déterminer le début de la phrase par un autre moyen, comme sa première majuscule. La requête [word="[A-Z].+"%d] serait un éventuel début, mais il faudrait également tenir compte des majuscules accentuées et éviter les mots en majuscule qui se trouvent au milieu de la phrase, ce qui semble difficile. 

À propos de Gilles Toubiana

Membre de l'équipe Frantext, il s'occupe notamment des abonnements, de l'assistance auprès des utilisateurs, de la numérisation des ressources textuelles et de la rédaction de documentations.