Comment rechercher des formes composées ?

Lorsque je fais une recherche avancée de "parce" suivi de "que", je n'obtiens aucun résultat. Comment dois-je procéder pour rechercher la forme "parce que" ?

Les textes de Frantext ont subi un traitement informatique visant à segmenter les phrases en unités lexicales, puis à les étiqueter. En général, les espaces ou blancs permettent de délimiter facilement ces unités. Dans le cas des formes composées, il est parfois délicat de déterminer automatiquement s'il s'agit d'une seule unité lexicale ou de plusieurs. Vous pouvez alors cumuler différents types de recherches afin d'obtenir des résultats pertinents.

1. Exemple avec parce que

Recherche simple Équivalence en recherche avancée Nombre de résultats
dans le corpus moderne
parce que
  • &développer("parce que"%cdl)
  • &expand("parce que"%cdl)
41177
 
  • "parce"%cdl "que"%cdl
  • &segmenter("parce que"%cdl)
  • &tokenize("parce que"%cdl)
6
parceque
  • &développer("parceque"%cdl)
  • &expand("parceque"%cdl)
  • "parceque"%cdl
  • &segmenter("parceque"%cdl)
  • &tokenize("parceque"%cdl)
227
 
  • "parce que"%cdl
41171
 
  • "parce ?que"%cd
41398

 

Il est possible de combiner les recherches les plus pertinentes à l'aide d'expressions régulières.
Exemple : "parce"%cdl "que"%cdl | "parce ?que"%cd retourne 31162 résultats.

2. Exemple avec c'est-à-dire

Le caractère utilisé pour l'apostrophe ( ou ') ou le trait d'union peuvent jouer un rôle déterminant dans l'affichage de résultats pertinents.

Recherche simple Équivalence en recherche avancée Nombre de résultats dans le corpus moderne
c’est-à-dire
  • &développer("c’est-à-dire"%cdl)
  • &expand("c’est-à-dire"%cdl)
36
 
  • &segmenter("c’est-à-dire"%cdl)
  • &tokenize("c’est-à-dire"%cdl)
0
c' est - à - dire
  • "c'"%cdl "est"%cdl "-"%cdl "à"%cdl "-"%cdl "dire"%cdl
  • &développer("c' est - à - dire"%cdl)
  • &expand("c' est - à - dire"%cdl)
282
c'est-à-dire
  • &développer("c'est-à-dire"%cd)
  • &expand("c'est-à-dire"%cd)
28930
 
  • "c'est-à-dire"%cdl
  • &segmenter("c'est-à-dire"%cd)
  • &tokenize("c'est-à-dire"%cd)
28644
 
  • "C[’']est[- ]?à[- ]?dire"%cd

28834

 

Vous pouvez combiner toutes ces requêtes au sein d'une liste de mots ou d'une grammaire afin d'obtenir le maximum de résultats.

Exemple de grammaire :

############################
# Grammaire id:cest-à-dire #
############################

# Chaque règle peut être déclarée en utilisant le mot réservé "règle" (ou ici "rule")

rule apostrophe = &expand("c’est-à-dire"%cdl)
rule tokens = "c'"%cdl "est"%cdl "-"%cdl "à"%cdl "-"%cdl "dire"%cdl
rule expand = &expand("c'est-à-dire"%cd)
rule tokenize = &tokenize("c'est-à-dire"%cd)
rule regex = "C[’']est[- ]?à[- ]?dire"%cd

rule grammaire = &rule("apostrophe") | &rule("tokens") | &rule("expand") | &rule("tokenize") | &rule("regex")