Une analyse portant sur plusieurs millions de réponses de ChatGPT met en évidence une tendance nette : les passages cités se situent majoritairement en début de page. Sur plus de 18 000 citations vérifiées, près de la moitié proviennent du premier tiers des contenus. L’étude identifie également des caractéristiques récurrentes dans les extraits repris.
Une répartition des citations orientée vers le haut des pages
L’analyse s’appuie sur un large volume de données, incluant plusieurs millions de réponses générées par ChatGPT et des dizaines de millions de citations.
Après filtrage, 18 012 citations ont été étudiées. Leur distribution au sein des pages suit un schéma décroissant :
- 44,2 % des citations apparaissent dans le premier tiers,
- 31,1 % dans la partie centrale,
- 24,7 % dans le dernier tiers.
La fréquence diminue progressivement à mesure que l’on descend dans le contenu.
Une logique différente à l’intérieur des paragraphes
La répartition change lorsque l’on observe les citations à l’échelle du paragraphe.
Les extraits repris se situent principalement au cœur des blocs de texte :
- 53 % dans la partie centrale,
- 24,5 % au début,
- 22,5 % à la fin.
Ce contraste montre que, si le haut de page est privilégié à l’échelle globale, le modèle exploite surtout les segments informatifs au sein des paragraphes.
Un poids accordé au cadrage initial
L’étude relie cette tendance à la structure des contenus utilisés lors de l’entraînement des modèles.
Dans de nombreux formats éditoriaux, l’information essentielle est introduite dès les premières lignes. Le modèle s’appuie sur ce cadrage initial pour interpréter la suite du contenu.
Même avec une capacité à traiter de longs textes, les premières sections jouent un rôle déterminant dans la construction du contexte.
Des caractéristiques communes dans les passages cités
Plusieurs traits reviennent fréquemment dans les extraits utilisés par ChatGPT.
Des formulations directes
Les passages cités contiennent davantage de phrases explicites, avec des structures simples et des définitions claires.
Une structuration en questions-réponses
Les intertitres formulés comme des questions sont régulièrement associés aux citations. Le paragraphe qui suit est souvent utilisé comme réponse.
Une densité plus élevée d’entités
Les extraits retenus comportent davantage de noms propres : marques, outils, personnes ou concepts identifiables.
Un ton intermédiaire
Les passages cités adoptent un positionnement entre neutralité et analyse, avec des éléments factuels accompagnés d’une mise en perspective.
Une meilleure lisibilité
Les contenus les plus repris présentent une lecture plus accessible, avec des phrases plus courtes et une syntaxe plus directe.
Une analyse basée sur l’association des sources
Pour relier les réponses générées aux contenus d’origine, l’étude utilise des modèles d’embeddings capables d’identifier les correspondances entre phrases.
Chaque citation est ensuite analysée selon plusieurs critères :
- position dans la page,
- structure du paragraphe,
- présence de définitions,
- densité d’entités,
- tonalité,
- lisibilité.
Des formats structurés plus souvent repris
L’analyse met en évidence une différence entre les types de contenus.
Les formats organisés, qui exposent rapidement une information, une définition ou une réponse, sont plus fréquemment cités que les contenus longs et narratifs.
Ce que montrent les données
Les résultats mettent en avant une combinaison de facteurs liés à la structure, à la clarté et à la précision des contenus.
Ils décrivent les caractéristiques des passages les plus souvent repris, sans remettre en cause la diversité des formats éditoriaux possibles.
Des repères pour la structuration des contenus
Plusieurs points ressortent de l’analyse :
- présenter rapidement l’information principale,
- utiliser des formulations explicites,
- structurer les contenus avec des intertitres clairs,
- nommer précisément les éléments évoqués,
- privilégier une écriture accessible,
- maintenir un ton équilibré.
Ces éléments s’inscrivent dans une logique de lisibilité et de compréhension, en cohérence avec les exigences éditoriales et SEO.
Un travail éditorial qui relève d’un savoir-faire
Cette analyse montre que la rédaction web ne repose pas uniquement sur le fond, mais sur la capacité à structurer l’information, à la formuler clairement et à la rendre immédiatement exploitable.
Dans un environnement où les contenus sont interprétés et repris, cette exigence suppose une maîtrise éditoriale, SEO et désormais orientée IA.
Les contenus générés automatiquement, lorsqu’ils ne sont pas retravaillés, n’atteignent pas ce niveau.




