Découvrez la démarche d'éco-conception et de réalisation de notre site internet

SEO

Pourquoi faut-il bannir le contenu dupliqué en SEO ?

Publié le 27 juil. 2022 - 6 minutes de lecture

Le contenu dupliqué en SEO est une pratique qu'il faut absolument éviter. Quel est le risque ? Pourquoi ne faut-il pas copier ses contenus ?


La création de contenu optimisé pour le SEO demande du temps, et pour qu’une page soit bien positionnée dans les résultats de recherche de Google, cela nécessite des compétences en référencement naturel. On est alors tenté de copier et coller un texte d’un site de référence bien positionné. Mauvaise idée : Google va s’en rendre compte, et pénaliser la page de contenu dupliqué, voire le site tout entier. Voyons alors quels sont les risques à utiliser le duplicate content.

Qu’est-ce que le contenu dupliqué ?

Le contenu dupliqué, aussi connu sous le terme anglais de duplicate content, fait référence à la situation où un volume significatif de contenu que ce soit par paraphrase ou par un acte de copier/coller évident se retrouve sur deux URLs ou plus au sein du web. Cette pratique concerne non seulement les textes mais aussi peut s'étendre aux contenus multimédias sur différentes pages web, exacerbant les défis en matière de SEO et de référencement.


En 2022, il est universellement reconnu que le contenu original est le pilier du SEO, occupant une place centrale dans les stratégies de référencement sur les moteurs de recherche. Google, en tant que moteur de recherche prédominant, joue un rôle crucial dans l'évaluation de la qualité des contenus web. Lorsqu'il détecte des contenus dupliqués entre différentes URLs, il est programmé pour identifier et créditer uniquement l'auteur original du contenu, laissant les autres versions potentiellement pénalisées. Cette pénalisation peut se traduire par une baisse significative des performances SEO pour la page ou le site ayant reproduit le contenu sans autorisation, impactant négativement leur visibilité sur le web.

Comment Google décide de l’auteur d’un texte dupliqué ?

Lorsque Google se retrouve face à deux contenus identiques, deux facteurs vont influencer sa décision de donner l’autorité à l’un ou à l’autre :

  • L’historique du contenu : la page qui aura été parcourue en premier par Google sera considérée comme la page autrice du contenu ;
  • Le poids et la réputation du site : plus un site est influent et produit du contenu régulièrement, plus il a des chances d’être reconnu comme l’auteur du texte.

Quelles sont les conséquences du contenu dupliqué ?

Le contenu dupliqué fait partie des critères de performance du SEO en 2022. Une étude montre d’ailleurs que 2 indicateurs pèsent plus que d’autres dans la note de performance attribuée au site :


  • La régularité et la constance de la production de contenu de qualité ;
  • La capacité à produire du contenu de niche, du contenu d’autorité, pour que Google puisse avoir la réponse la plus qualitative sur un maximum de sujets.

Google ne prend donc pas en compte les pages de duplicate content. Au mieux, il les ignore, au pire, il les pénalise, que ce soit au niveau de la page (en ne l’indexant pas dans Google) ou au niveau du site, en le désindexant complètement (mesure assez rare, mais possible).


Le plagiat peut mener un site ou une page à être banni de la SERP de Google. Ils ne vont alors plus apparaître dans les résultats de Google, ou alors dans les dernières pages de la SERP.


C’est, entre autres, grâce à cette sélection des pages indexées et référencées que Google arrive à donner les meilleures réponses à ses utilisateurs. Un rare cas peut aussi arriver, concernant surtout les sites avec une très grande visibilité.



Bon à savoir : il peut arriver qu’un site subisse un reporting manuel de plagiat, visible dans l’onglet de la search console. Cela déclenche alors une action manuelle de pénalité du site de la part de Google.

Quels sont les différents types de contenus dupliqués ?

En matière de contenus dupliqués, il y a deux cas de figure : le duplicate content interne, et le duplicate content externe.


Le contenu dupliqué externe


Un site B, par manque d’inspiration, de courage ou de compétences, copie et colle bêtement le contenu de qualité du site A, ou s’en inspire très fortement avec une paraphrase grossière. Dans ce cas, si le site B n’est pas très puissant, il va directement être repéré et pénalisé.


Le contenu dupliqué interne


Le phénomène de contenu dupliqué, particulièrement répandu sur les sites e-commerce, est un défi SEO moins critique lorsque Google reconnaît que le contenu similaire est hébergé sous le même domaine, signifiant ainsi qu'il n'y a pas d'intention de nuire. Toutefois, cette duplication a un impact significatif sur la compréhension et le classement des pages web dans les moteurs de recherche, car elle entraîne une cannibalisation SEO où différentes URLs se disputent le même mot-clé, diluant ainsi l'efficacité du référencement.


Google, dans ces cas de duplicate content interne, répartit les responsabilités et tend à classer les pages concernées de manière moyenne. Cela peut aboutir à une dégradation de la note de performance SEO attribuée par Google, le contenu n'étant pas jugé suffisamment authentique pour être considéré comme expert ou faisant autorité dans une niche donnée.


Dans le cas du duplicate interne, la balise canonical sert à définir une page qui fait autorité par rapport à une autre, et permet de choisir la page que l’on veut mettre en avant sur la SERP, pour éviter qu’elle ne soit pénalisée pour le duplicate content interne.


Par exemple, pour une paire de chaussures déclinée en 3 couleurs, on peut créer un contenu unique pour chacune (très chronophage), ou ajouter une balise canonical en intégrant la couleur de la chaussure, pour que chaque modèle soit d’autorité sur la couleur.


Dans le cas d’un récit unique pour plusieurs sites d’un même propriétaire (site d’une marque franchise, par exemple), il faut soit réécrire les textes, soit géolocaliser la page en injectant le nom de la ville ou autre dans le texte, ou diluer le texte dans un contenu plus conséquent.

Contenu interne vs contenu externe
Contenu interne vs contenu externe

Quel est le taux de plagiat autorisé par Google ?

On considère qu’en-dessous de 10 % de duplicate content (=10 % de similitude de texte entre 2 pages) il ne se passera rien de la part de Google. À partir de 25-30 %, les pénalités peuvent commencer à tomber, surtout si Google comprend que la structure de l’article est très similaire, voire identique au contenu plagié (H1, H2…), ou s’il y a des gros blocs de phrases identiques.


Il existe aujourd’hui de nombreux outils de vérification de plagiat, payants ou gratuits, comme grammarly, copyscape, unicheck, paper rater…

Comment éviter le contenu dupliqué ?

Pour éviter le duplicate content, la réponse la plus évidente est de ne jamais copier/coller ou paraphraser du contenu.


Il faut d’ailleurs être vigilant, parce qu’on a parfois l’impression de rédiger un contenu unique, et en vérifiant sur un vérificateur de plagiat, on se rend compte qu’inconsciemment, notre cerveau s’est largement inspiré de ce qu’il a pu lire sur d’autres sites.


Ensuite, il est conseillé de ne pas traduire mot à mot une page en anglais ou dans une autre langue, car Google est capable de le repérer.


Enfin, il ne faut jamais dépasser 20 % de duplicate (voire 10 % si vous voulez vraiment être tranquille). L’objectif est alors de construire du contenu unique et documenté, avec votre propre plus-value.

Plagiat : les points de vigilance

Le duplicate content se cache parfois là où on ne l’attend pas.


Un site d’actualités doit, par exemple, être particulièrement vigilant, car on peut facilement se retrouver avec du duplicate sur une interview donnée à une personnalité. Si vous souhaitez vraiment retranscrire mot à mot l’interview, il faudra alors densifier la page en apportant du texte supplémentaire autour du texte plagié.


Par ailleurs, quand le contenu commercial est identique sur plusieurs sites, on est face à du duplicate content. Par exemple, un magasin qui a une phrase d’accroche unique ou un à propos que l’on retrouve sur les 100 sites de la marque des différentes villes fait du contenu dupliqué sans même le vouloir.


Google reconnaît aussi le content spinning (génération d’un contenu à partir d’un texte initial pour lequel on a proposé un synonyme pour chaque mot). Il est donc peu judicieux de recourir à ce type d’outils.


La création de contenu demande des compétences et du temps, et pour qu’un texte soit bien référencé d’un SERP, cela demande un savoir-faire. Vous n’avez pas le temps ou les connaissances suffisantes pour produire des textes optimisés ? Confiez votre projet de stratégie SEO à Lemon Interactive et assurez-vous un contenu unique et personnalisé.

Comment identifier le contenu dupliqué ?

Pour identifier un contenu dupliqué, utilisez des outils comme Copyscape ou Google Search Console, qui comparent les textes et détectent les similitudes. Cherchez des passages identiques ou extrêmement proches entre diverses pages web ou au sein d'un même site. Une analyse régulière aide à éviter les pénalités de référencement.

Pour éviter le duplicate content, pratiquez la réécriture de votre contenu en y apportant une perspective unique et une valeur ajoutée. Vérifiez également l'originalité avec des outils anti-plagiat et utilisez les balises canonical pour les pages avec contenu similaire. Ainsi, vous améliorez le SEO de votre site.

Rencontrons-nous

Pour développer ensemble votre performance digitale !

Contactez-nous

Ma passion : des sites beaux et performants !

Photo de Vincent Cattoen

Sorti de la tête de

Vincent Cattoen

Dans la même thématique...

SearchGPT : le moteur de recherche par ChatGPT va-t-il supplanter Google (et le SEO) ?

4 nov. 2024

Guide : comment gérer la pagination dans une stratégie SEO ?

28 oct. 2024

Concevoir une arborescence SEO performante : mode d'emploi

16 oct. 2024