Contenu dupliqué: causes et solutions
Les moteurs de recherche comme Google ont un problème. On l'appelle «contenu en double». Dupliquer le contenu signifie qu'un contenu similaire est affiché sur plusieurs emplacements (URL) sur le Web. En conséquence, les moteurs de recherche ne savent pas quelle URL faire apparaître dans les résultats de recherche. Cela peut nuire au classement d'une page Web. Surtout quand les gens commencent à lier à toutes les différentes versions du contenu, le problème devient plus grand. Cet article est destiné à comprendre les différentes causes du contenu en double et à trouver la solution pour chacun d'eux.
Vous pouvez comparer ça à un carrefour, et les panneaux indiquent deux directions différentes pour la même destination finale: quelle route devez-vous prendre ?
Et maintenant, pour le rendre «pire», la destination finale est également différente, mais toujours aussi légèrement. En tant que lecteur, cela ne vous dérange pas: vous obtenez le contenu pour lequel vous êtes venu. Mais un moteur de recherche doit choisir lequel afficher dans les résultats de recherche, car il ne veut pas afficher le même contenu deux fois.
Disons que votre article sur «mot-clé x» apparaît sur http://www.example.com/keyword-x/ et le même contenu apparaît également sur http://www.exemple.com/article-category/keyword-x /, Une situation qui n'est pas aussi fictive: cela se produit dans de nombreux systèmes de gestion de contenu modernes. Votre article a été repris par plusieurs blogueurs, et certains d'entre eux se sont liés à la première URL, d'autres sont reliés à la deuxième URL. C'est alors que le problème du moteur de recherche montre sa nature réelle: c'est votre problème. Ce contenu en double est votre problème, car ces liens favorisent les différentes URL. S'ils étaient tous liés à la même URL, votre chance de classer dans le top 10 pour 'mot-clé x' serait beaucoup plus élevée.
1 Les causes du contenu en double
Il y a des douzaines et des dizaines de raisons qui provoquent du contenu en double. La plupart d'entre eux sont techniques: il n'est pas très souvent qu'un humain décide de mettre le même contenu dans deux endroits différents sans distinguer la source originelle: il est naturel pour la plupart d'entre nous. Les raisons techniques sont cependant abondantes. Cela se produit surtout parce que les développeurs ne pensent pas en tant que navigateur ou utilisateur, sans parler d'une araignée de moteur de recherche, ils pensent en tant que développeur. Cet article mentionné ci-dessus, qui apparaît sur http://www.example.com/keyword-x/ et http://www.example.com/article-category/keyword-x/ ?
Si vous demandez au développeur, il dira que cela n'existe qu'une seule fois.
Bien sûr, nous vérifions le contenu en double dans nos revues de site Web et nous vous donnons également la raison de ce contenu en double.
1.1 Incompréhension du concept d'URL
Est-ce que ce développeur est devenu fou ?
Non, il parle simplement
une langue différente. Vous voyez que tout le site Web est probablement alimenté par un système de base de données. Dans cette base de données, il n'y a qu'un article, le logiciel du site Web permet de retrouver ce même article dans la base de données via plusieurs URL. C'est parce que dans les yeux du développeur, l'identifiant unique pour cet article est l'ID que cet article a dans la base de données, et non l'URL. Pour le moteur de recherche cependant, l'URL est l'identifiant unique d'un contenu. Si vous expliquez cela à un développeur, il va commencer à résoudre le problème. Et après avoir lu cet article, vous pourrez même lui fournir une solution tout de suite.1.2 ID de session
Vous voulez souvent garder une trace de vos visiteurs, et permettre, par exemple, de stocker des articles qu'ils souhaitent acheter dans un panier. Pour ce faire, vous devez leur donner une «session». Une session est essentiellement une brève histoire de ce que le visiteur a fait sur votre site, et peut contenir des choses comme les articles dans leur panier. Pour maintenir cette session en tant que clic du visiteur d'une page à l'autre, l'identificateur unique de cette session, l'ID de la session appelée, doit être stocké quelque part. La solution la plus commune est de faire cela avec des cookies. Toutefois, les moteurs de recherche ne stockent généralement pas les cookies.
À ce moment-là, certains systèmes retournent à l'utilisation des ID de session dans l'URL. Cela signifie que chaque lien interne sur le site Web reçoit cette ID de session ajoutée à l'URL, et parce que cet ID de session est unique à cette session, il crée une nouvelle URL et donc duplique le contenu.
1.3 Paramètres URL utilisés pour le suivi et le tri
Une autre cause du contenu en double est l'utilisation de paramètres d'URL qui ne modifient pas le contenu d'une page, par exemple dans les liens de suivi. Vous voyez, http://www.example.com/keyword-x/ et http://www.example.com/keyword-x/?source=rss ne sont pas la même URL pour un moteur de recherche. Ce dernier pourrait vous permettre de suivre les sources de provenance, mais cela pourrait aussi rendre cela plus difficile. Un effet secondaire très indésirable !
1.4 Scrapers et syndication de contenu
La plupart des causes du contenu en double sont de votre faute, ou à tout le moins la «faute» de votre site. Parfois, d'autres sites utilisent votre contenu, avec ou sans votre consentement. Ils ne se lient pas toujours à votre article original et, par conséquent, le moteur de recherche ne l'obtient pas et doit faire face à une autre version du même article. Plus votre site devient populaire, plus les scrapers que vous aurez souvent, renderont ce problème de plus en plus grand.
1.5 Ordre des paramètres
Une autre cause commune est qu'un CMS n'utilise pas d'URL agréables et propres, mais plutôt des URL comme /? Id = 1 & cat = 2, où l'ID fait référence à l'article et le cat se réfère à la catégorie. L'URL /? Cat = 2 & id = 1 rendra exactement les mêmes résultats dans la plupart des systèmes de sites Web, mais ils sont en fait complètement différents pour un moteur de recherche.
1.6 Pagination de commentaires
Dans mon bien-aimé WordPress, mais aussi dans d'autres systèmes, il existe une option pour la pagination de vos commentaires. Cela entraîne la duplication du contenu sur l'URL de l'article et l'URL de l'article + / comment-page-1 /, / comment-page-2 / etc.
1.7 Pages imprimables
Si votre système de gestion de contenu crée des pages conviviales pour l'imprimante et que vous liez à celles de vos pages d'articles, dans la plupart des cas, Google les trouvera, sauf si vous les bloquez spécifiquement. Maintenant, quelle version Google devrait-il montrer ?
Le chargé d'annonces et de contenu périphérique, ou celui avec juste votre article ?
1.8 WWW vs. non-WWW
L'un des plus anciens du livre, mais parfois, les moteurs de recherche se trompent: le contenu en double WWW vs non-WWW, lorsque les deux versions de votre site sont accessibles. Une situation moins commune, mais celle que j'ai déjà vu: http contre https contenu en double, où le même contenu est diffusé sur les deux.
2 Solution conceptuelle: URL «canonique»
Comme déterminé ci-dessus, le fait que plusieurs URL conduisent au même contenu est un problème, mais il peut être résolu. Une personne travaillant dans une publication sera normalement capable de vous informer assez facilement de l'URL «correcte» d'un certain article. Ce qui est drôle, cependant, parfois, lorsque vous demandez à trois personnes dans la même entreprise, ils donneront trois réponses différentes ...
C'est un problème qui doit être résolu dans ces cas, car en fin de compte, il ne peut y avoir qu'une (URL). Cette URL «correcte» pour un contenu a été baptisée l'URL canonique par les moteurs de recherche.
3 Identification des problèmes de contenu en double
Vous ne savez peut-être pas si vous avez un problème de contenu en double sur votre site ou avec votre contenu. Permettez-moi de vous donner quelques méthodes pour savoir si vous le faites.
301 Google Webmaster Tools
Google Webmaster Tools est un excellent outil pour identifier le contenu en double. Si vous allez dans Google Webmaster Tools pour votre site, cochez la case Rechercher Apparence »
Améliorations HTML
, et vous verrez ceci:
Si les pages ont des titres en double ou des descriptions en double, c'est presque jamais une bonne chose. En cliquant dessus, vous verrez apparaître les URL qui ont des titres ou des descriptions en double et vous aideront à identifier le problème. La question est que si vous avez un article comme celui sur le mot-clé X, et il apparaît dans deux catégories, les titres peuvent être différents. Ils pourraient, par exemple, être «Mot-clé X - Catégorie X - Exemple de site» et «Mot clé X - Catégorie Y - Exemple de site». Google ne les choisira pas comme des titres en double, mais vous pouvez les trouver en recherchant.
3.2 Rechercher des titres ou des extraits
Il existe plusieurs opérateurs de recherche qui sont très utiles pour des cas comme ceux-ci. Si vous souhaitez trouver toutes les URL sur votre site contenant l'article de votre mot-clé X, vous devez taper la phrase de recherche suivante dans Google:
site:example.com intitle:"Mot-clé X"
Google vous montrera toutes les pages sur example.com qui contiennent ce mot-clé. Plus vous faites spécifier cette partie, plus il est facile d'éliminer le contenu en double. Vous pouvez utiliser la même méthode pour identifier le contenu en double sur le Web. Disons que le titre complet de votre article était 'Keyword X - pourquoi il est génial', vous chercheriez:
intitle:"Keyword X - pourquoi il est génial"
Et Google vous donnera tous les sites qui correspondent à ce titre. Parfois, il vaut la peine de rechercher une ou deux phrases complètes de votre article, car certains scrapers peuvent changer le titre. Dans certains cas, lorsque vous effectuez une recherche comme celle-ci, Google pourrait afficher un avis comme celui-ci sur la dernière page de résultats:
C'est un signe que Google est déjà "dé-duping" les résultats. Ce n'est toujours pas bon, il vaut la peine de cliquer sur le lien et de regarder tous les autres résultats pour voir si vous pouvez réparer certains d'entre eux.
4 Solutions pratiques pour le contenu en double
Une fois que vous avez décidé quelle URL est l'URL canonique pour votre contenu, vous devez commencer un processus de canonisation (oui, je sais, essayez de dire que trois fois à haute voix rapidement). Cela signifie essentiellement que nous devons laisser le moteur de recherche savoir sur la version canonique d'une page et le laisser le trouver le plus tôt possible. Il existe quatre méthodes de résolution du problème, par ordre de préférence:
- Ne pas créer de contenu en double
- Redirection du contenu en double vers l'URL canonique
- Ajout d'un élément de lien canonique à la page en double
- Ajout d'un lien HTML de la page en double à la page canonique
4.1 Éviter le contenu en double
Certaines des causes ci-dessus pour le contenu en double ont des corrections très simples à eux:
- Les ID de session dans vos URL?Ceux-ci peuvent souvent être désactivés uniquement dans les paramètres de votre système.
- Vous avez des pages imprimées en double ?
Ce sont complètement inutiles: vous devriez simplement utiliser une feuille de style d'impression. - Utilisation de la pagination des commentaires dans WordPress ?Cette fonctionnalité devrait simplement être désactivée (sous les paramètres »discussion) sur 99% des sites.
- Paramètres dans un ordre différent ?Dites à votre programmeur de créer un script pour toujours commander des paramètres dans le même ordre (cela est souvent appelé une usine d'URL).
- Suivi des problèmes de liens ?Dans la plupart des cas, vous pouvez utiliser le suivi de la campagne basée sur les balises hash au lieu du suivi par campagne basé sur les paramètres.
- WWW vs non-WWW?Choisissez un et colliez-le en redirigeant l'un vers l'autre. Vous pouvez également définir une préférence dans Google Webmaster Tools, mais vous devrez réclamer les deux versions du nom de domaine.
Si votre problème n'est pas facilement résolu, il pourrait valoir la peine de mettre l'effort et d'éviter que le contenu en double n'apparaisse complètement. C'est de loin la meilleure solution au problème.
4.2 Redirection 301 du contenu en double
Dans certains cas, il est impossible d'empêcher complètement le système que vous utilisez de créer des URL incorrectes pour le contenu, mais parfois il est possible de les rediriger. Si cela n'est pas logique pour vous (ce que je comprends), gardez-le à l'esprit en parlant à vos développeurs. De plus, si vous supprimez complètement les problèmes de contenu en double, assurez-vous de rediriger toutes les anciennes URL de contenu en double vers les URL canoniques appropriées.
4.3 Utilisation de rel = liens "canoniques"
Parfois, vous ne voulez pas ou ne pouvez pas vous débarrasser d'une version en double d'un article, mais vous savez que c'est une mauvaise URL. Pour ce problème spécifique, les moteurs de recherche ont introduit l'élément de lien canonique. Il est placé dans la section <head> de votre site et il ressemble à ceci: