David Camus, consultant en referencement naturel
Expert SEO depuis 1999-Contact : 0675871730
Recent Articles
- Les instructions des robots meta tags
- Google donne-t-il un age aux backlinks?
- L’indexation par les formulaires html
- Google et le duplicate content du aux paramètres des url
- Moteurs de recherche et duplicate content
- Le PageRank de Google-Guide pour chercheurs et webmasters
- Critères de classement de Google-2eme partie
- Critères de classement de Google-1ere partie
- Eviter le duplicate content
- Techniques de base du referencement
-
No Comments
JohnMu, modérateur du forum google d’aide aux webmaster, indique dans un sujet consacré au fonctionnement de la balise meta robots , que les instructions qui y sont incluses sont cumulatives.
Concrétement, cela signifie que les premières instructions seront prioritaires, quelque soient les restrictions affichées par la suite :L’extrait de ce topic ci-dessous illustre le fonctionnement cumulatif de cette balise :
“For the robots meta tag, the effects are cumulative with regards to the restrictions, eg:
would result in Googlebot treating it as a noindex, nofollow, noodp, noimageindex. This is different than the robots.txt file. You cannot provide more restrictive directives for the generic “robots” setting than for individual crawlers.” -
1 Comment
Tedster, administrateur de l’incontournable forum webmasterworld, a publié récemment un post dans lequel il se demande si l’ancienneté d’un lien est prise en compte dans l’algorithme de Google, et si oui, de quelle manière : positive, à l’image d’un vin qui s’améliore en vieillissant, ou négative, comme un pain rassi car trop longtemps conservé?
Retrouvez l’intégralité de cette discussion ici
-
No Comments
Google teste constamment de nouvelles fonctionnalités pour améliorer la couverture du web. Nous mettons déjà en œuvre des techniques innovantes comme la lecture des contenus en flash et javascript pour découvrir de nouveaux liens, et nous voudrions vous parler aujourd’hui d’une autre technologie que nous avons commencé à tester récemment.
Durant ces derniers mois, nous avons exploré des formulaires html pour essayer de découvrir de nouvelles pages web et url que nous ne pourrions trouver et indexer autrement. Plus spécifiquement, lorsque nous rencontrons un formulaire sur un site de qualité, il se peut que nous décidions d’effectuer quelques requêtes en utilisant ce formulaire. Notre moteur remplit le formulaire en sélectionnant automatiquement des mots contenus dans le site. Nous exploitons également les valeurs contenues dans les menus déroulants, cases à cocher et boutons-radio. Après avoir rempli les formulaires, nous générons et tentons d’indexer les url qui correspondent à la requête. Si nous jugeons que cette page de résultats possède un contenu pertinent et non-présent dans notre index, nous pouvons décider de l’indexer comme n’importe quelle autre page web.
Seul un petit nombre de sites fait l’objet de ces tests, toujours dans le respect des directives du robots.txt et des balises nofollow, noindex. Cela signifie que si un formulaire de recherche est interdit d’accès via un robots.txt, nous n’indexerons aucune des url que le formulaire pourrait générer. Nous prenons en compte uniquement les formulaires en GET et évitons ceux nécessitant des informations d’utilisateur. Par exemple, nous ne traitons pas les formulaires dont l’utilisation nécessite un mot de passe ou des données personnelles (login, identifiants…).
Les nouvelles pages découvertes de cette manière ne pénalisent en aucun cas les autres pages indexées de façon classique. Ce changement n’impactera donc pas le PageRank de vos autres pages : ce sera au contraire un moyen d’augmenter le nombre de pages de votre site indexé dans Google. Cette nouvelle technologie n’influencera non plus en rien l’indexation et le classement des autres pages web.
Cette expérimentation fait partie intégrante de la stratégie de Google d’augmenter la couverture du web. Les formulaires html sont considérés comme le principal obstacle à l’indexation de larges volumes de données par les moteurs de recherche. Les termes de «web profond», « web caché » ou « web invisible » se réfèrent indistinctement à ce contenu qui était jusqu’à maintenant non accessible aux utilisateurs des moteurs de recherche.
En indexant les formulaires html (autorisés par le robots.txt), nous sommes désormais capables de proposer aux utilisateurs des moteurs de recherche des documents qui seraient autrement difficilement trouvables dans les moteurs de recherché.
Source : http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html
-
No Comments
Comment les paramètres dans les url, comme les identifiants de session ou de tracking, peuvent-ils provoquer du duplicate content ?
Lorsqu’un identifiant de session ou de tracking est stocké dans les paramètres d’une url, le risque de duplicate content est important car la même page est accessible via plusieurs url.
Quels en sont les effets négatifs pour le SEO ?
Lorsque les moteurs de recherche indexent un contenu identique à travers diverses url, le risque engendré est double :
1-Avoir de multiples url affichant le même contenu peut diluer la popularité de liens.
2-L’affichage dans les pages de résultats des moteurs d’url longues avec de nombreux paramètres risque de pousser l’internaute à ne pas cliquer dessus et parasite la promotion de la marque.Comment google traite le duplicate content?
1-Les url générant du duplicate content sont clusterisées
2-Le moteur sélectionne parmi elles l’url canonique
3-La popularité de liens des autres url est transférée vers l’url cannoniqueQue doit faire le webmaster d’un site avec du contenu dupliqué ?
1-Enlever le maximum de paramètres inutiles
2-Soumettre un fichier sitemap contenant la version cannonique de chaque url : cela indiquera ainsi à Google la version à prendre en compte.Que doit faire un webmaster pour éviter le duplicate content ?
Rediriger (par une redirection 301) les url contenant les paramètres de session ou de tracking vers l’url cannonique puis stocker ces paramètres dans des cookies.
Source : http://googlewebmastercentral.blogspot.com/2007/09/google-duplicate-content-caused-by-url.html
-
No Comments
Il n’existe pas un mais plusieurs filtres de détection de pages identiques mis en place par les moteurs de recherche. Ces filtres sont appliqués à chaque étape du processus de prise en compte des pages web par les moteurs : crawling, indexation et affichage des résultats de requêtes.
Un certain nombre de pages dupliquées visitées par les moteurs ne sont purement et simplement pas indexées. D’autres filtres de détection sont appliqués après le processus d’indexation : les pages indexées considérés comme identiques sont alors exclues des pages de résultats des moteurs de recherche.
Beaucoup estiment que l’index supplémentaire de Google a pour fonction de pénaliser ces pages dupliquées, il n’en est rien : le duplicate content n’est pas un critère d’insertion d’une page dans l’index supplémentaire : c‘est le niveau de PageRank qui détermine l‘inclusion dans cet index.
Une confirmation officielle est venue de Vanessa Fox, rédactrice du blog officiel de Google ( «un faible PageRank est souvent à l’origine de la présence d’une page dans l’index supplémentaire») et de Matt Cutts («avoir des url dans les résultats supplémentaires n’est pas une sanction. Le principal critère qui détermine l’indexation dans les résultats supplémentaires est le PageRank»).
La redirection 301 est souvent considérée comme le meilleur moyen d’éliminer les pages à contenu similaire. Tout dépend en fait de la situation donnée.
Le pointage de plusieurs url vers la même page constitue le cas typique pour lequel la redirection 301 est une solution adaptée. Si la page d’accueil de votre site est accessible via deux url ou plus (par exemple : masociete.com , masociete.com/index.htm , masociete.com/defaut.htm), la redirection 301 vous permettra de diriger les internautes vers l’url la plus appropriée.
Les moteurs de recherche utilisent leur propre critères de sélection pour choisir une url parmi celles liées à la même page. L’url prise en compte est appelée «url canonique». Soyez cependant pro-actif pour ne pas laisser les moteurs choisir à votre place l’url à afficher dans les pages de résultats.
La redirection 301 est également souvent employée pour conserver le PageRank d’une page qui n’existe plus : dans ce cas de figure, celle-ci se fait souvent vers la pager d’accueil. Ce type de redirection est peu pertinent pour l’internaute, auquel on ne présentera pas la page correspondante à sa demande. Une page d’erreur 404 personnalisée proposant un contenu similaire à la demande du chercheur serait plus adapté dans ce cas de figure.
Source : http://searchengineland.com/understanding-search-engines-duplicate-content-issues-11738

