Articles Seo Anglophones | David Camus, consultant en referencement naturel

David Camus, consultant en referencement naturel

Expert SEO depuis 1999-Contact : 0675871730

Archives

Share




Follow davidcamus on Twitter


  • Google teste constamment de nouvelles fonctionnalités pour améliorer la couverture du web. Nous mettons déjà en œuvre des techniques innovantes comme la lecture des contenus en flash et javascript pour découvrir de nouveaux liens, et nous voudrions vous parler aujourd’hui d’une autre technologie que nous avons commencé à tester récemment.

    Durant ces derniers mois, nous avons exploré des formulaires html pour essayer de découvrir de nouvelles pages web et url que nous ne pourrions trouver et indexer autrement. Plus spécifiquement, lorsque nous rencontrons un formulaire sur un site de qualité, il se peut que nous décidions d’effectuer quelques requêtes en utilisant ce formulaire. Notre moteur remplit le formulaire en sélectionnant automatiquement des mots contenus dans le site. Nous exploitons également les valeurs contenues dans les menus déroulants, cases à cocher et boutons-radio. Après avoir rempli les formulaires, nous générons et tentons d’indexer les url qui correspondent à la requête. Si nous jugeons que cette page de résultats possède un contenu pertinent et non-présent dans notre index, nous pouvons décider de l’indexer comme n’importe quelle autre page web.

    Seul un petit nombre de sites fait l’objet de ces tests, toujours dans le respect des directives du robots.txt et des balises nofollow, noindex. Cela signifie que si un formulaire de recherche est interdit d’accès via un robots.txt, nous n’indexerons aucune des url que le formulaire pourrait générer. Nous prenons en compte uniquement les formulaires en GET et évitons ceux nécessitant des informations d’utilisateur. Par exemple, nous ne traitons pas les formulaires dont l’utilisation nécessite un mot de passe ou des données personnelles (login, identifiants…).

    Les nouvelles pages découvertes de cette manière ne pénalisent en aucun cas les autres pages indexées de façon classique. Ce changement n’impactera donc pas le PageRank de vos autres pages : ce sera au contraire un moyen d’augmenter le nombre de pages de votre site indexé dans Google. Cette nouvelle technologie n’influencera non plus en rien l’indexation et le classement des autres pages web.

    Cette expérimentation fait partie intégrante de la stratégie de Google d’augmenter la couverture du web. Les formulaires html sont considérés comme le principal obstacle à l’indexation de larges volumes de données par les moteurs de recherche. Les termes de «web profond», « web caché » ou « web invisible » se réfèrent indistinctement à ce contenu qui était jusqu’à maintenant non accessible aux utilisateurs des moteurs de recherche.

    En indexant les formulaires html (autorisés par le robots.txt), nous sommes désormais capables de proposer aux utilisateurs des moteurs de recherche des documents qui seraient autrement difficilement trouvables dans les moteurs de recherché.

    Source : http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html

    No Comments
  • Comment les paramètres dans les url, comme les identifiants de session ou de tracking, peuvent-ils provoquer du duplicate content ?

    Lorsqu’un identifiant de session ou de tracking est stocké dans les paramètres d’une url, le risque de duplicate content est important car la même page est accessible via plusieurs url.

    Quels en sont les effets négatifs pour le SEO ?

    Lorsque les moteurs de recherche indexent un contenu identique à travers diverses url, le risque engendré est double :

    1-Avoir de multiples url affichant le même contenu peut diluer la popularité de liens.
    2-L’affichage dans les pages de résultats des moteurs d’url longues avec de nombreux paramètres risque de pousser l’internaute à ne pas cliquer dessus et parasite la promotion de la marque.

    Comment google traite le duplicate content?

    1-Les url générant du duplicate content sont clusterisées
    2-Le moteur sélectionne parmi elles l’url canonique
    3-La popularité de liens des autres url est transférée vers l’url cannonique

    Que doit faire le webmaster d’un site avec du contenu dupliqué ?

    1-Enlever le maximum de paramètres inutiles
    2-Soumettre un fichier sitemap contenant la version cannonique de chaque url : cela indiquera ainsi à Google la version à prendre en compte.

    Que doit faire un webmaster pour éviter le duplicate content ?

    Rediriger (par une redirection 301) les url contenant les paramètres de session ou de tracking vers l’url cannonique puis stocker ces paramètres dans des cookies.

    Source : http://googlewebmastercentral.blogspot.com/2007/09/google-duplicate-content-caused-by-url.html

    No Comments
  • Il n’existe pas un mais plusieurs filtres de détection de pages identiques mis en place par les moteurs de recherche. Ces filtres sont appliqués à chaque étape du processus de prise en compte des pages web par les moteurs : crawling, indexation et affichage des résultats de requêtes.

    Un certain nombre de pages dupliquées visitées par les moteurs ne sont purement et simplement pas indexées. D’autres filtres de détection sont appliqués après le processus d’indexation : les pages indexées considérés comme identiques sont alors exclues des pages de résultats des moteurs de recherche.

    Beaucoup estiment que l’index supplémentaire de Google a pour fonction de pénaliser ces pages dupliquées, il n’en est rien : le duplicate content n’est pas un critère d’insertion d’une page dans l’index supplémentaire : c‘est le niveau de PageRank qui détermine l‘inclusion dans cet index.

    Une confirmation officielle est venue de Vanessa Fox, rédactrice du blog officiel de Google ( «un faible PageRank est souvent à l’origine de la présence d’une page dans l’index supplémentaire») et de Matt Cutts («avoir des url dans les résultats supplémentaires n’est pas une sanction. Le principal critère qui détermine l’indexation dans les résultats supplémentaires est le PageRank»).

    La redirection 301 est souvent considérée comme le meilleur moyen d’éliminer les pages à contenu similaire. Tout dépend en fait de la situation donnée.

    Le pointage de plusieurs url vers la même page constitue le cas typique pour lequel la redirection 301 est une solution adaptée. Si la page d’accueil de votre site est accessible via deux url ou plus (par exemple : masociete.com , masociete.com/index.htm , masociete.com/defaut.htm), la redirection 301 vous permettra de diriger les internautes vers l’url la plus appropriée.

    Les moteurs de recherche utilisent leur propre critères de sélection pour choisir une url parmi celles liées à la même page. L’url prise en compte est appelée «url canonique». Soyez cependant pro-actif pour ne pas laisser les moteurs choisir à votre place l’url à afficher dans les pages de résultats.

    La redirection 301 est également souvent employée pour conserver le PageRank d’une page qui n’existe plus : dans ce cas de figure, celle-ci se fait souvent vers la pager d’accueil. Ce type de redirection est peu pertinent pour l’internaute, auquel on ne présentera pas la page correspondante à sa demande. Une page d’erreur 404 personnalisée proposant un contenu similaire à la demande du chercheur serait plus adapté dans ce cas de figure.

    Source : http://searchengineland.com/understanding-search-engines-duplicate-content-issues-11738

    No Comments
  • La définition de Google : le PageRank est un vote

    Commençons par ce que dit Google. Pour résumer, il considère les liens comme des votes, dont certains sont plus importants que d’autres. Le scoring des pages issu du PageRank est ensuite utilisé avec les nombreux autres facteurs de l’algorithme pour déterminer la position d’une page au sein des résultats de recherche du moteur.

    Les guidelines de Google relativisent l’importance du PageRank

    Google lui-même souligne clairement que le PageRank n’est qu’un facteur parmi les nombreux autres utilisés pour déterminer le classement des pages. Cette mise au point est la bienvenue car trop de personnes font une fixation sur le PageRank, et consacrent toute leur énergie à obtenir des liens, sans réaliser que le PageRank seul est insuffisant pour améliorer le classement d’une page dans Google.

    Tous les algorithmes des principaux moteurs de recherche tiennent compte des liens, mais aucun d’entre eux n’a concrétisé ce facteur par un score visible (note de 1 à 10) comme Google le fait via la Google Toolbar.

    Cette exposition du Page Rank via la Toolbar a conduit de nombreux webmasters et professionnels du référencement à utiliser la Toolbar pour mettre en place des échanges de liens avec les sites à fort PageRank et à négliger les nombreux autres critères de classement. D’autres webmasters dont le site n’a aucun PageRank, s’imaginent à tort qu’ils sont blacklistés par Google.

    Le texte des liens plus important que le Pagerank

    Tout cela est assez! Oubliez le PageRank, oubliez Google au moment de mettre en place votre stratégie de netlinking. Il est vrai que l’obtention d’un lien venant d’une page à fort PageRank fera bénéficier à votre site d’un transfert d’une partie de ce PageRank, mais cette stratégie ne tient pas compte du contexte du lien, c’est dire le texte contenu dans le lien (ancre).

    Prenons un exemple concret : imaginons que le site de l’équipementier Nike veuille être positionné sur le mot « chaussure» : au vu de sa forte notoriété, Nike obtient rapidement des milliers de liens de sites à très fort Page Rank (7,8,9), mais avec le terme « Nike » dans l’ancre. On pourrait alors se dire qu’avec tous ces liens, Nike va obtenir à coup sur un excellent classement …oui mais sur quelle requête? Pas sur la requête « chaussure », non mentionnée dans l’ancre des liens, mais sur le mot « Nike», c’est à dire sur sa marque, la belle affaire…;-).

    Imaginons maintenant qu’un autre site de vente de chaussures beaucoup moins connu que Nike désire lui aussi se positionner sur «chaussure» en effectuant des échanges de liens. Il obtient certes des liens de site dont le PageRank est moins important que ceux obtenus par Nike, mais l’ancre est beaucoup plus pertinente («chaussure») , ce qui permettra au site d’être mieux positionné sur ce mot que celui de Nike.

    Toujours pas convaincu que le PageRank n’est qu’un critère de positionnement parmi d’autres? Faites une recherche sur Google et examinez le PageRank des pages classées derrière celle en première position : vous constaterez à de multiples occasions que la page affichée en premier n’est pas systématiquement, loin de là, celle dotée du plus fort PageRank parmi les dix premières réponses.

    Pour prendre un exemple parmi d’autres, le site classé numéro 1 par Google sur la très concurrentielle requête «movies» possède un PageRank de 8, inférieur à celui du site qui le précède (PageRank de 9).

    PageRank interne et PageRank de la toolbar

    Le PageRank que les internautes visualisent sur leur Toolbar est différent du PageRank dit «interne».

    Le PageRank interne est celui utilisé par Google dans le cadre de l’élaboration de son algorithme de classement. Les données de ce PageRank interne sont constamment mises à jour, à l’inverse du PageRank visible au sein de la Toolbar, qui n’est mis à jour que très irrégulièrement (tous les trois ou quatre mois).

    Pour résumer…

    Le PageRank est juste un facteur parmi les très nombreux autres utilisés par Google pour déterminer le classement des pages.

    Un PageRank élevé ne garantit pas un bon classement pour n’importe quel terme de recherche. Si cela était le cas, le site d’Adobe (PageRank de 10) apparaîtrait sur n’importe quelle requête, ce qui n’est pas la réalité.

    Le texte d’un lien d’une page s’avère souvent beaucoup plus important que le PageRank de cette dernière.

    Source : http://searchengineland.com/what-is-google-pagerank-a-guide-for-searchers-webmasters-11068

    No Comments
  • Voici la suite de l’étude collective de Rand Fishkin (SEOmoz)
    sur les principaux facteurs présumés qui composent l’algorithme de classement des pages de résultats dans le moteur de recherche Google.

    Cette seconde partie aborde la place des critères de classement «off the page» dans le ranking de Google :

    Structure interne des liens : nombre et importance des pages du site pointant vers d’autres pages du même site (note moyenne : 4,1)

    Tous les spécialistes interrogés pour cette étude insistent de concert sur l’importance fondamentale d’un maillage des liens internes optimisé (barre de navigation avec liens-texte, insertion de mots-clés pertinents dans les ancres) : Jill Whalen qualifie ce critère de «d‘ingrédient clé», Chris Boggs souligne qu’il a «constaté de multiples exemples de positionnements en 1ere page sur des requêtes concurrentielles liés uniquement à un puissant maillage de liens internes». Nombre des intervenants, à l’image de Scottie Clairbone, Joost de Valk et Ani Kortikar regrettent que cette optimisation de la structure des liens internes soit souvent ignorée par beaucoup de webmasters.

    Pages de liens pointant vers des sites externes (note moyenne : 3,5)

    Ce type de page «annuaire» n’est pas considéré comme primordial dans le ranking de Google par la majorité des experts (Eric Ward souligne même que «de nombreux sites atteignent les 1eres pages de résultats alors qu’ils ne possèdent aucun liens externes»),
    Ben Pfeiffer, Aaron Wall et Rae Hoffma, considèrent cependant qu’une stratégie de linking externe est utile pour aider les moteurs de recherche à déterminer l’univers thématique auquel appartient le site.

    Age de la page (note moyenne : 3,4)

    L’ancienneté d’une page, c’est à dire sa date d’indexation n’est pas considérée comme un critère de classement fondamental selon nos experts anglophones, à l’image de Aaron Wall et Caveman qui soulignent la «prime à la fraîcheur» souvent accordée par Google aux nouvelles pages. Pour la majorité des intervenants ce sont, plus que l’âge de la page, l’ancienneté du domaine et des liens pointant vers celui-ci qui sont pris en compte par Google.

    Quantité de texte indexable contenu dans la page (note moyenne : 3,2)

    Il y a unanimité des intervenants pour affirmer que le nombre de mots ou de lignes d’une page web n’influencera pas ou très peu son ranking dans Google, à l’image de Russ Jones qui indique avoir positionné de très nombreux sites avec «moins de 15 mots par page». Jonah Stein précise cependant que «les pages tout en flash ou avec seulement des images sont rarement performantes en terme de ranking», alors que Wil Reynolds souligne l’utilité d’un contenu textuel étoffé dans la création et l’entretien du phénomène de «longue traîne» (positionnement sur des requêtes ciblées générées naturellement par un long rédactionnel).

    Fréquence de mise à jour de la page (note moyenne : 2,4)

    Les retours d’éxpérience des intervenants vont tous dans le même sens : l’importance dans le ranking de Google de la fraîcheur de contenu varie en fonction du degré de sensibilité à l’actualité du sujet traité.Laura Lippay résume bien cette idée lorsqu’elle écrit que la fréquence de mise à jour d’un site sur les animaux n’est pas fondamentale pour la pertinence du site, à l’inverse d’un site de news.

    Source : http://www.seomoz.org/article/search-ranking-factors

    No Comments