SEO Deepening: comprendre et optimiser les robots WordPress. Fichier txt
Moteur de recherche ncipali, mais les Crawlers malveillants et les Crawlers de recherche de faible qualité peuvent l’ignorer complètement.
Comment en créer un et où le mettre? Créez votre propre robot. Txt est aussi simple que de créer un fichier texte avec votre éditeur préféré et de l’appeler un robot. Txt. Il suffit de l’enregistrer et vous avez fini. Sérieusement, c’est trop facile. OK, et la deuxième étape: Télécharger par FTP. Les fichiers sont généralement placés dans le dossier d’accueil, même si vous avez déplacé WordPress dans son répertoire. Une bonne règle de pratique est de le mettre au même endroit que l’index. Php, attendez que le téléchargement soit terminé et vous avez terminé. N’oubliez pas que vous aurez besoin d’un fichier robots. Fournir txt pour chaque sous – domaine du site et pour différents protocoles tels que HTTPS.
Comment définir les règles à l’intérieur d’un robot. Fichier txt
Agent utilisateur – définir l’inhibition du moteur de recherche – dire au crawler de se tenir à l’écart des fichiers, des pages ou des répertoires définis si vous n’avez pas défini différentes règles pour différents Crawlers ou moteurs de recherche, vous pouvez utiliser un astérisque (*) pour définir des instructions générales pour tout le monde. Par exemple, pour empêcher tout le monde d’accéder à l’ensemble du site, vous configurerez les robots. Txt est le suivant: User agent: *
Non autorisé: \/ cela signifie essentiellement que tous les moteurs de recherche interdisent tous les répertoires. Notez que les fichiers utilisent des chemins relatifs (au lieu de
Absolument). À cause des robots. Txt réside dans le Répertoire d’accueil et un diagramme à barres indique que cet emplacement et tout ce qu’il contient ne sont pas autorisés. Pour définir les répertoires individuels, tels que les dossiers médias, comme des répertoires inaccessibles, vous devriez écrire quelque chose comme \/ WP content \/ uploads \/. Rappelez – vous également que les chemins sont sensibles à la casse.
Si cela a du sens pour vous, vous pouvez également autoriser et refuser à certains robots l’accès à certaines parties de votre site. Par exemple, le code suivant dans un robot. Txt permet seulement à Google d’accéder pleinement à votre site, à l’exclusion de tous les autres sites: agent utilisateur: Google bot
Non autorisé:
Agent utilisateur:
Non autorisé: \/ N Veuillez noter que les règles pour un crawler particulier doivent être définies au début du fichier robots. Txt. Vous pouvez ensuite inclure un joker utilisateur – agent: * comme instruction catch all pour tous les rampants sans règles explicites. Les noms d’agents utilisateurs notables comprennent:
Google BOT – Google Google BOT Pictures – Google Google Google BOT Pictures News – Google News bingbot – Bing Yahoo! Slurp – Yahoo (meilleur choix de nom, Yahoo!) Vous trouverez plus de détails ici: usersagentstring. Com user agent. Encore une fois, Google, Yahoo, Bing et d’autres sites Web suivent généralement les lignes directrices de vos fichiers, mais tous les Crawlers ne le font pas. D’autres syntaxe ne permettent pas et l’agent utilisateur n’est pas la seule règle disponible. Voici d’autres: autoriser: autoriser explicitement la numérisation des entités sur la carte du site du serveur: Indiquer à crawler où se trouve la carte du site de votre hôte – définir la latence de crawl de domaine préférée pour les sites avec plusieurs miroirs – définir l’intervalle de temps que les moteurs de recherche doivent attendre avant d’envoyer une demande à votre serveur laissez – nous discuter avant d’autoriser. Une idée fausse courante est que cette règle est utilisée pour dire aux moteurs de recherche de vérifier votre site, donc im
Pour des raisons de référencement. Par conséquent, dans certains fichiers robots. Txt trouvera ce qui suit:
Agent utilisateur:
Autoriser: \/ N cette directive est redondante. Pourquoi? Parce que les moteurs de recherche pensent que tout ce qui n’est pas explicitement interdit sur votre site est juste. Dites – leur que vous ne changerez pas grand – chose en permettant à tout le site de ramper. Au lieu de cela, la directive allow est utilisée pour désactiver. Ceci est utile si vous voulez bloquer l’ensemble du Répertoire, mais permettre aux moteurs de recherche d’accéder à un ou plusieurs de ces fichiers spécifiques de la manière suivante: agent utilisateur: *
Autoriser: \/ mon répertoire \/ mes fichiers. Php
Non autorisé: \/ mon répertoire \/ moteur de recherche est généralement loin de mon répertoire, mais mes fichiers sont toujours accessibles. Php. Cependant, il est important de noter que la directive allow doit être insérée avant qu’elle puisse fonctionner.
Certains Crawlers prennent en charge la directive sitemap. Vous pouvez l’utiliser pour leur dire où trouver la carte du site de votre site, qui ressemble à ceci: http:\/\/mysite.com\/sitemap_index.xml
Plan du site: http:\/\/mysite.com\/post-sitemap.xml
Plan du site: http:\/\/mysite.com\/page-sitemap.xml
Plan du site: http:\/\/mysite.com\/category-sitemap.xml
Plan du site: http:\/\/mysite.com\/post_tag-sitemap.xml Cette directive se trouve n’importe où dans le fichier robots. Txt. En général, le propriétaire du site choisit de le placer au début ou à la fin. Toutefois, son utilité est douteuse. Par exemple, yoast a les idées suivantes:
\
Si vous avez plus d’un miroir de site, ominio est votre préféré. Ce dernier définit le nombre de secondes que le crawler doit attendre entre les scans. Étant donné que ni l’un ni l’autre n’est très courant, je n’ai pas l’intention d’en discuter trop, mais pour des raisons d’exhaustivité, je voudrais les inclure. Toujours avec moi? Très bien. La situation est devenue plus compliquée. Nous savons déjà que nous pouvons définir des caractères génériques pour les agents utilisateurs avec un astérisque. Toutefois, il en va de même pour les autres directives. Par exemple, si vous voulez empêcher l’accès à tous les dossiers qui commencent par WP: *
Non autorisé: \/ WP – * \/ est raisonnable, n’est – ce pas? Il en va de même pour les documents. Par exemple, si mon but est d’exclure tous les fichiers PDF du dossier Média des serp, je vais utiliser le code suivant: User agent: *
Non autorisé: \/ WP content \/ upload \/ * \/ *. PDF note que j’ai remplacé le répertoire des mois et des dates automatiquement définis par WordPress par des caractères génériques pour m’assurer que tous les fichiers à cette fin sont saisis, peu importe quand ils sont téléchargés. Bien que cette technique fonctionne bien dans la plupart des cas, vous devez parfois définir une chaîne en fonction de sa fin plutôt que de son début. C’est là que les caractères génériques du symbole dollar sont utiles: agent utilisateur: *
Non autorisé: \/ page. Php $les règles ci – dessus garantissent que seules les pages sont bloquées. Php, pas la page. Php? Id = 12. Le symbole dollar indique au moteur de recherche quelle page. PHP est la fin de la chaîne. Propre, hein? OK, mais qu’est – ce que j’ai besoin d’entrer dans mon fichier robot. Txt maintenant? Je vois que tu deviens impatient. Où est le code? Puis – je publier des instructions optimisées ici et vous n’avez qu’à copier, coller et compléter ce sujet? Bien que je le veuille, malheureusement, la réponse est non. L’une des raisons est
Le contenu du robot. Txt dépend vraiment de votre site. Il y a peut – être des choses que vous préférez éviter des moteurs de recherche dont les autres ne se soucient pas. Deuxièmement, et c’est le plus important, il n’existe pas de normes convenues pour la mise en place des meilleures pratiques et méthodes de robotique. Txt dans le référencement. Toute la question est un peu controversée. Par exemple, les anciens n’avaient que quelques – uns des robots suivants. Txt: User agent: *
Non autorisé: \/ out \/ comme vous pouvez le voir, la seule chose qu’ils interdisent est leur répertoire \
Non autorisé:
Agent utilisateur: mediapartners Google
Non autorisé:
Agent utilisateur:
Non autorisé: \/ DropBox
Sans objet
Aide En ce qui concerne la configuration des robots, je suis d’accord avec la conclusion finale de yoast. Txt. Du point de vue du référencement, il est logique d’aider Google autant que possible afin qu’il puisse comprendre votre site. Cependant, si vous souhaitez conserver certaines parties (comme les liens d’affiliation), ne les autorisez pas au besoin. Ceci est également étroitement lié aux chapitres pertinents de WordPress Codex: « ajouter des entrées à robots.txt pour aider au référencement est un malentendu populaire. Google a indiqué que vous pouvez utiliser robots.txt pour bloquer certaines parties du site, mais il préférerait maintenant que vous ne le fassiez pas. Au lieu de cela, utilisez la balise NOINDEX au niveau de la page pour résoudre les parties de faible qualité du site. Depuis 2009, Google est de plus en plus clair dans ses recommandations pour éviter de bloquer Les fichiers JS et CSS, ainsi que l’équipe qualité de la recherche de Google, ont activement promu la politique de transparence des webmestres pour aider Google à vérifier si nous cachons ou relions des pourriels laids sur des pages masquées. Par conséquent, le fichier Robot idéal ne permet rien du tout et si une carte de site XML précise a été construite, il peut être relié à une carte de site XML (bien que cela soit rare en soi!). WordPress ne bloque par défaut que quelques fichiers JS, mais il est presque conforme aux instructions de Google. \