Mangel an Roboter TXT. Meta-Tag-Roboter und wie es verschrieben wird. Was macht man als nächstes

Arten von Roboter Yandex

  • Yandex / 1.01.001 (kompatibel; Win16; I) - der Hauptindex-Roboter
  • Yandex / 1.01.001 (kompatibel; Win16; P) - Indexer von Bildern
  • Yandex / 1.01.001 (kompatibel; Win16; H) - ein Roboter, der die Spiegel von Standorten bestimmt
  • Yandex / 1.02.000 (kompatibel; Win16; F) - Roboter, Indexing-Site-Symbole (Favicons)
  • Yandex / 1.03.003 (kompatibel; Win16; D) - ein Roboter, der an der Seite anspricht, wenn sie über das Formular "URL hinzugefügt werden".
  • Yandex / 1.03.000 (kompatibel; Win16; M) - ein Roboter, der beim Öffnen der Seite auf dem Link "gefundene Wörter" anspricht
  • YADIRtrECTBOT / 1.0 (kompatibel; Win16; I) - Roboter, Indexing-Site-Seiten, die am Yandex-Werbenetzwerk beteiligt sind
  • Yandexblog / 0.99.101 (kompatibel; dos3.30, b) ist ein Roboter, der XML-Dateien indexiert, um nach Blogs zu suchen.
  • Yandexsomething / 1.0 ist ein Roboter, indexing Nachrichtenströme von Yandex-Nachrichtenpartnern.
  • BOND, JAMES BOND (Version 0.07) - ein Roboter, der von dem Subnetz von Yandex zu Standorten kommt. Offiziell noch nie erwähnt. Seiten selektiv auf den Seiten. Der Referenz passiert nicht. Bilder laden nicht. Nach den Gesängen urteilen, ist der Roboter mit der Überprüfung von Standorten auf Verstößen - Clobing usw. tätig.

IP-Adressen von Yandex-Robotern

IP-Adressen, aus denen der Yandex-Roboter "geht", und sie können sich ändern. Die Liste der Adressen ist nicht offenbart.

Neben den Robotern hat Yandex mehrere "Nature" -Anges, die bestimmen, ob der Standort oder das Dokument derzeit zur Verfügung steht, auf die der Link in dem jeweiligen Dienst verfügbar ist.

  • Yandex / 2.01.000 (kompatibel; Win16; Dyatel; c) - "schlafendes" yandex.catalog. Wenn der Standort mehrere Tage nicht verfügbar ist, wird sie aus der Publikation entfernt. Sobald die Site beginnt zu antworten, erscheint sie automatisch im Verzeichnis.
  • Yandex / 2.01.000 (kompatibel; Win16; Dyatel; Z) - "Ernährung" Yandex. Klapses. Links zu unzugänglichen Standorten sind mit Grau markiert.
  • Yandex / 2.01.000 (kompatibel; Win16; dyatel; d) - "schlafendes" yandex.direct. Es prüft die Richtigkeit von Links vor Anzeigen vor der Moderation. Es wird keine automatische Aktion durchgeführt.
  • Yandex / 2.01.000 (kompatibel; Win16; Dyatel; n) - "Naval" yandex.news. Es bildet einen Bericht für den Content-Manager, der den Umfang der Probleme auswertet und ggf. dem Partner zusammenhängt.

Richtlinie Host.

Um Probleme mit Standortspiegel zu vermeiden, wird empfohlen, die Host-Richtlinie zu verwenden. Die Host-Richtlinie zeigt den Yandex-Roboter auf dem Hauptspiegel dieser Site an. Mit der Nichtgesetzungsrichtlinie ist es nicht verbunden.

Benutzer-Agent: Yandex
Nicht zulassen: / cgi-bin
Host: www.site.ru.

Benutzer-Agent: Yandex
Nicht zulassen: / cgi-bin
Host: site.ru.

je nachdem, was für Sie optimal ist.

Frage: Wann ist es geplant, rechtzeitig der Host-Richtlinie einzuhalten: in robots.txt? Wenn der Standort als www.site.ru indiziert wird, wenn er mit dem Host angezeigt wird: site.ru Nach Roboter.txt wurde 1-2 Wochen aufgestellt, dann kleidet der Standort mit www und ohne www nicht mehr als 1-2 Monate an In Yandex gibt es gleichzeitig 2 Kopien von teilweise kreuzenden Sites (ein 550 Seiten, weitere 150 Seiten mit 50 Seiten desselben). Bitte kommentieren Sie das Problem mit der Arbeit des "Spiegels".
Antworten: Erweiterung des von Yandex eingeführten Roboters.txt-Standards Wenn Sites als Spiegel identifiziert werden, funktioniert die Hostrichtlinie.

HTML-Tag.

Der Yandex-Roboter unterstützt das Noindex-Tag, das den YANDEX-Roboter verbietet, den angegebenen (Dienst-) (Service-) Abschnitten des Textes zu indexieren. Zu Beginn des Service-Fragments ist eingestellt , und am Ende -Und Yandex wird diesen Abschnitt des Textes nicht indexieren.

Grüße an Sie, liebe Leser SEO Blog Pingo. In diesem Artikel möchte ich meine Vorstellung angeben, wie robots.txt korrekt für den Standort hergestellt wird. Zu einem Zeitpunkt war ich sehr nervig, dass Informationen über das Internet zu diesem Thema ziemlich fragmentarisch sind. Aus diesem Grund musste ich durch eine Vielzahl von Ressourcen kriechen, wodurch sich ständig wiederholte Informationen filtriert und einen neuen auffüllte.

So werde ich hier versuchen, die meisten Fragen zu beantworten, beginnend mit der Definition und dem Ende mit den Beispielen realer Aufgaben, die von diesem Werkzeug gelöst werden. Wenn Sie etwas vergessen - notieren Sie sich in den Kommentaren darüber - die Studienfrage und ergänzen Sie das Material.

Roboter.txt - was ist es, warum brauchst du und wo kann es wohnen?

Also zuerst eine Libez für diejenigen, die dieses Thema unberührt vollständig.

Roboter.txt ist eine Textdatei, die die Anweisungen zum Indexieren der Site für Roboter von Suchmaschinen enthält. In dieser Datei kann der Webmaster die Parameter seiner Site-Indizierung sowohl für alle Roboter sofort als auch für jeden ermitteln suchmaschine separat (zum Beispiel für Google).

Wo ist robots.txt? Es befindet sich in dem Stammordner der FTP-Site, und in der Tat ist ein regelmäßiges Dokument im TXT-Format, dessen Bearbeitung über einen beliebigen Texteditor erfolgen kann (ich persönlich bevorzugen Notepad ++). Der Inhalt der ROBOSTEN-Datei ist durch Eingabe von adresszeile Browser http: //www.vash-site.ru/robots.txt. Wenn es natürlich existiert.

Wie erstellt man Robots.txt für die Site? Es reicht aus, eine reguläre Textdatei mit demselben Namen zu erstellen und auf den Standort hochzuladen. Wenn Sie es richtig konfigurieren und ausmachen, wird unten gesagt angezeigt.

Struktur und korrekte Konfiguration der Roboter.txt-Datei

Wie sollen die korrekte Roboter-TXT-Datei für die Site aussehen? Die Struktur kann wie folgt beschrieben werden:

1. User-Agent Richtlinie

Was soll ich in diesem Abschnitt schreiben? Diese Richtlinie legt fest, was genau die Anweisungen für eine welcher Art von Roboter konzipiert sind. Wenn sie beispielsweise für alle Roboter vorgesehen sind, dann ausreichend das nächste Design:

In der Syntax der Roboter.txt-Datei entspricht das Zeichen "*" dem Ausdruck "ALLES". Wenn Sie Anweisungen für eine bestimmte Suchmaschine oder einen Roboter angeben müssen, wird das Kettenrad aus dem vorherigen Beispiel seinen Namen geschrieben, zum Beispiel:

Benutzer-Agent: yandexbot

Jede Suchmaschine verfügt über einen ganzen Satz von Robotern, die bestimmte Funktionen ausführen. Die Roboter der Yandex-Suchmaschine werden beschrieben. Im Allgemeinen gibt es Folgendes:

  • Yandex ist ein Hinweis auf Yandex-Roboter.
  • GoogleBot ist der Haupt-Indexierungsroboter.
  • Msnbot ist der Hauptindexierungsroboterbing.
  • Roboter von APORT - APORT.
  • Mail.ru - PS-Mail-Roboter.

Wenn es eine Richtlinie für eine bestimmte Suchmaschine oder einen Roboter gibt, wird der General ignoriert.

2. Die Richtlinie zulassen.

Ermöglicht die individuelle Seite des Abschnitts, wenn es jedoch zuvor ausschließlich von der Indexierung geschlossen wurde. Beispielsweise:

User-Agent: *
Nicht zulassen: /
Erlauben: / otkrotyuyan.html.

IM dieses Beispiel Wir verbieten die Indexierung der gesamten Site außer poni.html-Seite

Es dient dieser Richtlinie in gewissem Umfang, um den Ausschluss von den durch die Verbindungsrichtlinie festgelegten Regeln anzuzeigen. Falls es keine solchen Situationen gibt, darf die Richtlinie überhaupt nicht verwendet werden. Es erlaubt Ihnen nicht, eine Website für die Indizierung zu eröffnen, da viele Leute denken, denn wenn es kein Verbot der Nichtgewinnung gibt: /, dann ist es standardmäßig geöffnet.

2. Richtlinie nicht zulassen

Es ist ein Antipode der Lassenrichtlinie und schließt einzelne Seiten von Indizierung, Partitionen oder einer ganzen Site. Es ist ein Analogon des Noindex-Tags. Beispielsweise:

User-Agent: *
Nicht zulassen: / runden.html.

3. Gastgeberrichtlinie.

Wird nur für Yandex verwendet und zeigt den Hauptspiegel der Site an. Es sieht aus wie das.

Der Hauptspiegel ohne www:

Hauptspiegel mit www:

Host: www.site.ru.

Site auf https:

Host: https://site.ru.

Sie können die Host-Richtlinie nicht zweimal in der Datei aufnehmen. Wenn dies aufgrund eines gewissen Fehlers passiert ist, wird die gleiche Richtlinie verarbeitet, die zuerst ist, und der zweite wird ignoriert.

4. Sitemap-Richtlinie

Wird verwendet, um den Pfad zur XML-Site Map Sitemap.xml anzugeben (falls vorhanden). Die Syntax lautet wie folgt:

Sitemap: http://www.site.ru/sitemap.xml.

5. Clean-Param-Richtlinie

Zur Schließung von Indexing-Seiten mit Parametern, die DUBS sein können. Sehr nützlich meiner Meinung nach der Richtlinie, die den parametrischen Schwanz der Urlonen abschneidet und nur das Rückgrat hinterlässt, was der Grad der Seite ist.

Besonders oft auftreten, wenn Sie mit Katalogen und Online-Shops arbeiten.

Nehmen wir an, wir haben eine Seite:

http://www.site.ru/index.php.

Und diese Seite kann im Prozess der Arbeit Klone der Arten konfrontiert sein.

http://www.site.ru/index.php?option\u003dcom_user_view\u003dremind.
http://www.site.ru/index.php?option\u003dcom_user_view\u003dreset.
http://www.site.ru/index.php?option\u003dcom_user_view\u003dlogin.

Um alle möglichen Optionen für diesen Spam loszuwerden, reicht es aus, das folgende Design anzugeben:

Clean-Param: Option /index.php

Syntax aus dem Beispiel, denke ich, ist klar:

Clean-Param: # Geben Sie die Richtlinie an
Option # Geben Sie den Spam-Parameter an
/Index.php # Geben Sie das Rückgrat der URLA mit einem Spiel an

Wenn mehrere Parameter vorhanden sind, listen Sie sie einfach per EMPERSANT auf (&):

http://www.site.ru/index.php?option\u003dcom_user_view\u003dremind&size\u003dBig # ul mit zwei Parametern
Clean-Param: Option & Big /Index.php # Zeigt zwei Parameter durch den KERNENSATT an

Ein Beispiel wird einfach gemacht, der das Wesen selbst erläutert. Besonders dank dieses Parameters möchte ich sagen, wenn ich mit CMS-Bitrix arbeite.

Crawl-Delay-Richtlinie

Ermöglicht das Einstellen des Timeouts, um die Seite der Site mit dem Yandex-Roboter herunterzuladen. Wird mit einer großen Serverlast verwendet, bei der es einfach keine Zeit hat, den Inhalt schnell zu geben. Meiner Meinung nach ist dies ein Anachronismus, der nicht mehr berücksichtigt wird und nicht verwendet werden kann.

Crawl-Delay: 3.5 # Timeout um 3,5 Sekunden

Syntax

  • # - verwendet, um Kommentare zu schreiben:
  • Benutzer-Agent: * # Richtlinie bezieht sich auf alle Roboter

  • * - bedeutet jede Reihenfolge von Zeichen, Wert:
  • Nicht zulassen: / Seite * Bans aller von allen Seiten beginnend mit

    Nicht zulassen: / * Seite # Bans aller Seiten, die auf der Seite enden

    Nicht zulassen: /cgi-bin/*.aspx # Verbot aller Aspx-Seiten im Ordner CGI-BIN

  • $ - Schnittregeln, Antipode-Zeichen Asterisk:
  • Nicht zulassen: Nur Seite / Seite, nicht /Page.html oder pageline.html

Beispiel Roboter.txt-Datei.

Um das Verständnis der oben beschriebenen Struktur und Regeln zu konsolidieren, geben wir den Standard-Roboter TXT für CMS-Datenlebensdauer-Motor an.

Benutzer-Agent: * # Richtlinien sind für alle Suchmaschinen konzipiert
Nicht zulassen: /engine/go.php # verbieten separate Abschnitte und Seiten
Nicht zulassen: /engine/download.php #
Nicht zulassen: / Benutzer / #
Nicht zulassen: / newposts / #
Nicht zulassen: / * Subction \u003d UserInfo # Schließen Sie Seiten mit separaten Parametern
Nicht zulassen: / * SubAction \u003d NewPosts #
Nicht zulassen: / * do \u003d lastvements #
Nicht zulassen: / * do \u003d Feedback #
Nicht zulassen: / * do \u003d registrieren #
Nicht zulassen: / * do \u003d lostPassword #
Host: www.syt # Geben Sie den Hauptspiegel an
Sitemap: https: //syt/sitemap.xml # Geben Sie den Weg zur Site-Karte an
Benutzer-Agent: APORT # Geben Sie das Recht der Regeln für PS-APORT an
Nicht zulassen: / # Angenommen, wir wollen nicht mit ihnen befreundet sein

Überprüfen Sie Robots.txt.

Wie kann man Roboter txt über die Richtigkeit der Zusammenstellung überprüfen? Standardoption - Yandex-Validator - http://webmaster.yandex.ru/robots.xml. Wir geben den Pfad in Ihre Roboter-Datei ein oder fügen Sie ihn sofort in das Textfeld ein. Wir geben eine Liste der Ulles ein, die wir überprüfen möchten - geschlossen oder sie sind nach den angegebenen Richtlinien geöffnet - klicken Sie auf "Check" und Voila! Profitieren.

Der Status der Seite wird angezeigt - ob es offen ist, indexiert oder geschlossen zu werden. Wenn geschlossen, wird angezeigt, wie genau die Regel ist. Um die Indexierung einer solchen Seite zu beheben, müssen Sie die Regel abschließen, an der der Validator angezeigt wird. Wenn in der Datei Syntaxfehler vorhanden sind, berichtet der Validator dies auch.

Roboter.txt Generator - Online erstellen

Wenn Sie die Syntax des Wunschs oder der Zeit nicht studieren, ist nicht, aber die Notwendigkeit, die Spam-Seiten der Site zu schließen, ist vorhanden, Sie können einen beliebigen kostenlosen Online-Generator verwenden, der Roboter TXT für den Standort des gesamten Klicks erstellt. Dann laden Sie einfach die Datei herunter und laden Sie es auf Ihre Site herunter. Wenn Sie damit arbeiten, müssen Sie nur Zecken aus offensichtlichen Einstellungen einfügen und die Seiten angeben, die Sie von der Indexierung schließen möchten. Der Rest des Generators macht es für Sie.

Bereite Dateien für beliebte CMS

Roboter.txt-Datei für Site auf 1c Bitrix

User-Agent: *
Nicht zulassen: / bitrix /
Nicht zulassen: / personal /
Nicht zulassen: / Upload /
Nicht zulassen: / * login *
Nicht zulassen: / * auth *
Nicht zulassen: / * Suche
Nicht zulassen: / *? Sort \u003d
Nicht zulassen: / * gclid \u003d
Nicht zulassen: / * Registrieren \u003d
Nicht zulassen: / *? Per_count \u003d
Nicht zulassen: / * vergiss_password \u003d
Nicht zulassen: / * change_password \u003d
Nicht zulassen: / * logout \u003d
Nicht zulassen: / * back_url_admin \u003d
Nicht zulassen: / * druck \u003d
Nicht zulassen: / * backurl \u003d
Nicht zulassen: / * backurl \u003d
Nicht zulassen: / * back_url \u003d
Nicht zulassen: / * back_url \u003d
Nicht zulassen: / * add2casket
Nicht zulassen: / * add_to_compare_list
Nicht zulassen: / * delete_from_compare_list
Nicht zulassen: / * Action \u003d Buy
Nicht zulassen: / * set_filter \u003d y
Nicht zulassen: / *? Mode \u003d Matrix
Nicht zulassen: / *? MODE \u003d LISTITEMS
Nicht zulassen: / * OpenStat
Nicht zulassen: / * von \u003d Adwords
Nicht zulassen: / * utm_source
Host: www.site.ru.

Roboter.txt für Datalife-Motor (dle)

User-Agent: *
Nicht zulassen: /engine/go.php.
Nicht zulassen: /engine/download.php.
Nicht zulassen: / Motor / Klassen / Highslide /
Nicht zulassen: / Benutzer /
Nicht zulassen: / Tags /
Nicht zulassen: / newPosts /
Nicht zulassen: {statistics.html.
Nicht zulassen: / * SubAction \u003d UserInfo
Nicht zulassen: / * SubAction \u003d NewPosts
Nicht zulassen: / * do \u003d lastvements
Nicht zulassen: / * do \u003d Feedback
Nicht zulassen: / * do \u003d registrieren
Nicht zulassen: / * do \u003d lostpassword
Nicht zulassen: / * do \u003d AddNews
Nicht zulassen: / * do \u003d statists
Nicht zulassen: / * do \u003d pm
Nicht zulassen: / * do \u003d Suche
Host: www.site.ru.
Sitemap: http://www.site.ru/sitemap.xml.

Roboter.txt für Joomla.

User-Agent: *
Nicht zulassen: / Administrator /
Nicht zulassen: / Cache /
Nicht zulassen: / beinhaltet /
Nicht zulassen: / Installation /
Nicht zulassen: / Sprache /
Nicht zulassen: / Bibliotheken /
Nicht zulassen: / Medien /
Nicht zulassen: / Module /
Nicht zulassen: / Plugins /
Nicht zulassen: / Templates /
Nicht zulassen: / tmp /
Nicht zulassen: / xmlrpc /
Nicht zulassen: * drucken
Nicht zulassen: / * utm_source
Nicht zulassen: / * mailto *
Nicht zulassen: / * Start *
Nicht zulassen: / * Feed *
Nicht zulassen: / * Suche *
Nicht zulassen: / * Benutzer *
Host: www.site.ru.
Sitemap: http://www.site.ru/sitemap.xml.

Roboter.txt für WordPress.

User-Agent: *
Nicht zulassen: / cgi-bin
Nicht zulassen: / WP-Admin
Nicht zulassen: / wp-beinhaltet
Nicht zulassen: / WP-Inhalt / Plugins
Nicht zulassen: / WP-Inhalt / Cache
Nicht zulassen: / WP-Inhalt / Themen
Nicht zulassen: * / Trackback
Nicht zulassen: * / Futter
Nicht zulassen: /wp-login.php.
Nicht zulassen: /wp-register.php.
Host: www.site.ru.
Sitemap: http://www.site.ru/sitemap.xml.

Roboter.txt für Ucoz.

User-Agent: *
Nicht zulassen: / a /
Nicht zulassen: / stat /
Nicht zulassen: / index / 1
Nicht zulassen: / index / 2
Nicht zulassen: / index / 3
Nicht zulassen: / Index / 5
Nicht zulassen: / index / 7
Nicht zulassen: / index / 8
Nicht zulassen: / index / 9
Nicht zulassen: / Panel /
Nicht zulassen: / admin /
Nicht zulassen: / sicher /
Nicht zulassen: / Informer /
Nicht zulassen: / mchat
Disomatow: / Suche
Nicht zulassen: / Shop / Bestellung /
Nicht zulassen: /? Ssid \u003d
Nicht zulassen: / Google
Nicht zulassen: /

Verkaufsgenerator.

Wenn Sie beim Erstellen der Roboters.txt-Datei falsch sind, kann dies unbrauchbar sein roboter suchen. Das Risiko einer falschen Übertragung auf Suchroboter wird angezeigt notwendige BefehleDas wird die Bewertung reduzieren, die Benutzerindikatoren der virtuellen Plattform ändern. Auch wenn die Site gut funktioniert und voll ist, tut der Roboter.txt-Check ihn nicht, sondern wird es nur besser machen.

Aus diesem Artikel lernen Sie:

Was wird benötigt, wenn Roboters.txt überprüft wird

Manchmal enthält die Systemsuchergebnisse unnötige Seiten Ihrer Internetressource, die nicht erforderlich ist. Es mag scheinen, dass in einer großen Anzahl von Seiten im Suchmaschinenindex nichts Schlimmes nicht schlecht ist, aber es ist nicht:

  • Auf den unnötigen Seiten finden der Benutzer keine nützliche Informationen für sich. Mit einer größeren Wahrscheinlichkeit wird er überhaupt nicht auf diese Seiten besuchen, entweder lange zu ihnen verweilen;
  • Bei der Ausgabe der Suchmaschine befinden sich einige und die gleichen Seiten, deren Adressen unterschiedlich sind (dh der Inhalt ist dupliziert);
  • Suchroboter müssen viel Zeit damit verbringen, perfekt unnötige Seiten zu indexieren. Anstatt nützliche Inhalte zu indeximieren, werden sie unbrauchbar sein, um den Standort umzusetzen. Da der Roboter die gesamte Ressource nicht indexieren kann, und das Kapitel macht (da es viele Websites gibt), dann sind die gewünschten Informationen, die Sie nach der Anforderung erhalten möchten, nicht sehr schnell gefunden werden.
  • Der Server ist sehr belastet.

In dieser Hinsicht ist es ratsam, den Zugriff auf Suchroboter in einigen Webressourcen zu schließen.

Welche Dateien und Ordner können den Index verboten sein:

  1. Seite suche Seite. Dies ist ein umstrittener Punkt. Manchmal ist die Verwendung der internen Suche auf der Website erforderlich, um relevante Seiten zu erstellen. Aber das ist nicht immer fertig. Oft wird das Ergebnis der Suche zum Erscheinungsbild einer großen Anzahl von doppelten Seiten. Daher wird empfohlen, die Suchseiten für die Indexierung zu schließen.
  2. Der Korb und die Seite, auf der sie die Bestellung ausgestellt / bestätigen. Ihre Schließung wird für Online-Handelsstandorte und andere kommerzielle Ressourcen mit dem Bestellformular empfohlen. Der Eintrag dieser Seiten in den Suchmaschinenindex ist äußerst unerwünscht.
  3. Seite Pagaze. In der Regel zeichnet sie sich durch automatische Verschreibungen derselben Meta-Tags aus. Darüber hinaus werden sie zur Unterbringung dynamischer Inhalte verwendet, daher erscheinen Duplikas in den Ergebnissen der Ausgabe. In dieser Hinsicht sollte die Paginierung zur Indizierung geschlossen werden.
  4. Filter und Vergleich von Waren. Sie müssen Online-Shops und Katalogseiten schließen.
  5. Registrierungs- und Berechtigungsseiten. Sie müssen in Verbindung mit der Vertraulichkeit der Benutzer schließen, die von Benutzern bei der Registrierung oder Autorisierung von Daten eingeben oder anprotokolliert werden. Die Unzugänglichkeit dieser Indexierungsseiten wird von Google geschätzt.
  6. Systemkataloge und -dateien. Jede Ressource im Internet besteht aus einer Vielzahl von Daten (Skripts, tabellen CSS., administrativer Teil), der nicht von Robotern betrachtet werden sollte.

Schließen Sie Dateien und Seiten für die Indexierung hilft der Datei robots.txt.

roboter.txt ist eine reguläre Textdatei, die Anweisungen für Suchroboter enthält. Wenn sich der Suchroboter auf der Website herausstellt, ist es hauptsächlich mit der Suche nach der Datei robots.txt. Wenn es fehlt (oder leer), geht der Roboter auf alle Seiten und Ressourcenkataloge (einschließlich System), die frei zugänglich sind, und versuchen, ihre Indexierung durchzuführen. Gleichzeitig gibt es keine Garantie dafür, dass die von Ihnen benötigte Seite indiziert werden soll, da sie möglicherweise nicht dazu kommt.

mit Robots.txt können Sie Suchroboter an die gewünschten Seiten senden und nicht zulassen, dass diese nicht indexiert werden sollten. Die Datei kann alle Roboter sofort und jeden separat anweisen. Wenn die Site-Seite von der Indexierung geschlossen ist, wird es in der Ausgabe der Suchmaschine niemals angezeigt. Erstellen einer Roboter.txt-Datei ist extrem notwendig.

Der Speicherort der Datei robots.txt sollte der Server sein, der Wurzel Ihrer Ressource. Die Datei robots.txt ist für das Anzeigen im Netzwerk verfügbar. Um es zu sehen, müssen Sie nach der Ressourcenadresse addieren /rottxt hinzufügen.

In der Regel unterscheiden sich die Roboters.txt-Dateien verschiedener Ressourcen voneinander. Wenn Sie die Datei eines ausländischen Site nachdenken, werden Sie bei der Indexierung Ihrer Suchroboter Probleme auftreten. Daher ist es notwendig, zu wissen, was Sie benötigen, um die Dateien und Anweisungen von Roboters.txt (Richtlinien) erforderlich, die beim Erstellen verwendet werden.


Reichen Sie Ihre Bewerbung ein

So überprüfen Sie Robots.txt yandex

  • Check-Datei wird helfen spezialdienst Yandex.vebmaster "robots.txt-Analyse". Sie finden es auf dem Link: http://webmaster.yandex.ru/robots.xml
  • In der vorgeschlagenen Form müssen Sie den Inhalt der Datei robots.txt eingeben, um auf Fehler zu überprüfen. Es gibt zwei Möglichkeiten, Daten einzugeben:
    1. Kommen Sie auf der Website mit dem HTTP-Link: //vash-site.ru/robots.txt, kopieren Sie den Inhalt in ein leeres Dienstfeld (wenn keine Roboters.txt-Datei vorhanden ist, müssen Sie es erstellen!);
    2. Fügen Sie einen Link in die geprüfte Datei in das Feld Hostname ein, klicken Sie auf "Roboters.txt von der Site herunterladen" oder geben Sie ein.
  • Die Prüfung der Prüfung wird durchgeführt, indem Sie auf den Befehl "Check" klicken.
  • Nach dem Laufen der Überprüfung können Sie die Ergebnisse analysieren.

Nach der Überprüfung des Tests zerlegt der Analysator jede Zeile des Inhalts des Felds "text robots.txt" und analysiert die angegebene Richtlinie. Außerdem erfahren Sie heraus, ob der Roboter die Seiten über das Feld URL-Listen umgehen wird.

Stellen Sie die Roboters.txt-Datei aus, die für Ihre Ressource geeignet ist. Sie können die Regeln bearbeiten. Vergessen Sie nicht, dass die Ressourcendatei selbst unverändert bleibt. Um Änderungen an der Kraft vorzunehmen, ist es erforderlich, die neue Version der Datei in der Site unabhängig herunterzuladen.

Bei der Überprüfung der Abschnitte Richtlinien, die für den Yandex-Roboter vorgesehen sind (Benutzer-Agent: Yandex oder User-Agent: *), wird der Analysator von den Roboters.txt-Regeln geleitet. Die verbleibenden Abschnitte werden in Übereinstimmung mit den Anforderungen des Standards geprüft. Wenn der Analysator die Datei zerlegt, wird eine Nachricht über die gefundenen Fehler angezeigt, warnt, ob Ungenauigkeiten beim Schreiben der Regeln, Listen, welche Teile der Datei für den Yandex-Roboter sind.

Analysator kann Nachrichten von zwei Typen senden: Fehler und Warnungen.

Wenn eine Fehlermeldung angezeigt wird, wird angezeigt, wenn eine Zeichenfolge, ein Abschnitt oder die gesamte Datei nicht vom Analysator verarbeitet werden kann, aufgrund des Vorhandenseins ernsthafter syntaktischer Fehler, die beim Erstellen von Richtlinien erlaubt waren.

In einer Warnung wird in der Regel berichtet, dass es von den Regeln abweicht, deren Korrektur vom Analysator unmöglich ist, oder das Vorhandensein eines potenziellen Problems (es kann nicht sein), deren Ursache zufällig typo oder ungenau ist zusammengestellte Regeln.

Eine Fehlermeldung "Diese URL gehört nicht zu Ihrer Domäne" sagt, dass die URL-Liste die Adresse eines der Spiegel Ihrer Ressource enthält, z. B. http://example.com stattdessen http://www.example.com (formal sind diese URL unterschiedlich). Es ist notwendig, dass die Adresse, die der Überprüfung unterliegt, der Website angehört, die Datei robots.txt analysiert wird.

So überprüfen Sie Robots.txt in Google

Mit dem Google-Suchkonsolen-Tool können Sie überprüfen, ob die Roboter.txt ein Verbot des GoogleBot-Roboters bestimmter URLs in Ihrer Ressource enthält. Beispielsweise haben Sie ein Bild, das Sie in den Ergebnissen der Suchergebnisse für die Bilder nicht sehen möchten. Mit dem Tool lernen Sie, ob der Roboter GoogleBot-Image-Zugriff auf dieses Bild hat.

Geben Sie dazu die interessierende URL an. Danach werden die Datei robots.txt vom Überprüfungswerkzeug verarbeitet, ähnlich dem GoogleBot-Roboter. Dadurch ist es möglich, festzustellen, ob diese Adresse verfügbar ist.

Überprüfung der Prozedur:

  • Gehen Sie nach der Auswahl Ihrer Ressource in der Google-Suchkonsole auf das Überprüfungs-Tool, das Ihnen den Inhalt der Datei robots.txt bietet. Der ausgewählte Text ist Fehler in Syntax oder logisch. Ihre Zahl ist unter dem Bearbeitungsfenster angegeben.
  • Am unteren Rand der Schnittstellenseite sehen Sie ein spezielles Fenster, in dem Sie die URL eingeben möchten.
  • Das Menü erscheint rechts, von dem Sie einen Roboter auswählen müssen.
  • Klicken Sie auf die Schaltfläche "Prüfen".
  • Wenn der Scheck mit dem verfügbaren Text angezeigt wird, bedeutet dies, dass die Roboter von Google die angegebene Seite besuchen darf. Der Status lautet "Nicht verfügbar" legt nahe, dass der Zugang zu ihren Robotern geschlossen ist.
  • Bei Bedarf können Sie das Menü ändern und einen neuen Scheck durchführen. Beachtung! Automatische Änderungen an der Datei robots.txt auf Ihrer Ressource erfolgen nicht.
  • Kopieren Sie die Änderungen und machen Sie sie auf der Datei robots.txt auf Ihrem Webserver.

Was achten Sie auf:

  1. Speichern Die im Editor auf dem Webserver vorgenommenen Änderungen erfolgt nicht. Es wird den empfangenen Code kopieren und in die Datei robots.txt einfügen.
  2. Erhalten Sie die Ergebnisse der Roboter.txt-Datei der Datei ROBOTS.TXT-Dateien können nur von Google-Benutzeragenten und Roboter mit Google sein (z. B. GoogleBot-Roboter). In diesem Fall ist die Garantie, dass die Interpretation des Inhalts Ihrer Datei mit Robotern anderer Suchmaschinen ähnlich ist, nein.

15 Fehler beim Überprüfen der Datei robots.txt

Fehler 1. Müde Anweisungen

Der häufigste Fehler in der Roboter.txt-Datei ist die verwirrte Anleitung. Z.B:

  • User-Agent: /
  • Nicht zulassen: Yandex.

Die richtige Option ist:

  • Benutzer-Agent: Yandex
  • Nicht zulassen: /

Fehler 2. Geben Sie mehrere Verzeichnisse an, in denen Sie den Unterricht nicht zulassen

Häufig versuchen die Eigentümer der Internetressourcen, alle Kataloge zu registrieren, die sie in den Indexen verbieten möchten, in derselben Nebenunterweisung.

Nicht zulassen: / CSS / / CGI-Bin / / Bilder /

Ein solcher Datensatz entspricht nicht den Anforderungen des Standards, um vorherzusagen, was die Verarbeitung mit verschiedenen Robotern nicht möglich ist. Einige von ihnen können Räume ignorieren. Ihre Interpretation des Datensatzes wird so sein: "Nicht zulassen: / CSS / CGI-Bin / Bilder /". Es kann nur der erste oder der letzte Ordner verwendet werden. Drittens und kann die Anweisungen überhaupt anziehen, ohne es zu verstehen.

Es besteht die Wahrscheinlichkeit, dass die Verarbeitung dieses Designs genau derjenige sein wird, für den der Meister berechnet wurde, aber trotzdem ist es besser, richtig zu schreiben:

  • Nicht zulassen: / CSS /
  • Nicht zulassen: / cgi-bin /
  • Nicht zulassen: / Bilder /

Fehler 3. Großbuchstaben sind im Dateinamen vorhanden

Der richtige Name der Datei ist robots.txt und nicht robots.txt oder robots.txt.

Fehler 4. Schreiben Sie den Dateinamen wie robot.txt anstelle von robots.txt

Denken Sie daran, rufen Sie die Datei robots.txt korrekt an.

Fehler 5. Verlassen Sie die Zeichenfolge im Benutzer-Agent leer

Falsche Option:

  • User-Agent:
  • Nicht zulassen:
  • User-Agent: *
  • Nicht zulassen:

Fehler 6. Schreiben Sie eine URL in der Host-Richtlinie

Die URL muss angegeben werden, ohne die Hypertext-Übertragungsprotokollabkürzung (http: //) zu verwenden und den Slash (/) zu schließen.

Ungültiger Datensatz:

Korrekte Option:

Die Verwendung der Host-Richtlinie ist nur für den Yandex-Roboter.

Fehler 7. Verwenden Sie Anweisungen, die Symbole der Substitution nicht zulassen

Manchmal, um alle Dateien file1.html anzugeben, file2.html, file3.html usw., kann ein webmaster schreiben:

  • User-Agent: *
  • Nicht zulassen: Datei * .html

Es ist jedoch unmöglich, dies zu tun, denn einige Roboter haben keine Unterstützung für Substitutionszeichen.

Fehler 8. Verwenden Sie zum Schreiben von Kommentaren und Anweisungen für eine Zeile

Der Standard ermöglicht solche Datensätze:

Nicht zulassen: / cgi-bin / # verbieten Roboter Index CGI-Bin

Zuvor war die Bearbeitung solcher Linien von einigen Robotern unmöglich. Vielleicht hat derzeit keine Suchmaschine Probleme damit, aber es lohnt sich, gefährdet zu werden? Es ist besser, Kommentare in einer separaten Zeile zu posten.

Fehler 9. Umleiten Sie in die 404. Fehlerseite

Wenn die Site nicht die Roboters.txt-Datei hat, wird, wenn Sie eine Suchmaschine anfordern, auf eine andere Seite weitergeleitet. Manchmal gibt es den Status 404 nicht zurück NICHT GEFUNDEN.. Der Roboter muss sich mit sich selbst befassen, dass er - robots.txt oder eine reguläre HTML-Datei erhalten. Es ist kein Problem, sondern besser, wenn die Site in der Wurzel platziert wird leere Akte robots.txt.

Fehler 10. Verwenden Sie Großbuchstaben - ein Zeichen eines schlechten Stils

Benutzer-Agent: GoogleBot

Obwohl die Empfindlichkeit von Robots.txt nicht in der Norm geregelt und nicht in das Register geregelt ist, nimmt er häufig die Dateinamen und Verzeichnisse an. Wenn die Datei robots.txt vollständig geschrieben ist großbuchstabenDies gilt als schlechtes Stil.

Benutzer-Agent: GoogleBot

Fehler 11. Aufzählung aller Dateien

Falsch wird jede Datei in dem Verzeichnis separat auflisten:

  • User-Agent: *
  • Nicht zulassen: /al/alabama.html.
  • Nicht zulassen: /al/ar.html.
  • Nicht zulassen: /az/az.html.
  • Nicht zulassen: /az/bali.html.
  • Nicht zulassen: /bed-breakfast.html.

Es wird aus der Indexierung des gesamten Verzeichnisses korrekt sein:

  • User-Agent: *
  • Nicht zulassen: / al /
  • Nicht zulassen: / AZ /

Fehler 12. Verwenden zusätzlicher Richtlinien im Abschnitt *

Es kann eine falsche Reaktion einiger Roboter geben, um zusätzliche Richtlinien zu nutzen. Daher ist die Verwendung von ihnen im Abschnitt "*" unerwünscht.

Wenn die Richtlinie nicht standardmäßig ist (wie zum Beispiel "Host"), ist es besser, einen speziellen Abschnitt dafür zu erstellen.

Ungültige Option:

Wird richtig schreiben:

Fehler 13. Keine Anweisungen nicht zulassen

Auch wenn Sie eine zusätzliche Richtlinie verwenden möchten und kein Verbot installieren möchten, wird empfohlen, leer nicht anzugeben. Der Standard weist auf die Verpflichtung der Verbindungen der Unterricht mit der Abwesenheit an, der Roboter kann "missverstehen".

Falsch:

Recht:

Fehler 14. Lamellen nicht verwenden, wenn das Verzeichnis angegeben ist

Was sind die Handlungen des Roboters in diesem Fall?

  • Benutzer-Agent: Yandex
  • Nicht zulassen: Johannes.

Je nach Standard wird die Indexierung nicht sowohl für die Datei als auch für das Verzeichnis namens "John" durchgeführt. Um nur das Verzeichnis anzugeben, müssen Sie schreiben:

  • Benutzer-Agent: Yandex
  • Nicht zulassen: / John /

Fehler 15. Falsches Schreiben von HTTP-Header

Der Server muss zum HTTP-Header für robots.txt "content-type: text / plain" und beispielsweise nicht "content-type: text / html" zurückkehren. Wenn der Header falsch geschrieben wird, ist die Dateiverarbeitung von einigen Robotern unmöglich.

So erstellen Sie eine Datei, um die Roboters.txt zu überprüfen, um Fehler zu erkennen

Was sollte die richtige Roboter.txt-Datei für die Internet-Ressource sein? Betrachten Sie seine Struktur:

1. Benutzer-Agent

Diese Richtlinie ist der Hauptanschluss, er bestimmt, wie Regeln für Roboter geschrieben werden.

Wenn wir für jeden Roboter schreiben, schreiben wir:

Wenn für einen bestimmten Bot:

Benutzer-Agent: GoogleBot

Es ist erwähnenswert, dass das Symbolregister in Roboters.txt keine Rolle spielt. Beispielsweise kann ein Benutzeragent für Google aufgenommen werden, und so:

benutzer-Agent: GoogleBot

Wir geben dem Tisch der wichtigsten Benutzeragenten verschiedener Suchmaschinen.

hauptindexing-Roboter Google

Google Nachrichten

Google-Bilder

Mediapartners-Google.

Google AdSense, Google Mobile AdSense

qualitätsprüfung zielseite

ADSBOT-Google-Mobile-Apps

Google Roboter für Anwendungen

hauptindexing Roboter Yandex

Yandex.martinki.

Yandex.videos.

multimedia-Daten

blog-Suchroboter

roboter, der auf die Seite zugreift, wenn Sie ihn durch das Formular "URL hinzufügen" hinzufügen

roboter, Indizierung Piktogramme von Sites (Favicons)

Yandex.direct.

Yandex.metrica.

Yandex.catalog.

Yandex.news.

Yandeximagereser.

mobile Service Roboter.

der Hauptindexierungsroboter Bing

der Hauptindexierungsroboter Yahoo!

hauptindexing Roboter Mail.ru

2. Nicht zulassen und zulassen

Lässt Sie nicht zulassen, dass Sie Indexierungsseiten und Internet-Ressourcenabschnitte verbieten können.

Erlauben wird verwendet, um sie zur Indizierung zu öffnen.

Es ist jedoch nicht einfach, sie zu verwenden.

Erstens müssen Sie sich mit den zusätzlichen Betreibern und den Regeln ihrer Verwendung vertraut machen. Dazu gehören: *, $ und #.

  • * Lieben Sie die Anzahl der Charaktere, sogar ihre Abwesenheit. Es ist nicht notwendig, diesen Bediener am Ende der Zeile zu setzen, es ist impliziert, dass es standardmäßig dort steht.
  • $ - zeigt, dass das Symbol, das vor ihm steht, der letzte sein sollte;
  • # - Dieser Betreiber dient dazu, einen Kommentar zu bezeichnen, alle Informationen, nachdem er nicht vom Roboter genommen wird.

So verwenden Sie diese Betreiber:

  • Nicht zulassen: *? S \u003d
  • Nicht zulassen: / Kategorie / $

Zweitens ein Verständnis dafür, wie die in der Datei robots.txt investierten Regeln durchgeführt werden.

Es spielt keine Rolle, welche Richtlinien aufgezeichnet werden. Die Ermittlung der Vererbungsregeln (was zu öffnen oder von der Indexierung öffnen) wird gemäß den angegebenen Verzeichnissen durchgeführt. Lassen Sie uns ein Beispiel geben.

Erlauben: * .css

Nicht zulassen: / Vorlage /

Wenn Sie alle Dateien zum Index öffnen müssen. CSS, müssen Sie dies zusätzlich für jeden Ordner angeben, auf den der Zugriff geschlossen ist. In unserem Fall:

  • Erlauben: * .css
  • Erlauben: / Websiteplate.com.ccss
  • Nicht zulassen: / Vorlage /

Erinnern Sie sich erneut: Es spielt keine Rolle, was die Richtlinie in welcher Reihenfolge aufgenommen wird.

3. Sitemap.

Diese Richtlinie gibt den Pfad zur Sitemap XML-Datei an. Die URL ist derselbe wie in der Adressleiste.

Die Angabe der Sitemap-Richtlinie ist überall in der Roboter.txt-Datei möglich, es muss es nicht an einen bestimmten Benutzer-Agent binden. Es dürfen mehrere Sitemap-Regeln angeben.

Diese Richtlinie zeigt den Hauptspiegel der Ressource (in der Regel mit www oder ohne www) an. Denken Sie daran: Wenn Sie den Hauptspiegel angeben, wird es nicht http: // und https: // geschrieben. Bei Bedarf ist auch der Port angegeben.

Die Unterstützung dieser Richtlinie ist nur von den Bots von Yandex und Mail.ru möglich. Andere Roboter, einschließlich Googlebot, berücksichtigen dieses Team nicht. Sie können den Host nur einmal registrieren!

5. Kriechverzögerung

Ermöglicht das Setzen, danach muss der Roboter die Ressourcenseiten herunterladen. Richtlinie unterstützt Yandex-Roboter, Postru, Bing, Yahoo. Bei der Installation des Intervalls können Sie sowohl ganzzahlige Werte als auch Fraktion verwenden, indem Sie einen Punkt als Separator verwenden. Maßeinheit - Sekunden.

Crawl-Delay: 0,5

Wenn die Last auf der Site klein ist, muss diese Regel nicht installiert werden. Wenn jedoch das Ergebnis der Indexierung des Seiten-Roboters die Grenzwerte oder eine ernsthafte Erhöhung der Last überschreiten soll, was zu Unterbrechungen in der Serveroperation führt, ist die Verwendung dieser Richtlinie ratsam: Es reduziert die Last.

Je mehr das installierte Intervall ist, desto kleiner ist die Anzahl der Downloads innerhalb einer Sitzung. Der optimale Wert für jede Ressource ist es. Zunächst wird empfohlen, kleine Werte (0,1, 0,2, 0,5) zu setzen, und erhöhen sie dann allmählich. Für Roboter von Suchmaschinen, nicht besonders wichtig für die Ergebnisse der Promotion (z. B. mail.ru, bing und yahoo), können Sie sofort Werte installieren, mehr als bei Yandex-Robotern.

6. Clean-Param

Diese Richtlinie ist erforderlich, um den Crawler (Suchrohr) über die Unnötigheit der Indexierung von URLs mit den angegebenen Parametern zu kommunizieren. Für die Regel werden zwei Argumente angegeben: Parameter und URL des Abschnitts. Yandex unterstützt die Richtlinie.

http://site.ru/artikel/?Author_ID\u003d267539 - Nicht in der Indexierung unterliegen

http://site.ru/artikel/?Author_ID\u003d267539&sid\u003d0995823627 - Nicht in der Indexierung

Sauber-param: utm_source utm_medium utm_campaign

7. Andere Parameter

Erweiterte Roboter.txt-Spezifikation enthält mehr Parameter: Anforderungsrate und Besuchszeit. Derzeit gibt es jedoch keine Unterstützung durch ihre führenden Suchmaschinen.

Richtlinien sind für Folgendes erforderlich:

  • Anforderungsrate: 1/5 - Ermöglicht das Laden von nicht mehr als 1 Seiten in 5 Sekunden
  • Besuchszeit: 0600-0845 - Ermöglicht die Seite laden nur ab 6 bis 8:45 Uhr Grinvichich

Zum richtige Einstellung Roboter.txt-Datei Wir empfehlen, einen solchen Algorithmus zu verwenden:

2) Schließen Sie die Zugangsroboter an persönliches Konto, Autorisierung und Registrierungsseiten;

4) In der Nähe von Indexieren von Ajax, JSON-Skripten;

6) Deaktivieren Sie Index-Plugins, Dekorationsthemen, JS, CSS für Roboter aller Suchmaschinen, außer Yandex und Google;

7) Schließen Sie den Zugriff auf Roboter an der Suchfunktionalität;

8) Deaktivieren Sie Indexierungsdienstabschnitte, die für die Ressource in der Suche nicht wertschätzen sind (Fehler 404, Liste der Autoren);

9) In der Nähe der Indexierung technischer Duplikat-Seiten und Seiten, deren Inhalte auf einen Grad oder ein anderes Diplizieren den Inhalt anderer Seiten (Kalender, Archive, RSS) doppelt;

12) Verwenden Sie zur Überprüfung, um zu überprüfen, was der Yandex und Google indiziert, der Parameter "Site:". Geben Sie dazu "Site: site.ru" an die Suchzeichenfolge ein. Wenn Seiten vorhanden sind, die nicht indiziert werden müssen, fügen Sie sie Robots.txt hinzu.

13) Regulieren Sie die Regeln von Sitemap und Host;

14) Geben Sie ggf. Crawl-Delay und Clean-Param an.

15) Überprüfen Sie die Richtigkeit der Roboter.txt-Datei mit Google- und Yandex-Tools.

16) Führen Sie nach 14 Tagen eine erneute Überprüfung durch, um sicherzustellen, dass die Suchmaschinen, die nicht in der Erteilung von Suchmaschinen indiziert werden sollen, nicht indexiert werden. Wenn ja, wiederholen Sie alle obigen Elemente.

Überprüfen der Roboter.txt-Datei ist nur dann sinnvoll, wenn Ihre Site in der Reihenfolge ist. Bestimmen, dass dies der Untersuchung der Website-Prüfung von qualifizierten Spezialisten unterstützt wird.

Wir hoffen, dass unser Artikel über Geschäftsideen für Sie nützlich sein wird. Und wenn Sie sich bereits für die Tätigkeitsrichtung entschieden und sich aktiv an der Entwicklung beteiligt sind, und wir empfehlen Ihnen, sich einer Prüfung der Website zu unterziehen, um ein echtes Bild Ihrer Ressourcenchancen zu präsentieren.


Eine der Stufen der Site-Optimierung für Suchmaschinen ist die Zusammenstellung der Datei robots.txt. Mit der Hilfe diese Datei Sie können einige oder alle Suchroboter verbieten, um Ihre Website oder ihre spezifischen Teile zu indexieren, die nicht für die Indexierung gedacht sind. Insbesondere ist es möglich, die Indexierung des doppelten Inhalts von beispielsweise einer Version von Seiten zum Drucken zu verbieten.

Suchen Sie Roboter, bevor Sie in der Indexierung beginnen, finden Sie immer in der Datei robots.txt im Stammverzeichnis Ihrer Website, z. B. http://site.ru/robots.txt, um zu wissen, welche Site-Abschnitte Roboterindex verboten ist. Aber auch wenn Sie nichts verbieten werden, wird diese Datei noch empfohlen, um zu erstellen.

Wie aus der Roboter.txt-Erweiterung ersichtlich ist, ist eine Textdatei. Um diese Datei zu erstellen oder zu bearbeiten, ist es besser, die einfachsten Textredakteure wie Notepad (Notepad) zu verwenden. Roboter.txt sollten im Stammverzeichnis der Site platziert werden und verfügt über ein eigenes Format, das wir unten ansehen werden.

Dateiformat robots.txt.

Die Datei robots.txt sollte aus mindestens zwei obligatorischen Einträgen bestehen. Die erste ist die Benutzer-Agent-Richtlinie, die angibt, dass der Suchroboter den weiteren laufenden Anweisungen folgen sollte. Der Wert kann der Name des Roboters (GoogleBot, Yandex, Stackrambler) oder das * Symbol sein, falls Sie sofort alle Roboter in Verbindung setzen. Beispielsweise:

Benutzer-Agent: GoogleBot

Sie finden den Namen des Roboters auf der Website der entsprechenden Suchmaschine. Dann sollte dann eine oder mehrere Richtlinien eingehen. Diese Richtlinien informieren den Roboter, welche Dateien und Ordner zum Index verboten sind. Beispielsweise verbieten die folgenden Zeilen Roboter, um die Feedback.php-Datei und das CGI-BIN-Verzeichnis zu indexieren:

Nicht zulassen: /feedback.php nicht zulassen: / cgi-bin /

Sie können auch nur die Anfangszeichen von Dateien oder Ordnern verwenden. Die nicht zulassen: / Forum-String deaktiviert die Indexierung aller Dateien und Ordner am Stammverzeichnis der Site, deren Name auf dem Forum beginnt, z. B. der Datei http://site.ru/forum.php und den Ordner http: //site.ru/forum/ Mit allem Inhalt. Wenn es nicht zulässig ist, bedeutet dies, dass der Roboter alle Seiten indexieren kann. Wenn der nicht zugelassene Wert ist / ist, bedeutet dies, dass der gesamte Standort verboten ist.

Für jedes Benutzer-Agent-Feld sollte mindestens ein Feld nicht zugelassen sein. Das heißt, wenn Sie nichts für die Indexierung verbieten, müssen die Datei robots.txt die folgenden Einträge enthalten:

Benutzer-Agent: * nicht zulassen:

Zusätzliche Richtlinien

Zusätzlich zu den regulären Ausdrücken von Yandex und Google ermöglichen es den Einsatz der Lassenrichtlinie, die das Gegenteil von nicht zulassen, dann gibt an, welche Seiten indiziert werden können. Im folgenden Beispiel ist Yandex verboten, alles außer Seitendressen zu indexieren, die mit / Artikeln beginnen:

Benutzer-Agent: Yandex Zulassen: / Artikel nicht zulassen: /

In diesem Beispiel muss die Zulassenerrichtlinie vor dem Verbinden gedrückt werden, andernfalls wird Yandex es als komplettes Verbot der Site-Indexierung verstehen. Eine leere Augg-Richtlinie verbietet auch die Site-Indexierung:

Benutzer-Agent: Yandex zulassen:

gleichwertig

Benutzer-Agent: Yandex nicht zulassen: /

Nicht-Standard-Richtlinien müssen nur für diese Suchmaschinen angegeben werden, die sie unterstützen. Ansonsten versteht der Roboter nicht dieser Eintrag. Es kann es falsch oder die gesamte Datei robots.txt verarbeiten. In Bezug auf zusätzliche Richtlinien und im Allgemeinen über das Verständnis der Befehle der Roboter.txt-Datei können Sie einen separaten Roboter auf der Website der entsprechenden Suchmaschine erfahren.

Regelmäßige Ausdrücke in Robots.txt

Die meisten Suchmaschinen berücksichtigen nur explizit angegebene Dateinamen und -ordnungen, es gibt jedoch erweiterte Suchmaschinen. Der Roboter von Google und Yandex-Roboter unterstützen die Verwendung einfacher regulärer Ausdrücke in Roboter.txt, was den Arbeitsaufwand für Webmaster erheblich reduziert. Beispielsweise verbieten die folgenden Befehle den Google-Roboter, um alle Dateien mit extension.pdf zu indexieren:

Benutzer-Agent: GoogleBot nicht zulassen: * .pdf $

In dem angegebenen Beispiel ist das Symbol * eine beliebige Reihenfolge von Zeichen, und $ zeigt das Ende der Referenz an.

Benutzer-Agent: YANDEX Zulassen: / Artikel / Aktml $ Disominow: /

Die oben genannten Richtlinien ermöglichen es Yandex, nur diejenigen in den Ordner / Artikeln / Dateien mit der Erweiterung ".html" zu indexieren. Alles andere ist für die Indexierung verboten.

Site `s map

In der Roboter.txt-Datei können Sie den Speicherort der XML-Site-Karte angeben:

Benutzer-Agent: GoogleBot nicht zulassen: Sitemap: http://site.ru/sitemap.xml

Wenn Sie über eine sehr große Anzahl von Seiten auf der Website verfügen, mussten Sie die Site-Map auf Teile teilen, dann müssen Sie in der Roboter.txt-Datei alle Teile der Karte angeben:

Benutzer-Agent: yandex-nicht zulassen: Sitemap: http://mysite.ru/my_sithemaps1.xml Sitemap: http://mysite.ru/my_sithemaps2.xml

Standortspiegel.

Wie Sie wissen, dass normalerweise dieselbe Site an zwei Adressen verfügbar ist: sowohl aus WWW und ohne. Für den Suchroboter Site.ru und www.site.ru sind verschiedene Sites, jedoch mit demselben Inhalt. Sie werden Spiegel genannt.

Aufgrund der Tatsache, dass es Links auf der Seite der Site als www und ohne gibt, kann das Gewicht der Seiten zwischen www.site.ru und site.ru geteilt werden. Damit dies nicht mit der Suchmaschine passiert, müssen Sie den Hauptspiegel der Site angeben. Als Ergebnis von "Kleben" gehört das gesamte Gewicht desselben Hauptspiegels und der Standort kann in den Suchergebnissen eine höhere Position annehmen.

Sie können den Hauptspiegel für Yandex direkt in der Datei robots.txt mit der Host-Richtlinie angeben:

User-Agent: Yandex nicht zulassen: /feedback.php Nicht zulassen: / cgi-bin / host: www.site.ru

Nach dem Verkleben des Spiegels www.site.ru gehört das gesamte Gewicht und dauert in den Suchergebnissen eine höhere Position. Und Site.ru Search Engine wird überhaupt nicht indexiziert.

Bei anderen Suchmaschinen ist die Wahl des Hauptspiegels der Server-Permanent-Umleitung (Code 301) mit zusätzlichen Spiegeln auf dem Hauptspiegeln. Dies erfolgt mit dem Modul File.htaccess und Mod_Rewrite. Geben Sie dazu die Site.HTACCESS-Site an das Root ein und schreiben Sie Folgendes:

REWRITENEngine auf Optionen + FalllowSymlinks RewriteBase / RewriteCond% (http_host) ^ site.ru $ Rewriterule ^ (. *) $ Http://www.site.ru/$1

Infolgedessen gehen alle Anfragen von Site.ru unter www.site.ru, dann gibt es site.ru/page1.php wird auf www.site.ru/page1.php umgeleitet.

Die Umleitungsmethode funktioniert für alle Suchmaschinen und -browsern, es wird jedoch immer noch empfohlen, die Roboters.txt-Datei für Yandex eine Host-Richtlinie hinzuzufügen.

Kommentare in Robots.txt.

Sie können auch Kommentare zur Datei robots.txt hinzufügen - sie beginnen mit dem # -Symbol und endet mit einer Zeilenübersetzung. Kommentare Es ist ratsam, in einer separaten Zeile zu schreiben, und es ist besser, sie überhaupt nicht zu verwenden.

Beispiel für die Verwendung von Kommentaren:

Benutzer-Agent: StackRambler nicht zulassen: / Müll / # Nichts nützlich in diesem Ordner Nein nicht zulassen: /doc.xhtml # und auf dieser Seite auch # und alle Kommentare in dieser Datei sind auch unbrauchbar

Beispiele für Robots.txt-Dateien

1. Erlauben Sie allen Robotern, alle Site-Dokumente zu indexieren:

Benutzer-Agent: * nicht zulassen:
Benutzer-Agent: * Nicht zulassen: /

3. Verbot von Google-Suchmaschinen-Roboter-Index FileBack.php-Datei- und CGI-BIN-Verzeichnis-Inhalte:

Benutzer-Agent: GoogleBot nicht zulassen: / CGI-BIN / DISTOW: /feedback.php

4. Erlauben Sie allen Robotern, die gesamte Site zu indexieren, und den YANDEX-Suchmaschinen-Roboter-Verbot-Index die Feedback.php-Datei und den Inhalt des CGI-BIN-Verzeichnisses:

User-Agent: Yandex nicht zulassen: / cgi-bin / nicht zulassen: /feedback.php Host: www.site.ru User-Agent: * nicht zulassen:

5. Wir erlauben allen Robotern, den gesamten Standort zu indexieren, und der Roboter von Yandex ließ mich nur einen Teil der dafür vorgesehenen Site indexieren:

User-Agent: Yandex Zulassen: / Yandex nicht zulassen: / Host: www.site.ru User-Agent: * nicht zulassen:

Leere Saiten gemeinsame Einschränkungen für verschiedene Roboter. Jeder Einschränkungsblock sollte mit einer Zeichenfolge mit einem Benutzer-Agent-Feld beginnen, das den Roboter angibt, an den die Regeln der Standortindexing-Regeln enthalten.

Häufig aufgetretene Fehler

Es ist notwendig zu berücksichtigen, dass die leere Zeile in der Datei robots.txt ein Trennzeichen von zwei Einträgen für verschiedene Roboter ist. Sie können auch nicht mehrere Richtlinien in einer Zeile angeben. Die Webmaster-Dateiindexierung wird häufig überspringen / vor dem Dateinamen überspringen.

Nein Notwendigkeit, Roboters.txt-Verbot vor Ort indexierung zu schreiben verschiedene Programmewelche sollen, um den Standort vollständig herunterzuladen, zum Beispiel TeleportPRO. Weder "Rocking-Programme" noch Browser schauen niemals auf diese Datei und führen die dort registrierten Anweisungen nicht aus. Es ist ausschließlich für Suchmaschinen gedacht. Sie sollten das Admin-Panel Ihrer Website nicht in robots.txt blockieren, da, wenn kein link überall vorhanden ist, wird er nicht indiziert. Sie eröffnen nur den Standort der Administratoren an Personen, die es nicht wissen sollten. Es lohnt sich auch, daran zu erinnern, dass zu große Roboter von der Suchmaschine ignoriert werden können. Wenn Sie zu viele Seiten haben, die nicht für die Indexierung gedacht sind, ist es besser, sie einfach von der Site zu löschen oder auf ein separates Verzeichnis zu übertragen und dieses Verzeichnis zu indexieren.

Überprüfen der Roboter.txt-Datei für Fehler

Stellen Sie sicher, dass Sie überprüfen, wie Ihre Roboter-Suchmaschinen einreichen. Sie können Google verwenden, um zu überprüfen Google Tools. Für Webmaster. Wenn Sie wissen möchten, wie Ihre Roboter.txt-Datei Yandex versteht, können Sie den YANDEX.VeBMaster-Service verwenden. Auf diese Weise können Sie die rechtzeitigen Fehler korrigieren. Auch auf den Datenseiten der Seite finden Sie Empfehlungen zum Erstellen der Datei robots.txt und viele andere nützliche Informationen.

Der Kopierende Artikel ist verboten.

Die Datei robots.txt befindet sich im Stammverzeichnis Ihrer Site. Auf der Website www.example.com wird beispielsweise die Adresse der Roboter.txt-Datei wie www.example.com/robots.txt aussehen. Es ist eine reguläre Textdatei, die den Ausnahmestandard für Roboter erfüllt, und enthält einen oder mehrere Regeln, von denen jeder einen oder anderen Suchroboter-Zugriff auf einen bestimmten Pfad auf dem Standort verbietet oder ermöglicht.

Unten ist ein Beispiel einfache Datei. Robots.txt mit zwei Regeln und seiner Interpretation.

# Regel 1 Benutzer-Agent: GoogleBot nicht zulassen: / nogoogotbot / # Regel 2 Benutzer-Agent: * Erlauben: / Sitemap: http://www.example.com/sitemap.xml

Interpretation

  1. Der Benutzername namens GoogleBot sollte den Katalog http://example.com/nogooglebot/ und seine Unterverzeichnisse nicht scannen.
  2. Alle anderen Benutzeragenten haben Zugriff auf alle Websites (Sie können weglassen, das Ergebnis ist das gleiche wie voller Zugriff Standardmäßig bereitgestellt).
  3. Sitemap-Datei. Diese Site befindet sich unter http://www.example.com/sitemap.xml.

Nachfolgend finden Sie mehrere Tipps zum Arbeiten mit Robots.txt-Dateien. Wir empfehlen, dass Sie die vollständige Syntax der Roboots.txt-Dateien untersuchen, da die Syntaxregeln beim Erstellen der Dateien von Robots.txt verwendet werden, und Sie sollten sie verstehen.

Format und Ort

Create robots.txt-Datei kann fast in jedem sein texteditor (Es muss ASCII- oder UTF-8-Kodierung unterstützen). Verwende nicht textprozessoren.: Sie speichern oft Dateien im proprietären Format und fügen ihnen zu unzulässigen Zeichen hinzu, z. B. gelockte Zitate, die von Suchrobotern nicht erkannt werden.

Verwenden Sie beim Erstellen und Testen solcher Dateien das Dateiüberprüfungs-Tool Roboter.txt-Datei. Sie können die Dateisyntax analysieren und herausfinden, wie er auf Ihrer Website funktioniert.

Regeln in Bezug auf das Format und den Speicherort der Datei

  • Die Datei muss den Namen Roboter.txt tragen.
  • Auf der Website muss es nur eine solche Datei geben.
  • Die Roboter.txt-Datei muss in eingesetzt werden wurzelkatalog Seite? ˅. Um beispielsweise den Scan aller Seiten der Site http://www.example.com/ zu überwachen, sollten die Datei robots.txt unter http://www.example.com/robots.txt platziert werden. Er sollte nicht im Unterverzeichnis sein (zum Beispiel bei http://example.com/pages/robots.txt.). Wenden Sie sich bei Schwierigkeiten mit dem Zugriff auf den Root-Katalog an Ihren Hosting-Anbieter. Wenn Sie keinen Zugriff auf das Stammverzeichnis der Site haben, verwenden Sie ein alternatives Blockierverfahren, z. B. Metalklammer.
  • Die Datei robots.txt kann Adressen mit hinzugefügt werden subdomains. (Zum Beispiel http: // webseite..example.com / robots.txt) oder nicht standardmäßige Ports (z. B. http://example.com: 8181 /Robots.txt).
  • Kommentare sind alle Reihen, die mit dem Gittersymbol (#) beginnen.

Syntax

  • Die Roboter.txt-Datei muss sein textdatei In der Codierung ASCII oder UTF-8. Verwenden Sie andere Zeichen, ist nicht zulässig.
  • Die Datei robots.txt kann aus einem oder mehreren bestehen regeln.
  • Regel muss mehrere enthalten richtlinie (Anweisungen), von denen jede in einer separaten Zeile angegeben werden sollte.
  • Die Regel enthält die folgenden Informationen:
    • Zu welchem user-Agent Bezieht die Regel.
    • es gibt Zugang..
    • In welche Verzeichnisse oder Dateien von diesem Agenten kein Zugang.
  • Die Regeln werden von oben nach unten verarbeitet. Der Benutzeragent kann nur einer geeigneten Regel dafür folgen, was zuerst verarbeitet wird.
  • Standardmäßig wird angenommenWenn der Zugriff auf die Seite oder das Verzeichnis nicht durch die nicht zugelegte Regel blockiert ist:, kann der Benutzeragent sie verarbeiten.
  • Regeln empfindlich für register.. Also gilt die Regelung: /file.asp-Regel für die URL http://www.example.com/file.asp, jedoch nicht zu http://www.example.com/file.asp.

Richtlinien, die in Robots.txt-Dateien verwendet werden

  • User-Agent: Seien Sie sicher, in einer Regel ein oder mehrere solcher Regeln zu verwenden. Bestimmt roboter Suchmaschine, zu der die Regel gehört. Diese Linie ist der erste in jeder Regel. Die meisten von ihnen sind in der Internet-Roboter-Datenbank oder in der Liste der Google Search-Roboter aufgeführt. Die Wildcard wird unterstützt *, um den Präfix- oder Suffix-Pfad oder den gesamten Pfad zu bezeichnen. Verwenden Sie ein solches Zeichen (*), wie in dem nachstehenden Beispiel angegeben, um alle Suchroboter zu blockieren ( neben ADSBOT-Roboternwas Sie separat angeben müssen). Wir empfehlen, die Roboterliste von Google kennenzulernen. Beispiele: # Beispiel 1: Nur mit GoogleBot-Benutzer-Agent: GoogleBot nicht zulassen: / # Beispiel 2: Block mit GoogleBot und ADSBOT User-Agent: GoogleBot User-Agent: ADSBOT-Google nicht zulassen: / # Beispiel 3: BLOCK ALL ABER ADSBOT CRAWERS User-Agent : * Nicht zulassen: /
  • Nicht zulassen: . Gibt das Verzeichnis oder die Seite in der Root-Domäne an, die Sie den oben definierten Benutzeragenten nicht scannen können. Wenn diese Seite den vollständigen Pfad angegeben sein muss, wie in der Adressleiste des Browsers. Wenn dies ein Verzeichnis ist, muss der Pfad dazu mit einem Slash (/) enden. Die Wildcard wird unterstützt *, um den Präfix- oder Suffix-Pfad oder den gesamten Pfad zu bezeichnen.
  • Ermöglichen: In jeder Regel muss es mindestens eine Nachlässigkeit der Richtlinie geben: oder zulassen:. Gibt das Verzeichnis oder die Seite in der Root-Domäne an, die Sie den oben definierten Benutzeragenten nicht scannen können. Wird verwendet, um die Verbindungsregel abzubrechen und das Scannen des Unterverzeichnisses oder Seiten in einem zu scan-Verzeichnis geschlossen zu ermöglichen. Wenn diese Seite den vollständigen Pfad angegeben sein muss, wie in der Adressleiste des Browsers. Wenn dies ein Verzeichnis ist, muss der Pfad dazu mit einem Slash (/) enden. Die Wildcard wird unterstützt *, um den Präfix- oder Suffix-Pfad oder den gesamten Pfad zu bezeichnen.
  • Seitenverzeichnis: Optional können solche Richtlinien etwas sein oder nicht vollständig sein. Gibt den Speicherort der auf dieser Website verwendeten Sitemap-Datei an. Die URL muss vollständig sein. Google geht nicht fort und überprüft nicht die URL-Varianten mit HTTP- und HTTPS-Präfixen oder mit dem WWW oder ohne ihn. Sitemap-Dateien berichten von Google, welche Inhalte müssen Scannen und wie man es aus dem Inhalt unterscheidet, das können oder es ist unmöglich Scan. Machen Sie sich mit zusätzlichen Informationen zu Sitemap-Dateien vertraut. Beispiel: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Unbekannt stichworte ignorieren.

Ein weiteres Beispiel.

Die Datei robots.txt besteht aus einem oder mehreren Regelnstellen. Jedes Set beginnt mit der Benutzer-Agent-Zeichenfolge, die den Roboter definiert, der die Regeln des Sets unterteilt. Hier ist ein Beispiel einer Datei mit zwei Regeln; Sie werden von den eingebauten Kommentaren erklärt:

# Blockieren Sie den GoogleBot-Roboter-Zugriff auf das Expemplle.com/Directory1 / ... und Beispiel.com/Directory1 / ... und z. / ... # Zugriff auf alle anderen Verzeichnisse sind standardmäßig zulässig. Benutzer-Agent: GoogleBot nicht zulassen: / Verzeichnis1 / nicht zulassen: / Directory2 / Erlauben: / Verzeichnis2 / Subverzeichnis1 / # Blockzugriff auf die gesamte Site an eine andere Suchmaschine. Benutzer-Agent: Anderecrawler ist nicht zulassen: /

Vollständige Syntaxdatei robots.txt

Die vollständige Syntax ist in diesem Artikel beschrieben. Wir empfehlen, dass Sie sich damit vertraut machen, wie in der Syntax der Roboter.txt-Datei gibt es einige wichtige Nuancen.

Nützliche Regeln

Hier sind einige häufige Regeln für die Datei robots.txt:

Regel Beispiel
Verbot des Scannens der gesamten Site. Es sei darauf hingewiesen, dass die URL der Site in einigen Fällen im Index vorhanden sein kann, auch wenn sie nicht gescannt wurden. Bitte beachten Sie, dass diese Regel nicht auf ADSBOT-Roboter gilt, die separat angegeben werden müssen. Benutzer-Agent: * Nicht zulassen: /
Um den Katalogscan und den gesamten Inhalt zu verbietenÜberprüfen Sie nach dem Namen des Katalognamens. Verwenden Sie nicht die Roboter.txt-Datei, um vertrauliche Informationen zu schützen! Für diese Zwecke sollte die Authentifizierung angewendet werden. Die URL, der das Scannen, der von der Datei robots.txt verboten ist, kann indexiert werden, und der Inhalt der Datei robots.txt kann jeder Benutzer anzeigen und somit den Speicherort von Dateien mit vertraulichen Informationen herausfinden. Benutzer-Agent: * Nicht zulassen: / Kalender / Nicht zulassen: / Junk /
Scannen Sie die Auflösung nur für einen Suchroboter Benutzer-Agent: GoogleBot-News Erlauben: / Benutzer-Agent: * Nicht zulassen: /
Scannen Sie die Auflösung für alle Suchroboter mit Ausnahme eines Benutzer-Agent: unnötigbot nicht zulassen: / Benutzer-Agent: * Erlauben: /

So verhindern Sie das Scannen einer separaten SeiteGeben Sie diese Seite nach einem Schrägstrich an.

Nicht zulassen: /private_file.html.

So verbergen ein bestimmtes Bild von den Roboterbildern von Google

Benutzer-Agent: GoogleBot-Image Nicht zulassen: /images/dogs.jpg

Um alle Bilder von Ihrer Website aus den Google-Roboterbildern auszublenden

Benutzer-Agent: GoogleBot-Image Nicht zulassen: /

Um das Scannen aller Dateien eines bestimmten Typs zu verhindern (In diesem Fall GIF)

Benutzer-Agent: GoogleBot nicht zulassen: /*.gif$

Um bestimmte Seitenseiten zu blockieren, um ADSense-Anzeigen weiterhin anzuzeigenVerwenden Sie die Nordregel für alle Roboter, mit Ausnahme von MediaPartners-Google. Infolgedessen kann dieser Roboter auf die von den Suchergebnissen entfernten Seiten zugreifen, um Anzeigen zum Anzeigen eines oder eines anderen Benutzers auszuwählen.

Benutzer-Agent: * Nicht zulassen: / Benutzer-Agent: MediaPartners-Google Erlauben: /
So legen Sie die URL an, die mit bestimmten Zeichen endet Verwenden Sie das $ -Symbol. Verwenden Sie zum Beispiel für URLs, die mit onlinexls enden, den folgenden Code verwenden: Benutzer-Agent: GoogleBot nicht zulassen: /*.xls$

War dieser Artikel nützlich?

Wie kann ich diesen Artikel verbessern?

Fortsetzung des Themas:
Smartphone

Konfigurieren und aktivieren Sie einen speziellen AHCI-Modus, der vorzugsweise jedem Benutzer, der erheblich erweitern möchte, und gleichzeitig die Fähigkeiten Ihres PCs zur Arbeit mit ...