Leere Roboter-TXT-Datei. Google-Suchroboter. Was bedeutet der Benutzer-Agent?

Wir haben freigelassen neues Buch "Inhaltsmarketing in soziale Netzwerke: Wie man in den Kopf der Abonnenten sitzt und sich in ihre Marke verliebt. "

Jetzt abonnieren

Die Host-Richtlinie ist ein Befehl oder eine Regel, die der Suchmaschine darüber informiert, was (mit www oder ohne) der wichtigste ist. Es gibt eine Host-Richtlinie in der Datei und ist ausschließlich für Yandex bestimmt.

Es ist häufig erforderlich, sicherzustellen, dass die Suchmaschine keine Site-Seiten oder den Spiegel indexiert. Zum Beispiel ist die Ressource auf einem Server, aber im Internet ist identisch domainnameWelches ist indexiert und in den Suchergebnissen angezeigt.

Suchen Sie Roboter-Yandex-Bypass-Site-Seiten und fügen Sie die gesammelten Informationen in der Datenbank auf Ihrem eigenen Zeitplan hinzu. Im Indexierungsprozess lösen sie sich selbst, welche Seite verarbeitet werden muss. Beispielsweise beitragen Roboter verschiedene Foren, Bulletin-Boards, Kataloge und andere Ressourcen, in denen die Indexierung sinnlos ist. Sie können auch den Hauptstandort und die Spiegel definieren. Der erste ist der Indexierung, der zweite - nein. Im Prozess treten oft Fehler auf. Sie können dies mithilfe der Host-Richtlinie in der Datei robots.txt beeinflussen.

Warum brauchst du die Datei robots.txt?

Roboter ist eine gewöhnliche Textdatei. Es kann über ein Notebook erstellt werden, es wird jedoch empfohlen, mit ihm zu arbeiten (Informationen öffnen und bearbeiten). texteditor Notepad ++. Notwendigkeit diese Datei Bei der Optimierung von Webressourcen wird durch mehrere Faktoren verursacht:

  1. Wenn die Datei robots.txt fehlt, wird die Site aufgrund von Suchmaschinen ständig überlastet.
  2. Es besteht das Risiko, dass zusätzliche Seiten oder Spiegelstellen indexiert werden.

Die Indexierung lässt sich viel langsamer und mit falschem einstellungen eingestellt Es kann aus den Ergebnissen der Suchergebnisse von Google und Yandex verschwinden.

So arrangieren Sie die Host-Richtlinie in der Datei robots.txt

Die Roboter-Datei enthält eine Host-Richtlinie - Anweisungen für eine Suchmaschine darüber, wo die Hauptseite und wo seine Spiegel sind.

Die Richtlinie hat das folgende Schaltform: Host: [Optionaler Speicherplatz] [Wert] [Optionaler Speicherplatz]. Die Regeln der Schreibrichtlinie erfordern die Einhaltung der folgenden Absätze:

  • Hosts in der Host-Richtlinie des HTTPS-Protokolls zur Unterstützung der Verschlüsselung. Es muss verwendet werden, wenn der Zugriff auf den Spiegel nur durch geschützte Kanal ausgeführt wird.
  • Der Domainname, der keine IP-Adresse ist, sowie die Nummer der Webressourcen-Portnummer.

Die richtig gezeichnete Richtlinie ermöglicht dem Web-Master für Suchmaschinen, wo der Hauptspiegel ist. Der Rest wird als sekundär betrachtet und daher werden sie nicht indiziert. In der Regel können Spiegel durch das Vorhandensein oder Fehlen einer Abkürzung www unterschieden werden. Wenn der Benutzer den Haupt-Web-Ressourcenspiegel nicht über Host angibt, sendet die Yandex-Suchmaschine die entsprechende Benachrichtigung an den Webmaster. Die Benachrichtigung wird auch ausgewiesen, wenn die Roboter-Datei von der Host-Richtlinie festgelegt ist.

Bestimmen Sie, wo der Hauptspiegel der Site über die Suchmaschine möglich ist. Sie müssen die Ressourcenadresse an die Suchleiste fahren und die Ergebnisse des Problems ansehen: der Site, wo vor der Domäne in adresszeile Es ist www wert, ist die Hauptdomäne.

Wenn die Ressource auf der Emissionsseite nicht angezeigt wird, kann der Benutzer es unabhängig voneinander dem Hauptspiegel zuweisen, indem er in den entsprechenden Abschnitt in Yandex.vebmaster dreht. Wenn der Webmaster erforderlich ist, dass der Domänenname der Site www nicht enthält, sollten Sie ihn nicht im Host angeben.

Viele Webmaster verwenden kyrillische Domänen als zusätzliche Spiegel für ihre Websites. In der Host-Richtlinie wird jedoch Cyrillic nicht unterstützt. Dazu doppelte Wörter auf Lateinet, mit der Bedingung, dass sie leicht erkannt werden können, indem sie die Adresse der Site von der Adresszeichenfolge kopieren.

Host in der Roboter-Datei

Der Hauptzweck dieser Richtlinie besteht darin, Probleme mit doppelten Seiten zu lösen. Es ist notwendig, Host zu verwenden, wenn die Arbeit der Webressource auf das russischsprachige Publikum fokussiert ist. Dementsprechend sollte die Sortierung der Site in das Yandex-System gelangen.

Nicht alle Suchmaschinen unterstützen die Arbeit der Host-Richtlinie. Die Funktion ist nur in Yandex verfügbar. Gleichzeitig gibt es auch hier nicht garantiert, dass die Domäne als Hauptspiegel zugewiesen wird, aber gemäß den Zusicherungen des Yandex selbst bleibt die Priorität immer hinter dem Namen, der im Host angegeben ist.

Damit die Suchmaschinen Informationen korrekt lesen, wenn die Datei robots.txt verarbeitet werden Roboter können jedoch den Host verwenden, unabhängig davon, ob die Richtlinie gemäß den Regeln registriert ist oder nicht, da es Kreuzung ist.

Hallo, liebe Leser des Blogs "World Webmaster"!

Datei robots.txt. - Dies ist eine sehr wichtige Datei, die die Qualität der Indexierung Ihrer Website direkt beeinträchtigt, und daher für seine Suchförderung.

Deshalb sollten Sie in der Lage sein, Roboter ordnungsgemäß aufzunehmen, um versehentlich keine wichtigen Dokumente des Internetprojekts an den Index zu verbieten.

So erstellen Sie eine Roboter.txt-Datei, mit der die Syntax gleichzeitig verwendet werden muss, wie Sie Dokumente an den Index zulassen und verbieten, und es wird in diesem Artikel diskutiert.

Über Robots.txt-Datei.

Erfahren Sie zunächst näher, was diese Datei ist.

Dateiroboter. - Dies ist eine Datei, die Suchmaschinen anzeigt, welche Seiten und Standortdokumente dem Index hinzugefügt werden können und die nicht hinzugefügt werden können.Es ist aufgrund der Tatsache erforderlich, dass zunächst Suchmaschinen versuchen, die gesamte Site zu indexieren, und dies ist nicht immer korrekt. Wenn Sie beispielsweise eine Site auf dem Motor (WordPress, Joomla usw.) erstellen, haben Sie Ordner, die die Arbeit des Verwaltungsfelds organisieren. Es ist klar, dass die Informationen in diesen Ordnern nicht indexiert werden können, nur in diesem Fall und die Datei robots.txt wird verwendet, die die Suchmaschinen begrenzt.

Auch in der Roboter-Datei wird die Adresse der Karte der Site angezeigt (verbessert die Indexierung von Suchmaschinen) sowie die Hauptdomäne der Site (Hauptspiegel).

Spiegel - Dies ist eine absolute Kopie der Site, d. H. Wenn eine Seite, sagen sie, dass einer von ihnen die Hauptbereich ist, und der andere ist der Spiegel.

Somit hat eine Datei ziemlich viele Funktionen und wichtig!

Roboter.txt-Dateisyntax.

Die Roboter-Datei enthält Blöcke der Regeln, die einer bestimmten Suchmaschine sagen, die indiziert werden kann, und was nicht ist. Der Regelnblock kann eins sein (für alle Suchmaschinen), aber sie können jedoch auch für einige spezifische Suchmaschinen separat sein.

Jede solche Einheit beginnt mit dem Operator "User-Agent", der anzeigt, welches Suchsystem diese Regeln anwendbar sind.

Benutzer-Agent:EIN.
(Regeln für den Roboter "A")

Benutzer-Agent:B.
(Regeln für den Roboter "B")

In dem obigen Beispiel wird angezeigt, dass der Bediener "Benutzeragenten" einen Parameter hat - der Name des Roboters suchmaschinezu denen die Regeln gelten. Das Haupt von ihnen werde unten angeben:

Nach "Benutzer-Agent" gehen Sie andere Betreiber. Hier sind ihre Beschreibung:

Für alle Bediener ist eine Syntax gültig. Jene. Die Betreiber müssen wie folgt verwendet werden:

Operator1: Parameter1.

Operator2: Parameter2.

Somit schreiben wir zuerst den Namen des Bedieners (egal, große oder kleine Buchstaben), dann geben Sie den Dickdarm ein und geben Sie den Parameter über den Raum an dieser Operator. Dann beschreiben wir von der neuen Zeile den Bediener zwei auf dieselbe Weise.

Wichtig!!! Eine leere Zeile bedeutet, dass der Regelnblock für diese Suchmaschine abgeschlossen ist. Teilen Sie die Bediener nicht mit einer leeren Zeichenfolge auf.

Beispiel Roboter.txt-Datei.

Betrachten Sie ein einfaches Beispiel für die Datei robots.txt, um die Funktionen seiner Syntax besser herauszufinden:

Benutzer-Agent: Yandex
Erlauben: / Ordner1 /
Nicht zulassen: /file1.html.
Host: www.site.ru.

User-Agent: *
Nicht zulassen: /drocument.php.
Nicht zulassen: / OrdnerXXX /
Nicht zulassen: / coldryyy / folderzzzzz
Nicht zulassen: / Futter /

Sitemap: http://www.site.ru/sitemap.xml.

Jetzt werden wir das beschriebene Beispiel analysieren.

Die Datei besteht aus drei Blöcken: Der erste für Yandex, der Sekunde für alle Suchmaschinen, und die Adresse der Karte der Site wird angegeben (es wird automatisch für alle Suchmaschinen verwendet, sodass Sie den "Benutzer-Agent nicht angeben müssen "). Yandex Wir durften den Ordner "Ordner1" und all seinen Inhalten indexieren, jedoch verboten, das datei1.html-Dokument in das Dokument von File1.html zu indeximieren, das sich im Stammverzeichnis zum Hosting befindet. Wir haben auch die Hauptdomäne der Site Yandex angegeben. Der zweite Block ist für alle Suchmaschinen. Dort haben wir das Dokument "document.php" sowie die Ordner "FolderXXX", "Foldryyy / Folderzzz" und "FEED" verboten.

Bitte beachten Sie, dass wir in dem zweiten Befehl der Befehle in den Index nicht den gesamten Ordner "coldryyy" verboten sind, aber nur der Ordner in diesem Ordner ist "Folderzzz". Jene. Wir haben auf den vollen Pfad für Folderzzz hingewiesen. Sie müssen also immer tun, wenn wir das Dokument verbieten, das sich nicht im Stammverzeichnis der Site befindet, jedoch irgendwo in anderen Ordnern.

Die Schöpfung dauert weniger als zwei Minuten:

Die erstellte ROBOSTS-Datei kann auf Leistung im Bereich Yandex Webmasters geprüft werden. Wenn Fehler plötzlich in der Datei erkannt werden, wird Yandex es angezeigt.

Stellen Sie sicher, dass Sie die Roboters.txt-Datei für Ihre Site erstellen, wenn Sie noch niemanden haben. Dies wird dazu beitragen, Ihre Website in Suchmaschinen zu entwickeln. Sie können auch einen anderen Artikel über die Meta-Tag-Methode und.HTACCESS lesen.

Lesezeit: 7 Minuten


Fast jedes Projekt, das bei einem Audit oder Promotion zu uns kommt, hat eine falsche Datei robots.txt, und oft ist es überhaupt nicht. Dies geschieht, denn beim Erstellen einer Datei wird jeder von ihrer Fantasie geleitet, nicht die Regeln. Schauen wir uns an, wie Sie diese Datei korrekt machen können, damit Suchroboter effektiv mit ihm arbeiten.

Warum brauchst du Konfiguration robots.txt?

Robots.txt. - Dies ist eine Datei, die sich im Stammverzeichnis der Site befindet, der den Suchmaschinen-Robotern anwendet, auf welche Partitionen und Seiten der Website, auf die sie zugreifen können, und was nicht ist.

Die Einrichtung von Robotern.txt ist ein wichtiger Teil der Ausgabe von Suchmaschinen, die korrekt konfigurierte Roboter erhöht auch die Leistung der Site. Keine Roboter.txt stoppt die Suchmaschinen nicht auf und indexieren Sie die Site, aber wenn diese Datei nicht vorhanden ist, haben Sie möglicherweise zwei Probleme:

    Der Suchroboter las den gesamten Standort, der das Verlangenbudget untergräbt hat. Das Kürbetriebsbudget ist die Anzahl der Seiten, die der Suchroboter während eines bestimmten Zeitraums umgehen kann.

    Ohne die Roboter-Datei erhält die Suchmaschine Zugriff auf Chernov und versteckte SeitenAuf Hunderte von Seiten, mit denen CMS verwaltet wurden. Er indiziert sie, und wenn es um die gewünschten Seiten geht, auf dem direkte Inhalte für Besucher präsentiert werden, endet das Verlangen des Verlangens.

    Der Index des Zugangs zur Website, andere Administratorressourcen können zum Index gelangen, sodass der Angreifer sie leicht verfolgen und sie halten kann dDOS-Angriff Oder hacken Sie die Site.

Als Suchroboter sehen Sie die Site mit Robots.txt und ohne Folgendes:


Roboter.txt-Syntax.

Bevor Sie anfangen, die Syntax zu zerlegen und Roboters.txt zu konfigurieren, schauen wir uns an, wie die "perfekte Datei" aussehen sollte:


Es ist jedoch nicht notwendig, es sofort anzuwenden. Für jede Site benötigen Sie am häufigsten Ihre Einstellungen, da wir alle über eine andere Standortstruktur, verschiedene CMS verfügen. Wir werden jede Richtlinie in der Reihenfolge analysieren.

User-Agent

Benutzer-Agent - Bestimmt den Suchroboter, der verpflichtet ist, den in der Datei beschriebenen Anweisungen zu folgen. Wenn Sie sofort alles kontaktieren müssen, wird das Symbol verwendet *. Sie können sich auch auf einen bestimmten Suchroboter beziehen. Zum Beispiel Yandex und Google:


Mit dieser Richtlinie versteht der Roboter, welche Dateien und Ordner zum Index verboten sind. Wenn Sie möchten, dass Ihre gesamte Website für die Indexierung geöffnet ist, lassen Sie den Wert nicht leer. Um den ganzen Inhalt auf der Website nach dem Nichtgewaltern zu verbergen, setzen Sie "/".

Wir können den Zugriff auf einen bestimmten Ordner, eine Datei- oder Dateierweiterung verbieten. In unserem Beispiel appellieren wir an alle Suchroboter, enger Zugriff auf den Bitrix, den Ordner des Suchordners und der PDF-Erweiterung.


Ermöglichen.

Erlaube gewaltsam, die Seite und Abschnitte der Site zu indexieren. Im obigen Beispiel appellieren wir den Suchroboter Google, den Zugriff auf den Bitrix, den Suchordner und die PDF-Erweiterung. Im BITRIX-Ordner öffnen wir jedoch zwangsweise 3 Ordner für die Indexierung: Komponenten, JS, Werkzeuge.


Host - Site Spiegel

Site Spiegel ist ein Duplikat der Hauptseite. Spiegel werden für verschiedene Zwecke verwendet: Ändern Sie die Adresse, die Sicherheit, die Reduzierung der Last auf dem Server usw.

Gastgeber ist eine der wichtigsten Regeln. Wenn diese Regel ausgeschrieben wird, wird der Roboter verstanden, welcher der Site-Spiegel es wert ist, eine Indexierung wert zu sein. Diese Richtlinie ist für die Roboter Yandex und mail.ru notwendig erforderlich. Andere Roboter Diese Regel wird ignoriert. Host wird nur einmal verschrieben!

Für die Protokolle "HTTPS: //" und "http: //" ist die Syntax in der Datei robots.txt unterschiedlich.

Sitemap - Site Map

Site Map ist ein Site-Navigationsformular, mit dem Suchmaschinen über neue Seiten informiert werden. Mit der Sitemap-Richtlinie zeigen wir "heftig" den Roboter, in dem sich die Karte befindet.


Symbole in robots.txt.

Symbole, die in der Datei verwendet werden: "/, *, $, #".


Überprüfen der Leistung nach der Konfiguration von robots.txt

Nachdem Sie Robots.txt auf Ihrer Website gepostet haben, müssen Sie ihn in Yandex und Google Webmaster hinzufügen und überprüfen.

Yandex-Check:

  1. Folgen Sie dem Link https://webmaster.yandex.ru/tools/robotstxt /.
  2. Wählen Sie: Indexeinstellung - Robots.txt-Analyse.

Google-Überprüfung:

  1. Folgen Sie dem Link https://support.google.com/webmasters/answer/6062598.
  2. Wählen Sie: Scannen - das Dateiüberprüfungsgerät von Robots.txt.

Auf diese Weise können Sie Ihre Roboters.txt auf Fehler überprüfen und ggf. die erforderlichen Einstellungen vornehmen.

  1. Der Inhalt der Datei muss mit Großbuchstaben geschrieben werden.
  2. In der Nachlassen-Richtlinie müssen Sie nur eine Datei oder ein Verzeichnis angeben.
  3. Der String "User-Agent" sollte nicht leer sein.
  4. Benutzer-Agent sollte immer vor dem Nicht zulassen.
  5. Vergessen Sie nicht, einen Schrägstrich vorzuschreiben, wenn Sie die Indexierung des Verzeichnisses verbieten müssen.
  6. Bevor Sie die Datei auf den Server herunterladen, müssen Sie es auf das Vorhandensein syntaktischer und Rechtschreibfehler überprüfen.

Wir haben ein neues Buch "Inhaltsmarketing in sozialen Netzwerken" veröffentlicht: So sitzen Sie in den Kopf der Abonnenten und verlieben Sie sich in ihre Marke. "

Jetzt abonnieren

Roboter.txt ist eine Textdatei, die Informationen für Suchroboter enthält, die dazu beitragen, die Portalseiten zu indexieren.


Mehr Video auf unserem Kanal - lernen Sie Internet-Marketing mit Semantica

Stellen Sie sich vor, Sie gingen zum Inselschatz. Sie haben eine Karte. Die Route ist dort angegeben: "Gehen Sie zu einem großen Schlag auf. Von ihm, um 10 Schritte nach Osten zu nehmen, dann gehen Sie zur Klippe. Rechts drehen, die Höhle finden. "

Dies ist Anweisungen. Nach ihnen gehen Sie entlang der Route und finden den Schatz. Annehmungsnäher ist die Suchleiste auch, wenn es anfängt, die Website oder die Seite zu indexieren. Er findet die Datei robots.txt. Es liest, welche Seiten zu indexieren, und die nicht sind. Und nach diesen Teams umgeht er das Portal und fügt seinen Seiten dem Index hinzu.

Was ist Roboters.txt erforderlich

Sie gehen auf Sites- und Indexseiten, nachdem die Site auf Hosting und registriertes DNS geladen wurde. Sie machen ihren Job, unabhängig davon, ob Sie technische Dateien haben oder nicht. Roboter zeigen Suchmaschinen an, dass Sie beim Nachverfolgen einer Website die darin enthaltenen Parameter berücksichtigen müssen.

Das Fehlen der Datei robots.txt kann zu Problemen mit der Geschwindigkeit des Standorthandels und der Anwesenheit von Müll im Index führen. Die falsche Konfiguration der Datei ist mit einer Ausnahme vom Index wichtiger Teilen der Ressource und der Anwesenheit in der Ausgabe von unnötigen Seiten.

All dies führt dadurch zu Problemen mit der Förderung.

Berücksichtigen Sie detaillierter, welche Anweisungen in dieser Datei enthalten sind, wie sie das Verhalten des Bots auf Ihrer Website beeinflussen.

Wie man Roboter.txt macht

Um zu beginnen, prüfen Sie, ob Sie diese Datei haben.

Geben Sie die Adresse der Site in die Adressleiste des Browsers ein und über den Slash-Dateinamen, z. B. https://www.xxxxx.ru/robots.txt

Wenn die Datei vorhanden ist, erscheint die Liste der Parameter auf dem Bildschirm.

Wenn es keine Datei gibt:

  1. Die Datei wird im üblichen Text-Editor Type Notepad oder Notepad ++ erstellt.
  2. Sie müssen die Namensroboter, Erweiterung einstellen. Txt. Berücksichtigen Sie die angenommenen Entwurfsstandards.
  3. Sie können Fehler mit den Diensten von Yandex-Webmaster-Typ prüfen. Sie müssen das Element "Robots.txt-Analyse" im Abschnitt "Tools" auswählen und den Anweisungen folgen.
  4. Wenn die Datei bereit ist, füllen Sie es in das Stammverzeichnis der Site aus.

Einstellungsregeln

Suchmaschinen sind kein Roboter. Einige Bots Index nur Textinhalte, einige - nur Grafik. Ja, und in den Suchmaschinen selbst kann das Schema der Arbeit des Raupen anders sein. Bei der Erstellung einer Datei muss es berücksichtigt werden.

Einige von ihnen können einen Teil der Regeln ignorieren, zum Beispiel antwortet GoogleBot nicht auf Informationen darüber, welchen Site-Spiegel als Hauptspiegel angesehen wird. Im Allgemeinen nehmen sie jedoch von der Datei wahr und geleitet.

Syntaxdatei

Dokumentparameter: Robotername (BOT) "Benutzer-Agent", Richtlinien: Auflösung zulassen und verbieten nicht zulassen.

Jetzt gibt es zwei wichtige Suchmaschinen: Yandex und Google, es ist wichtig, wenn Sie den Standort erstellen, um die Anforderungen von beiden zu berücksichtigen.

Das Format zum Erstellen von Datensätzen ist wie folgt, achten Sie auf die obligatorischen Lücken und leeren Saiten.

User-Agent-Richtlinie

Der Roboter sucht nach Datensätzen, die mit dem Benutzeragenten beginnen, es muss auf dem Namen des Suchroboters angezeigt werden. Wenn es nicht angegeben ist, wird angenommen, dass der Zugang von Bots unbegrenzt ist.

Nicht zulassen und Richtlinien zulassen

Wenn Sie die Indexierung in robots.txt verbieten müssen, verwenden Sie nicht zu. Damit beschränken Sie den Flaschenzugriff auf die Site oder einige Abschnitte.

Wenn Roboters.Tthtt keine verbotene Verbotsnachrichtungen enthält, wird angenommen, dass die Indexierung des gesamten Standorts erlaubt ist. Normalerweise werden die Verbote nach jedem Bot separat verschrieben.

Alle Informationen, die nach dem Symbol # aufgeführt sind, sind Kommentare und wird nicht von der Maschine gelesen.

Erlauben wird verwendet, um den Zugriff zuzulassen.

Das Sternsymbol dient als Hinweis darauf, was für alle gilt: Benutzer-Agent: *.

Diese Option bedeutet im Gegenteil ein komplettes Verbot der Indexierung für alle.

Verbot der Ansicht des gesamten Inhalts eines bestimmten Verzeichnisordners

Um eine Datei zu blockieren, müssen Sie den absoluten Pfad angeben


Richtlinie Sitemap, Host

Für Yandex ist es üblich, den Spiegel anzugeben, den Sie die Hauptsache bezeichnen möchten. Und Google, wie wir uns erinnern, ignoriert ihn. Wenn es keine Spiegel gibt, beheben Sie einfach, wie Sie es für richtig halten, den Namen Ihrer Website mit www oder ohne zu schreiben.

Clean-Param-Richtlinie

Es kann angewendet werden, wenn die Website-URLs variable Parameter enthalten, die ihren Inhalt nicht beeinträchtigen (es können Benutzer-IDs, Referrer sein).

Beispielsweise definiert in der Adresse der Seiten "Ref" die Verkehrsquelle, d. H. Zeigt an, wo der Besucher auf den Standort kam. Für alle Benutzer ist die Seite gleich.

Der Roboter kann darauf angegeben werden, und es wird keine Wiederholungsinformationen geladen. Dadurch wird die Serverlast reduziert.

Crawl-Delay-Richtlinie

Mit Ihnen können Sie feststellen, welche Frequenz der Bot auf der Analyse heruntergeladen wird. Dieser Befehl gilt, wenn der Server überlastet ist, und zeigt an, dass der Bypass-Prozess beschleunigt werden muss.

Robots.txt-Fehler

  1. Die Datei befindet sich nicht im Stammverzeichnis. Ein tieferer Roboter sucht ihn nicht und berücksichtigt nicht.
  2. Buchstaben im Titel sollten kleiner Latein sein.
    Ein Fehler im Titel vermisst manchmal den Buchstaben S am Ende und Schreibroboter.
  3. Sie können kyrillische Zeichen in der Datei robots.txt nicht verwenden. Wenn Sie eine Domäne in Russisch angeben müssen, verwenden Sie das Format in der speziellen Punycode-Codierung.
  4. Dies ist eine Methode zum Konvertieren von Domänennamen in eine Reihenfolge von ASCII-Zeichen. Dazu können Sie spezielle Konverter verwenden.

Es sieht aus wie eine Kodierung wie folgt:
Seite.rf \u003d xn - 80Swg.xn - P1ai

Weitere Informationen finden Sie in der Nähe roboter txt. Und entsprechend den Einstellungen gemäß den Anforderungen der Suchmaschinen können Google und Yandex in den Referenzdokumenten gefunden werden. Für verschiedene CMSS kann es auch ihre eigenen Merkmale geben, es sollte berücksichtigt werden.

Die Datei robots.txt befindet sich im Stammverzeichnis Ihrer Site. Auf der Website www.example.com wird beispielsweise die Adresse der Roboter.txt-Datei wie www.example.com/robots.txt aussehen. Es ist eine reguläre Textdatei, die den Ausnahmestandard für Roboter erfüllt, und enthält einen oder mehrere Regeln, von denen jeder einen oder anderen Suchroboter-Zugriff auf einen bestimmten Pfad auf dem Standort verbietet oder ermöglicht.

Unten ist ein Beispiel einfache Datei. Robots.txt mit zwei Regeln und seiner Interpretation.

# Regel 1 Benutzer-Agent: GoogleBot nicht zulassen: / nogoogotbot / # Regel 2 Benutzer-Agent: * Erlauben: / Sitemap: http://www.example.com/sitemap.xml

Interpretation

  1. Der Benutzername namens GoogleBot sollte den Katalog http://example.com/nogooglebot/ und seine Unterverzeichnisse nicht scannen.
  2. Alle anderen Benutzeragenten haben Zugriff auf alle Websites (Sie können weglassen, das Ergebnis ist das gleiche wie voller Zugriff Standardmäßig bereitgestellt).
  3. Sitemap-Datei. Diese Site befindet sich unter http://www.example.com/sitemap.xml.

Nachfolgend finden Sie mehrere Tipps zum Arbeiten mit Robots.txt-Dateien. Es wird empfohlen, dass Sie die vollständige Syntax der Roboter.txt-Dateien untersuchen, da die Syntaxregeln beim Erstellen der Dateien von Robots.txt verwendet werden, nicht offensichtlich und Sie sollten sie verstehen.

Format und Ort

Sie können die Roboter.txt-Datei in fast jedem Texteditor erstellen (es muss die ASCII- oder UTF-8-Kodierung unterstützen). Verwende nicht textprozessoren.: Sie speichern oft Dateien im proprietären Format und fügen ihnen zu unzulässigen Zeichen hinzu, z. B. gelockte Zitate, die von Suchrobotern nicht erkannt werden.

Verwenden Sie beim Erstellen und Testen solcher Dateien das Dateiüberprüfungs-Tool Roboter.txt-Datei. Sie können die Dateisyntax analysieren und herausfinden, wie er auf Ihrer Website funktioniert.

Regeln in Bezug auf das Format und den Speicherort der Datei

  • Die Datei muss den Namen Roboter.txt tragen.
  • Auf der Website sollte es nur eine solche Datei geben.
  • Die Roboter.txt-Datei muss in eingesetzt werden wurzelkatalog Seite? ˅. Um beispielsweise den Scan aller Seiten der Site http://www.example.com/ zu überwachen, sollten die Datei robots.txt unter http://www.example.com/robots.txt platziert werden. Er sollte nicht im Unterverzeichnis sein (zum Beispiel bei http://example.com/pages/robots.txt.). Wenden Sie sich bei Schwierigkeiten mit dem Zugriff auf den Root-Katalog an Ihren Hosting-Anbieter. Wenn Sie keinen Zugriff auf das Stammverzeichnis der Site haben, verwenden Sie ein alternatives Blockierverfahren, z. B. Metalklammer.
  • Die Datei robots.txt kann Adressen mit hinzugefügt werden subdomains. (Zum Beispiel http: // webseite..example.com / robots.txt) oder nicht standardmäßige Ports (z. B. http://example.com: 8181 /Robots.txt).
  • Kommentare sind alle Reihen, die mit dem Gittersymbol (#) beginnen.

Syntax

  • Die Roboter.txt-Datei muss sein textdatei In der Codierung ASCII oder UTF-8. Verwenden Sie andere Zeichen, ist nicht zulässig.
  • Die Datei robots.txt kann aus einem oder mehreren bestehen regeln.
  • Regel muss mehrere enthalten richtlinie (Anweisungen), von denen jede in einer separaten Zeile angegeben werden sollte.
  • Die Regel enthält die folgenden Informationen:
    • Zu welchem user-Agent Bezieht die Regel.
    • es gibt Zugang..
    • In welche Verzeichnisse oder Dateien von diesem Agenten kein Zugang.
  • Die Regeln werden von oben nach unten verarbeitet. Der Benutzeragent kann nur einer geeigneten Regel dafür folgen, was zuerst verarbeitet wird.
  • Standardmäßig wird angenommenWenn der Zugriff auf die Seite oder das Verzeichnis nicht durch die nicht zugelegte Regel blockiert ist:, kann der Benutzeragent sie verarbeiten.
  • Regeln empfindlich für register.. Also gilt die Regelung: /file.asp-Regel für die URL http://www.example.com/file.asp, jedoch nicht zu http://www.example.com/file.asp.

Richtlinien, die in Robots.txt-Dateien verwendet werden

  • User-Agent: Seien Sie sicher, in einer Regel ein oder mehrere solcher Regeln zu verwenden. Bestimmt roboter Suchmaschine, zu der die Regel gehört. Diese Linie ist der erste in jeder Regel. Die meisten von ihnen sind in der Internet-Roboter-Datenbank oder in der Liste der Google Search-Roboter aufgeführt. Die Wildcard wird unterstützt *, um den Präfix- oder Suffix-Pfad oder den gesamten Pfad zu bezeichnen. Verwenden Sie ein solches Zeichen (*), wie in dem nachstehenden Beispiel angegeben, um alle Suchroboter zu blockieren ( neben ADSBOT-Roboternwas Sie separat angeben müssen). Wir empfehlen, die Roboterliste von Google kennenzulernen. Beispiele: # Beispiel 1: Nur mit GoogleBot-Benutzer-Agent: GoogleBot nicht zulassen: / # Beispiel 2: Block mit GoogleBot und ADSBOT User-Agent: GoogleBot User-Agent: ADSBOT-Google nicht zulassen: / # Beispiel 3: BLOCK ALL ABER ADSBOT CRAWERS User-Agent : * Nicht zulassen: /
  • Nicht zulassen: . Gibt das Verzeichnis oder die Seite in der Root-Domäne an, die Sie den oben definierten Benutzeragenten nicht scannen können. Wenn diese Seite den vollständigen Pfad angegeben sein muss, wie in der Adressleiste des Browsers. Wenn dies ein Verzeichnis ist, muss der Pfad dazu mit einem Slash (/) enden. Die Wildcard wird unterstützt *, um den Präfix- oder Suffix-Pfad oder den gesamten Pfad zu bezeichnen.
  • Ermöglichen: In jeder Regel muss es mindestens eine Nachlässigkeit der Richtlinie geben: oder zulassen:. Gibt das Verzeichnis oder die Seite in der Root-Domäne an, die Sie den oben definierten Benutzeragenten nicht scannen können. Wird verwendet, um die Verbindungsregel abzubrechen und das Scannen des Unterverzeichnisses oder Seiten in einem zu scan-Verzeichnis geschlossen zu ermöglichen. Wenn diese Seite den vollständigen Pfad angegeben sein muss, wie in der Adressleiste des Browsers. Wenn dies ein Verzeichnis ist, muss der Pfad dazu mit einem Slash (/) enden. Die Wildcard wird unterstützt *, um den Präfix- oder Suffix-Pfad oder den gesamten Pfad zu bezeichnen.
  • Seitenverzeichnis: Optional können solche Richtlinien etwas sein oder nicht vollständig sein. Gibt den Speicherort der auf dieser Website verwendeten Sitemap-Datei an. Die URL muss vollständig sein. Google geht nicht fort und überprüft nicht die URL-Varianten mit HTTP- und HTTPS-Präfixen oder mit dem WWW oder ohne ihn. Sitemap-Dateien berichten von Google, welche Inhalte müssen Scannen und wie man es aus dem Inhalt unterscheidet, das können oder es ist unmöglich Scan. Machen Sie sich mit zusätzlichen Informationen zu Sitemap-Dateien vertraut. Beispiel: Sitemap: https://example.com/sitemap.xml Sitemap: http://www.example.com/sitemap.xml

Unbekannt stichworte ignorieren.

Ein weiteres Beispiel.

Die Datei robots.txt besteht aus einem oder mehreren Regelnstellen. Jedes Set beginnt mit der Benutzer-Agent-Zeichenfolge, die den Roboter definiert, der die Regeln des Sets unterteilt. Hier ist ein Beispiel einer Datei mit zwei Regeln; Sie werden von den eingebauten Kommentaren erklärt:

# Blockieren Sie den GoogleBot-Roboter-Zugriff auf das Expemplle.com/Directory1 / ... und Beispiel.com/Directory1 / ... und z. / ... # Zugriff auf alle anderen Verzeichnisse sind standardmäßig zulässig. Benutzer-Agent: GoogleBot nicht zulassen: / Verzeichnis1 / nicht zulassen: / Directory2 / Erlauben: / Verzeichnis2 / Subverzeichnis1 / # Blockzugriff auf die gesamte Site an eine andere Suchmaschine. Benutzer-Agent: Anderecrawler ist nicht zulassen: /

Vollständige Syntaxdatei robots.txt

Die vollständige Syntax ist in diesem Artikel beschrieben. Wir empfehlen, dass Sie sich damit vertraut machen, wie in der Syntax der Roboter.txt-Datei gibt es einige wichtige Nuancen.

Nützliche Regeln

Hier sind einige häufige Regeln für die Datei robots.txt:

Regel Beispiel
Verbot des Scannens der gesamten Site. Es sei darauf hingewiesen, dass die URL der Site in einigen Fällen im Index vorhanden sein kann, auch wenn sie nicht gescannt wurden. Bitte beachten Sie, dass diese Regel nicht auf ADSBOT-Roboter gilt, die separat angegeben werden müssen. Benutzer-Agent: * Nicht zulassen: /
Um den Katalogscan und den gesamten Inhalt zu verbietenÜberprüfen Sie nach dem Namen des Katalognamens. Verwenden Sie nicht die Roboter.txt-Datei, um vertrauliche Informationen zu schützen! Für diese Zwecke sollte die Authentifizierung angewendet werden. Die URL, der das Scannen, der von der Datei robots.txt verboten ist, kann indexiert werden, und der Inhalt der Datei robots.txt kann jeder Benutzer anzeigen und somit den Speicherort von Dateien mit vertraulichen Informationen herausfinden. Benutzer-Agent: * Nicht zulassen: / Kalender / Nicht zulassen: / Junk /
Scannen Sie die Auflösung nur für einen Suchroboter Benutzer-Agent: GoogleBot-News Erlauben: / Benutzer-Agent: * Nicht zulassen: /
Scannen Sie die Auflösung für alle Suchroboter mit Ausnahme eines Benutzer-Agent: unnötigbot nicht zulassen: / Benutzer-Agent: * Erlauben: /

So verhindern Sie das Scannen einer separaten SeiteGeben Sie diese Seite nach einem Schrägstrich an.

Nicht zulassen: /private_file.html.

So verbergen ein bestimmtes Bild von den Roboterbildern von Google

Benutzer-Agent: GoogleBot-Image Nicht zulassen: /images/dogs.jpg

Um alle Bilder von Ihrer Website aus den Google-Roboterbildern auszublenden

Benutzer-Agent: GoogleBot-Image Nicht zulassen: /

Um das Scannen aller Dateien eines bestimmten Typs zu verhindern (In diesem Fall GIF)

Benutzer-Agent: GoogleBot nicht zulassen: /*.gif$

Um bestimmte Seitenseiten zu blockieren, um ADSense-Anzeigen weiterhin anzuzeigenVerwenden Sie die Nordregel für alle Roboter, mit Ausnahme von MediaPartners-Google. Infolgedessen kann dieser Roboter auf die von den Suchergebnissen entfernten Seiten zugreifen, um Anzeigen zum Anzeigen eines oder eines anderen Benutzers auszuwählen.

Benutzer-Agent: * Nicht zulassen: / Benutzer-Agent: MediaPartners-Google Erlauben: /
So legen Sie die URL an, die mit bestimmten Zeichen endet Verwenden Sie das $ -Symbol. Verwenden Sie zum Beispiel für URLs, die mit onlinexls enden, den folgenden Code verwenden: Benutzer-Agent: GoogleBot nicht zulassen: /*.xls$

War dieser Artikel nützlich?

Wie kann ich diesen Artikel verbessern?

Fortsetzung des Themas:
Smartphone

Konfigurieren und aktivieren Sie einen speziellen AHCI-Modus, der vorzugsweise jedem Benutzer, der erheblich erweitern möchte, und gleichzeitig die Fähigkeiten Ihres PCs zur Arbeit mit ...