Έλλειψη ρομπότ txt. Η μετα -ετικέτα ρομπότ και πώς γράφεται. Τι να κάνω μετά

Τύποι ρομπότ Yandex

  • Yandex / 1.01.001 (συμβατό; Win16; I) - κύριο ρομπότ ευρετηρίου
  • Yandex / 1.01.001 (συμβατό; Win16; P) - ευρετήριο εικόνων
  • Yandex / 1.01.001 (συμβατό; Win16; H) - ένα ρομπότ που ανιχνεύει καθρέφτες ιστότοπου
  • Yandex / 1.02.000 (συμβατό; Win16; F) - ένα ρομπότ που ευρετηριάζει εικονίδια ιστότοπου (φαβορί)
  • Yandex / 1.03.003 (συμβατό; Win16; D) - ένα ρομπότ που αποκτά πρόσβαση σε μια σελίδα κατά την προσθήκη της μέσω της φόρμας "Προσθήκη διεύθυνσης URL"
  • Yandex / 1.03.000 (συμβατό; Win16; M) - ένα ρομπότ που έχει πρόσβαση στο σύνδεσμο "Εύρεση λέξεων" κατά το άνοιγμα μιας σελίδας
  • YaDirectBot / 1.0 (συμβατό; Win16; I) - ένα ρομπότ που ευρετηριάζει σελίδες ιστότοπων που συμμετέχουν στο Yandex Advertising Network
  • YandexBlog / 0.99.101 (συμβατό; DOS3.30, B) - ένα ρομπότ που ευρετηριάζει αρχεία xml για αναζήτηση ιστολογίου.
  • Το YandexSomething / 1.0 είναι ένα ρομπότ που ευρετηριάζει ροές ειδήσεων από συνεργάτες του Yandex-News.
  • Bond, James Bond (έκδοση 0.07) - ένα ρομπότ που επισκέπτεται ιστότοπους από το υποδίκτυο Yandex. Δεν αναφέρθηκε ποτέ επίσημα. Περπατά επιλεκτικά τις σελίδες. Ο κριτής δεν μεταδίδει. Οι φωτογραφίες δεν φορτώθηκαν. Κρίνοντας από τις συνήθειές του, το ρομπότ ελέγχει ιστότοπους για παραβιάσεις - μανδύα κλπ.

Διευθύνσεις IP ρομπότ Yandex

Υπάρχουν πολλές διευθύνσεις IP από τις οποίες το ρομπότ Yandex "περπατά" και μπορούν να αλλάξουν. Ο κατάλογος των διευθύνσεων δεν αποκαλύφθηκε.

Εκτός από τα ρομπότ, το Yandex διαθέτει αρκετούς παράγοντες "πατήματος" που καθορίζουν εάν είναι διαθέσιμος ένας ιστότοπος ή ένα έγγραφο, στους οποίους υπάρχει σύνδεσμος στην αντίστοιχη υπηρεσία.

  • Yandex / 2.01.000 (συμβατό; Win16; Dyatel; C) - "κουδουνίστρα" Yandex.Katalog. Εάν ο ιστότοπος δεν είναι διαθέσιμος για αρκετές ημέρες, καταργείται από τη δημοσίευση. Μόλις ο ιστότοπος αρχίσει να ανταποκρίνεται, εμφανίζεται αυτόματα στον Κατάλογο.
  • Yandex / 2.01.000 (συμβατό; Win16; Dyatel; Z) - "πατώντας" Yandex.Bookmark. Οι σύνδεσμοι προς απρόσιτες τοποθεσίες είναι γκριζαρισμένοι.
  • Yandex / 2.01.000 (συμβατό; Win16; Dyatel; D) - "αγγίζοντας" Yandex.Direct. Ελέγχει την ορθότητα των συνδέσμων από διαφημίσεις πριν από την εποπτεία. Δεν πραγματοποιείται αυτόματη ενέργεια.
  • Yandex / 2.01.000 (συμβατό; Win16; Dyatel; N) - "αγγίζοντας" Yandex.News. Δημιουργεί μια αναφορά για τον διαχειριστή περιεχομένου, ο οποίος αξιολογεί την κλίμακα των προβλημάτων και, εάν είναι απαραίτητο, επικοινωνεί με τον συνεργάτη.

Οδηγία υποδοχής

Για να αποφύγετε προβλήματα με τους κατοπτρικούς ιστότοπους, συνιστάται να χρησιμοποιήσετε την οδηγία "Host". Η οδηγία "Host" δείχνει το ρομπότ Yandex στον κύριο καθρέφτη αυτού του ιστότοπου. Δεν έχει καμία σχέση με την οδηγία "Απαγόρευση".

User-agent: Yandex
Απαγόρευση: / cgi-bin
Φιλοξενία: www.site.ru

User-agent: Yandex
Απαγόρευση: / cgi-bin
Διοργανωτής: site.ru

όποιο είναι καλύτερο για εσάς.

Ερώτηση:Πότε σκοπεύετε να συμμορφωθείτε εγκαίρως με την οδηγία Host: robots.txt; Εάν ένας ιστότοπος έχει ευρετηριαστεί ως www.site.ru όταν καθορίζεται το Host: site.ru αφού έχει τοποθετηθεί το robots.txt για 1-2 εβδομάδες, τότε ένας ιστότοπος με www και χωρίς www δεν κολλάει για περισσότερο από 1-2 μήνες και στο Yandex, υπάρχουν 2 αντίγραφα μερικώς αλληλεπικαλυπτόμενων ιστότοπων ταυτόχρονα (το ένα είναι 550 σελίδες, το άλλο 150 σελίδες, ενώ 50 σελίδες είναι ίδιες). Παρακαλώ σχολιάστε τα προβλήματα με το έργο του "καθρέφτη".
Απάντηση:Μια επέκταση του προτύπου robots.txt που εισήγαγε η Yandex, η οδηγία Host δεν είναι μια εντολή για να θεωρηθούν οι δύο ιστότοποι ως καθρέφτες, είναι μια ένδειξη ποιος ιστότοπος από την ομάδα, οι οποίοι ορίζονται αυτόματα ως καθρέφτες, θα πρέπει να θεωρείται ο κύριος ένας. Ως εκ τούτου, όταν οι ιστότοποι αναγνωρίζονται ως καθρέφτες, η οδηγία κεντρικού υπολογιστή θα λειτουργήσει.

Ετικέτα HTML

Το ρομπότ Yandex υποστηρίζει την ετικέτα noindex, η οποία απαγορεύει στο ρομπότ Yandex να ευρετηριάσει καθορισμένες ενότητες κειμένου (υπηρεσίας). Στην αρχή του τμήματος υπηρεσίας, , και στο τέλος -και το Yandex δεν θα ευρετηριάσει αυτήν την ενότητα του κειμένου.

Γεια σας αγαπητοί αναγνώστες του ιστολογίου SEO Pingo. Σε αυτό το άρθρο, θέλω να σκιαγραφήσω την ιδέα μου για το πώς να συνθέσω σωστά το robots.txt για έναν ιστότοπο. Κάποτε ενοχλήθηκα πολύ που οι πληροφορίες στο Διαδίκτυο σχετικά με αυτό το θέμα είναι μάλλον πρόχειρες. Εξαιτίας αυτού, έπρεπε να ανιχνεύσω έναν μεγάλο αριθμό πόρων, φιλτράροντας συνεχώς επαναλαμβανόμενες πληροφορίες και απομονώνοντας νέες πληροφορίες.

Έτσι, εδώ θα προσπαθήσω να απαντήσω στις περισσότερες από τις ερωτήσεις, ξεκινώντας από τον ορισμό και τελειώνοντας με παραδείγματα πραγματικών προβλημάτων που επιλύονται με αυτό το εργαλείο. Εάν ξεχάσω κάτι - γράψτε το στα σχόλια σχετικά με αυτό - θα ερευνήσω το ζήτημα και θα συμπληρώσω το υλικό.

Robots.txt - τι είναι, γιατί χρειάζεται και πού ζει;

Έτσι, πρώτον, ένα εκπαιδευτικό πρόγραμμα για όσους αυτό το θέμαεντελώς άγνωστο.

Το Robots.txt είναι ένα αρχείο κειμένου που περιέχει οδηγίες για την ευρετηρίαση ενός ιστότοπου για ρομπότ μηχανών αναζήτησης. Σε αυτό το αρχείο, ένας webmaster μπορεί να ορίσει τις παραμέτρους ευρετηρίασης του ιστότοπού του τόσο για όλα τα ρομπότ ταυτόχρονα όσο και για καθένα μηχανή αναζήτησηςξεχωριστά (για παράδειγμα, για την Google).

Πού βρίσκεται το robots.txt;Βρίσκεται στον ριζικό φάκελο του ιστότοπου FTP και, στην πραγματικότητα, είναι ένα κανονικό έγγραφο σε μορφή txt, το οποίο μπορεί να επεξεργαστεί χρησιμοποιώντας οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου (προσωπικά προτιμώ το Notepad ++). Μπορείτε να δείτε τα περιεχόμενα του αρχείου ρομπότ πληκτρολογώντας γραμμή διεύθυνσηςπρόγραμμα περιήγησης http://www.your-site.ru/robots.txt. Εάν, φυσικά, υπάρχει.

Πώς μπορώ να δημιουργήσω ένα robots.txt για έναν ιστότοπο;Αρκεί να δημιουργήσετε ένα κανονικό αρχείο κειμένου με αυτό το όνομα και να το ανεβάσετε στον ιστότοπο. Τρόπος σωστής διαμόρφωσης και σύνθεσης θα συζητηθεί παρακάτω.

Δομή και διαμόρφωση αρχείου Robots.txt

Πώς πρέπει να φαίνεται το σωστό αρχείο ρομπότ txt για τον ιστότοπο; Η δομή μπορεί να περιγραφεί ως εξής:

1. Οδηγία παράγοντα χρήστη

Τι να γράψετε σε αυτήν την ενότητα; Αυτή η οδηγία καθορίζει για ποιο ρομπότ προορίζονται οι ακόλουθες οδηγίες. Για παράδειγμα, εάν προορίζονται για όλα τα ρομπότ, τότε αρκεί η ακόλουθη κατασκευή:

Στη σύνταξη ενός αρχείου robots.txt, το "*" ισοδυναμεί με "οτιδήποτε". Εάν πρέπει να ορίσετε οδηγίες για μια συγκεκριμένη μηχανή αναζήτησης ή ρομπότ, τότε στη θέση του αστερίσκου από το προηγούμενο παράδειγμα, γράφεται το όνομά του, για παράδειγμα:

User-agent: YandexBot

Κάθε μηχανή αναζήτησης διαθέτει ένα ολόκληρο σύνολο ρομπότ που εκτελούν ορισμένες λειτουργίες. Περιγράφονται τα ρομπότ μηχανών αναζήτησης Yandex. Σε γενικές γραμμές, υπάρχουν τα ακόλουθα:

  • Yandex - ένδειξη ρομπότ Yandex.
  • Το GoogleBot είναι το κύριο ρομπότ ευρετηρίου.
  • Το MSNBot είναι το κύριο ρομπότ ευρετηρίου του Bing.
  • Aport - ρομπότ Aport.
  • Mail.Ru - ρομπότ του PS Mail.

Εάν υπάρχει μια οδηγία για μια συγκεκριμένη μηχανή αναζήτησης ή ρομπότ, τότε οι γενικές παραβλέπονται.

2. Να επιτρέπεται η οδηγία

Επιτρέπει μεμονωμένες σελίδες μιας ενότητας εάν, ας πούμε, προηγουμένως ήταν εντελώς κλειστή από την ευρετηρίαση. Για παράδειγμα:

Αντιπρόσωπος χρήστη: *
Απαγορεύεται: /
Να επιτρέπεται: /open-page.html

ΣΕ αυτό το παράδειγμααπαγορεύουμε την ευρετηρίαση ολόκληρου του ιστότοπου, εκτός από τη σελίδα poni.html

Αυτή η οδηγία χρησιμεύει σε κάποιο βαθμό για να υποδείξει εξαιρέσεις από τους κανόνες που καθορίζονται από την οδηγία Απαγόρευση. Εάν δεν υπάρχουν τέτοιες καταστάσεις, τότε η οδηγία ενδέχεται να μην χρησιμοποιείται καθόλου. Δεν σας επιτρέπει να ανοίξετε έναν ιστότοπο για ευρετηρίαση, όπως πιστεύουν πολλοί άνθρωποι, επειδή εάν δεν υπάρχει απαγόρευση όπως το Disallow: /, τότε είναι ανοιχτό από προεπιλογή.

2. Οδηγία απαγόρευσης

Είναι ο αντίποδα της οδηγίας Allow και κλείνει μεμονωμένες σελίδες, ενότητες ή ολόκληρο τον ιστότοπο από την ευρετηρίαση. Ανάλογο με την ετικέτα noindex. Για παράδειγμα:

Αντιπρόσωπος χρήστη: *
Απαγορεύεται: /closed-page.html

3. Οδηγία υποδοχής

Χρησιμοποιείται μόνο για το Yandex και δείχνει στον κύριο καθρέφτη του ιστότοπου. Μοιάζει με αυτό.

Κύριος καθρέφτης χωρίς www:

Κύριος καθρέφτης από το www:

Διοργανωτής: www.site.ru

Ιστοσελίδα στο https:

Φιλοξενία: https://site.ru

Δεν μπορείτε να γράψετε την οδηγία κεντρικού υπολογιστή στο αρχείο δύο φορές. Εάν, λόγω κάποιου σφάλματος, αυτό συνέβη, τότε η οδηγία που πηγαίνει πρώτη υποβάλλεται σε επεξεργασία και η δεύτερη αγνοείται.

4. Οδηγία χάρτη ιστοτόπου

Χρησιμοποιείται για τον καθορισμό της διαδρομής στο XML sitemap.xml (εάν υπάρχει). Η σύνταξη έχει ως εξής:

Χάρτης ιστοτόπου: http://www.site.ru/sitemap.xml

5. Οδηγία Clean-param

Χρησιμοποιείται για κλείσιμο από ευρετήριο σελίδων με παραμέτρους που μπορούν να είναι διπλές. Κατά τη γνώμη μου, μια πολύ χρήσιμη οδηγία, η οποία κόβει την παραμετρική ουρά των διευθύνσεων url, αφήνοντας μόνο τη ραχοκοκαλιά, που είναι η αρχική διεύθυνση της σελίδας.

Αυτό το πρόβλημα είναι ιδιαίτερα κοινό όταν εργάζεστε με καταλόγους και ηλεκτρονικά καταστήματα.

Ας πούμε ότι έχουμε μια σελίδα:

http://www.site.ru/index.php

Και αυτή η σελίδα στο στάδιο της εργασίας μπορεί να ξεχειλίζει με κλώνους του είδους.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Για να απαλλαγείτε από όλες τις πιθανές παραλλαγές αυτού του ανεπιθύμητου μηνύματος, αρκεί να καθορίσετε την ακόλουθη κατασκευή:

Clean-param: option /index.php

Νομίζω ότι η σύνταξη από το παράδειγμα είναι σαφής:

Clean-param: # καθορίστε την οδηγία
επιλογή # καθορίστε την παράμετρο ανεπιθύμητης αλληλογραφίας
/index.php # καθορίστε τη ραχοκοκαλιά url με την παράμετρο spam

Εάν υπάρχουν αρκετές παράμετροι, τότε απλώς τις παραθέτουμε μέσω του ενισχυτή (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # url με δύο παραμέτρους
Clean-param: option & big /index.php # καθορίζονται δύο παράμετροι διαχωρισμένες με ενισχυτές

Το παράδειγμα είναι απλό, εξηγώντας την ίδια την ουσία. Θα ήθελα να πω ειδικά χάρη σε αυτήν την παράμετρο όταν συνεργάζομαι με το CMS Bitrix.

Οδηγία Crawl-Delay

Σας επιτρέπει να ορίσετε ένα χρονικό όριο για τη φόρτωση των σελίδων ιστότοπου από το Yandex. Χρησιμοποιείται όταν ο διακομιστής είναι πολύ φορτωμένος, στον οποίο απλά δεν έχει χρόνο για γρήγορη παράδοση περιεχομένου. Κατά τη γνώμη μου, πρόκειται για έναν αναχρονισμό, ο οποίος δεν λαμβάνεται πλέον υπόψη και μπορεί να παραλειφθεί.

Καθυστέρηση ανίχνευσης: Χρονικό όριο 3,5 # 3,5 δευτερολέπτων

Σύνταξη

  • # - χρησιμοποιείται για τη σύνταξη σχολίων:
  • User-agent: * # οδηγία ισχύει για όλα τα ρομπότ

  • * - σημαίνει οποιαδήποτε ακολουθία χαρακτήρων, που σημαίνει:
  • Disallow: / page * # απαγορεύει όλες τις σελίδες που ξεκινούν με σελίδα

    Απαγόρευση: / * σελίδα # Απαγόρευση όλων των σελίδων που τελειώνουν με σελίδα

    Απαγόρευση: /cgi-bin/*.aspx # απαγόρευση όλων των σελίδων aspx στο φάκελο cgi-bin

  • $ - περικοπή του κανόνα, απέναντι από το σύμβολο αστερίσκου:
  • Disallow: / page $ # μόνο η σελίδα / σελίδα θα κλείσει, όχι /page.html ή pageline.html

Δείγμα αρχείου robots.txt

Προκειμένου να εδραιωθεί η κατανόηση της παραπάνω δομής και κανόνων, παρουσιάζουμε το τυπικό ρομπότ txt για το CMS Data Life Engine.

User-agent: * # οδηγίες είναι για όλες τις μηχανές αναζήτησης
Απαγόρευση: /engine/go.php # απαγόρευση μεμονωμένων ενοτήτων και σελίδων
Απαγόρευση: /engine/download.php #
Απαγόρευση: / user / #
Απαγόρευση: / newposts / #
Απαγόρευση: / * subaction = userinfo # κλειστές σελίδες με ξεχωριστές παραμέτρους
Απαγόρευση: / * subaction = newposts #
Απαγόρευση: / * do = τελευταία σχόλια #
Απαγόρευση: / * do = σχόλια #
Απαγόρευση: / * do = register #
Απαγόρευση: / * do = lostpassword #
Host: www.site # καθορίστε τον κύριο καθρέφτη του ιστότοπου
Χάρτης ιστότοπου: https: //site/sitemap.xml # καθορίστε τη διαδρομή προς το χάρτη ιστότοπου
User-agent: Aport # καθορίστε την κατεύθυνση των κανόνων για το PS Aport
Να μην επιτρέπεται: / # ας υποθέσουμε ότι δεν θέλουμε να είμαστε φίλοι μαζί τους

Έλεγχος Robots.txt

Πώς να ελέγξετε την ορθότητα των ρομπότ txt; Η τυπική επιλογή είναι ο επικυρωτής Yandex - http://webmaster.yandex.ru/robots.xml. Εισαγάγετε τη διαδρομή για το αρχείο σας ρομπότ ή επικολλήστε αμέσως τα περιεχόμενά του στο πεδίο κειμένου. Εισαγάγετε τη λίστα των διευθύνσεων URL που θέλουμε να ελέγξουμε - είναι κλειστά ή ανοιχτά σύμφωνα με τις καθορισμένες οδηγίες - κάντε κλικ στο "Έλεγχος" και voila! Κέρδος.

Εμφανίζεται η κατάσταση της σελίδας - είτε είναι ανοιχτή για ευρετηρίαση είτε κλειστή. Εάν είναι κλειστό, τότε υποδεικνύεται με ποιον κανόνα. Για να επιτρέψετε την ευρετηρίαση μιας τέτοιας σελίδας, πρέπει να τροποποιήσετε τον κανόνα στον οποίο επισημαίνεται ο επικυρωτής. Εάν υπάρχουν σφάλματα σύνταξης στο αρχείο, ο επικυρωτής θα το αναφέρει επίσης.

Γεννήτρια Robots.txt - διαδικτυακή δημιουργία

Εάν δεν έχετε χρόνο να μελετήσετε τη σύνταξη της επιθυμίας ή του χρόνου, αλλά υπάρχει ανάγκη να κλείσετε τις ανεπιθύμητες σελίδες του ιστότοπου, τότε μπορείτε να χρησιμοποιήσετε οποιαδήποτε δωρεάν διαδικτυακή γεννήτρια που θα σας επιτρέψει να δημιουργήσετε ρομπότ txt για τον ιστότοπο με μόνο μερικά κλικ. Στη συνέχεια, πρέπει απλώς να κατεβάσετε το αρχείο και να το ανεβάσετε στον ιστότοπό σας. Όταν εργάζεστε με αυτό, απλά πρέπει να επιλέξετε τα πλαίσια για τις προφανείς ρυθμίσεις, καθώς και να υποδείξετε τις σελίδες που θέλετε να κλείσετε από την ευρετηρίαση. Η γεννήτρια θα κάνει τα υπόλοιπα για εσάς.

Έτοιμα αρχεία για δημοφιλή CMS

Αρχείο Robots.txt για έναν ιστότοπο στο 1C Bitrix

Πράκτορας Χρήστη: *
Απαγόρευση: / bitrix /
Απαγορεύεται: / personal /
Απαγόρευση: / upload /
Απαγόρευση: / * σύνδεση *
Απαγόρευση: / * auth *
Απαγορεύεται: / * αναζήτηση
Απαγόρευση: / *? Ταξινόμηση =
Απαγορεύεται: / * gclid =
Απαγορεύεται: / * register =
Απαγόρευση: / *? Per_count =
Να μην επιτρέπεται: / * Forgot_password =
Απαγορεύεται: / * change_password =
Απαγόρευση: / * αποσύνδεση =
Απαγόρευση: / * back_url_admin =
Απαγορεύεται: / * print =
Απαγόρευση: / * backurl =
Απαγόρευση: / * BACKURL =
Απαγορεύεται: / * back_url =
Απαγορεύεται: / * BACK_URL =
Απαγορεύεται: / * ADD2BASKET
Απαγόρευση: / * ADD_TO_COMPARE_LIST
Απαγόρευση: / * DELETE_FROM_COMPARE_LIST
Απαγόρευση: / * action = ΑΓΟΡΑ
Απαγόρευση: / * set_filter = y
Απαγόρευση: / *? Mode = μήτρα
Απαγόρευση: / *? Mode = listitems
Απαγόρευση: / * openstat
Απαγόρευση: / * from = adwords
Απαγόρευση: / * utm_source
Διοργανωτής: www.site.ru

Robots.txt για DataLife Engine (DLE)

Αντιπρόσωπος χρήστη: *
Απαγόρευση: /engine/go.php
Απαγόρευση: /engine/download.php
Απαγόρευση: / κινητήρα / κλάσεις / υψηλή ολίσθηση /
Απαγόρευση: / χρήστη /
Απαγόρευση: / tags /
Απαγόρευση: / newposts /
Απαγόρευση: /statistics.html
Απαγόρευση: / * subaction = userinfo
Απαγορεύεται: / * υποσύνδεση = newposts
Απαγόρευση: / * do = τελευταία σχόλια
Να μην επιτρέπεται: / * do = feedback
Απαγόρευση: / * do = εγγραφή
Απαγόρευση: / * do = lostpassword
Απαγόρευση: / * do = addnews
Απαγόρευση: / * do = stats
Απαγόρευση: / * do = pm
Απαγόρευση: / * do = αναζήτηση
Διοργανωτής: www.site.ru
Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

Robots.txt για το Joomla

Αντιπρόσωπος χρήστη: *
Απαγόρευση: / διαχειριστής /
Απαγόρευση: / cache /
Απαγόρευση: / περιλαμβάνει /
Απαγόρευση: / εγκατάσταση /
Απαγόρευση: / γλώσσα /
Απαγόρευση: / βιβλιοθήκες /
Απαγόρευση: / media /
Απαγόρευση: / modules /
Απαγόρευση: / plugins /
Απαγόρευση: / templates /
Απαγόρευση: / tmp /
Απαγόρευση: / xmlrpc /
Απαγόρευση: * εκτύπωση
Απαγόρευση: / * utm_source
Απαγόρευση: / * mailto *
Απαγόρευση: / * έναρξη *
Απαγόρευση: / * feed *
Απαγόρευση: / * αναζήτηση *
Απαγόρευση: / * χρήστες *
Διοργανωτής: www.site.ru
Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

Robots.txt για το Wordpress

Αντιπρόσωπος χρήστη: *
Απαγόρευση: / cgi-bin
Απαγόρευση: / wp-admin
Απαγόρευση: / wp-περιλαμβάνει
Απαγόρευση: / wp-content / plugins
Απαγόρευση: / wp-content / cache
Να απαγορεύονται: / wp-content / themes
Απαγόρευση: * / trackback
Απαγόρευση: * / ροή
Απαγορεύεται: /wp-login.php
Απαγόρευση: /wp-register.php
Διοργανωτής: www.site.ru
Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

Robots.txt για το Ucoz

Αντιπρόσωπος χρήστη: *
Απαγόρευση: / a /
Απαγόρευση: / stat /
Απαγόρευση: / index / 1
Απαγορεύεται: / index / 2
Απαγόρευση: / index / 3
Απαγόρευση: / index / 5
Απαγορεύεται: / index / 7
Απαγορεύεται: / index / 8
Απαγόρευση: / index / 9
Απαγόρευση: / panel /
Απαγόρευση: / admin /
Απαγόρευση: / ασφαλής /
Απαγόρευση: / πληροφοριοδότης /
Απαγορεύεται: / mchat
Απαγόρευση: / αναζήτηση
Απαγόρευση: / κατάστημα / παραγγελία /
Απαγορεύεται: /? Ssid =
Απαγόρευση: / google
Απαγορεύεται: /

Γεννήτρια Πωλήσεων

Εάν κάνετε λάθος κατά τη δημιουργία του αρχείου robots.txt, μπορεί να είναι άχρηστο για τα προγράμματα ανίχνευσης μηχανών αναζήτησης. Θα υπάρχει κίνδυνος λανθασμένης μετάδοσης σε ρομπότ αναζήτησης τις απαιτούμενες ομάδες, η οποία θα οδηγήσει σε μείωση της αξιολόγησης, αλλαγή στους δείκτες χρηστών του εικονικού ιστότοπου. Ακόμα κι αν ο ιστότοπος λειτουργεί καλά και είναι πλήρης, ο έλεγχος robots.txt δεν θα τον βλάψει, αλλά θα τον κάνει να λειτουργεί καλύτερα.

Σε αυτό το άρθρο, θα μάθετε:

Τι ελέγχει το robots.txt;

Μερικές φορές το σύστημα περιλαμβάνει περιττές σελίδες του πόρου σας στο Διαδίκτυο στα αποτελέσματα αναζήτησης, κάτι που δεν είναι απαραίτητο. Μπορεί να φαίνεται ότι δεν υπάρχει τίποτα κακό με μεγάλο αριθμό σελίδων στο ευρετήριο της μηχανής αναζήτησης, αλλά δεν είναι:

  • Σε επιπλέον σελίδες, ο χρήστης δεν θα βρει καμία ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣγια τον εαυτό μου. Είναι πιο πιθανό ότι δεν θα επισκεφθεί καθόλου αυτές τις σελίδες ή θα παραμείνει σε αυτές για μικρό χρονικό διάστημα.
  • Τα αποτελέσματα της μηχανής αναζήτησης εμφανίζουν τις ίδιες σελίδες, οι διευθύνσεις των οποίων είναι διαφορετικές (δηλαδή, το περιεχόμενο είναι διπλότυπο).
  • Τα ρομπότ αναζήτησης πρέπει να αφιερώσουν πολύ χρόνο για την ευρετηρίαση εντελώς περιττών σελίδων. Αντί να ευρετηριάσουν χρήσιμο περιεχόμενο, θα περιπλανηθούν άσκοπα στον ιστότοπο. Δεδομένου ότι το ρομπότ δεν μπορεί να ευρετηριάσει ολόκληρο τον πόρο και το κάνει σελίδα προς σελίδα (αφού υπάρχουν πολλοί ιστότοποι), οι απαραίτητες πληροφορίες που θα θέλατε να λάβετε μετά την εκτέλεση ενός ερωτήματος ενδέχεται να μην βρεθούν πολύ γρήγορα.
  • Ο διακομιστής είναι πολύ φορτωμένος.

Σε αυτό το πλαίσιο, συνιστάται να αποκλείσετε την πρόσβαση σε ρομπότ αναζήτησης σε ορισμένες σελίδες πόρων ιστού.

Σε ποια αρχεία και φακέλους μπορεί να απαγορευτεί η ευρετηρίαση:

  1. Αναζήτηση σελίδων. Αυτό είναι ένα αμφιλεγόμενο σημείο. Μερικές φορές η χρήση εσωτερικής αναζήτησης στον ιστότοπο είναι απαραίτητη για τη δημιουργία σχετικών σελίδων. Αυτό όμως δεν γίνεται πάντα. Συχνά το αποτέλεσμα αναζήτησης είναι η εμφάνιση μεγάλου αριθμού διπλών σελίδων. Επομένως, συνιστάται να κλείσετε τις σελίδες αναζήτησης για ευρετηρίαση.
  2. Το καλάθι αγορών και η σελίδα στην οποία υποβάλλεται / επιβεβαιώνεται η παραγγελία. Το κλείσιμο τους συνιστάται για ιστότοπους ηλεκτρονικού εμπορίου και άλλους εμπορικούς πόρους που χρησιμοποιούν τη φόρμα παραγγελίας. Η εισαγωγή αυτών των σελίδων στο ευρετήριο των μηχανών αναζήτησης είναι εξαιρετικά ανεπιθύμητη.
  3. Σελίδες σελιδοποίησης Κατά κανόνα, χαρακτηρίζονται από αυτόματη συνταγή των ίδιων μετα-ετικετών. Επιπλέον, χρησιμοποιούνται για την τοποθέτηση δυναμικού περιεχομένου, έτσι ώστε να εμφανίζονται διπλότυπα στα αποτελέσματα αναζήτησης. Από αυτή την άποψη, η σελιδοποίηση πρέπει να κλείσει για ευρετηρίαση.
  4. Φίλτρα και σύγκριση προϊόντων. Πρέπει να κλείσουν από διαδικτυακά καταστήματα και ιστότοπους καταλόγων.
  5. Σελίδες εγγραφής και εξουσιοδότησης. Πρέπει να κλείσουν λόγω της εμπιστευτικότητας των δεδομένων που εισάγουν οι χρήστες κατά την εγγραφή ή την έγκριση δεδομένων. Η μη προσβασιμότητα αυτών των σελίδων για ευρετηρίαση θα αξιολογηθεί από την Google.
  6. Κατάλογοι συστήματος και αρχεία. Κάθε πόρος στο Διαδίκτυο αποτελείται από ένα σύνολο δεδομένων (σενάρια, Πίνακες CSS, διοικητικό μέρος), το οποίο δεν πρέπει να το βλέπουν τα ρομπότ.

Το αρχείο robots.txt θα σας βοηθήσει να κλείσετε αρχεία και σελίδες για ευρετηρίαση.

Το robots.txt είναι ένα απλό αρχείο κειμένου που περιέχει οδηγίες για προγράμματα ανίχνευσης. Όταν ένα πρόγραμμα ανίχνευσης βρίσκεται σε έναν ιστότοπο, αναζητά πρώτα ένα αρχείο robots.txt. Εάν απουσιάζει (ή είναι κενό), τότε το ρομπότ θα μεταβεί σε όλες τις σελίδες και τους καταλόγους πόρων (συμπεριλαμβανομένων αυτών του συστήματος) που είναι ελεύθερα διαθέσιμοι και προσπαθούν να τους ευρετηριάσουν. Ταυτόχρονα, δεν υπάρχει καμία εγγύηση ότι η σελίδα που χρειάζεστε θα ευρετηριαστεί, καθώς ενδέχεται να μην φτάσει σε αυτήν.

Το robots.txt σάς επιτρέπει να κατευθύνετε τα ρομπότ αναζήτησης στις επιθυμητές σελίδες και να μην τα αφήνετε να μεταβαίνουν σε αυτές που δεν πρέπει να ευρετηριαστούν. Το αρχείο μπορεί να καθοδηγήσει και τα δύο ρομπότ ταυτόχρονα ή το καθένα ξεχωριστά. Εάν μια σελίδα ιστότοπου είναι κλειστή από την ευρετηρίαση, τότε δεν θα εμφανίζεται ποτέ στα αποτελέσματα της μηχανής αναζήτησης. Ένα αρχείο robots.txt είναι απαραίτητο.

Η θέση του αρχείου robots.txt πρέπει να είναι ο διακομιστής, η ρίζα του πόρου σας. Το αρχείο robots.txt οποιασδήποτε τοποθεσίας είναι ορατό στον Ιστό. Για να το δείτε, πρέπει να προσθέσετε /robots.txt μετά τη διεύθυνση του πόρου.

Συνήθως, τα αρχεία robots.txt διαφορετικών πόρων διαφέρουν μεταξύ τους. Εάν αντιγράψετε άσκοπα ένα αρχείο ιστότοπου κάποιου άλλου, τότε θα υπάρξουν προβλήματα κατά την ευρετηρίαση του ιστότοπού σας από ρομπότ αναζήτησης. Επομένως, είναι τόσο απαραίτητο να γνωρίζουμε τι είναι το αρχείο robots.txt και τις οδηγίες (οδηγίες) που χρησιμοποιούνται για τη δημιουργία του.


Υποβάλετε την αίτησή σας

Πώς ελέγχεται το robots.txt από το Yandex

  • Ελέγξτε ότι το αρχείο θα βοηθήσει ειδική υπηρεσία Yandex.Webmaster "Ανάλυση robots.txt". Μπορείτε να το βρείτε στο σύνδεσμο: http://webmaster.yandex.ru/robots.xml
  • Στην προτεινόμενη φόρμα, πρέπει να εισαγάγετε τα περιεχόμενα του αρχείου robots.txt, το οποίο θέλετε να ελέγξετε για σφάλματα. Υπάρχουν δύο τρόποι εισαγωγής δεδομένων:
    1. Μεταβείτε στον ιστότοπο χρησιμοποιώντας τον σύνδεσμο http: //your-site.ru/robots.txt, αντιγράψτε το περιεχόμενο σε ένα κενό πεδίο της υπηρεσίας (εάν δεν υπάρχει αρχείο robots.txt, πρέπει να το δημιουργήσετε!).
    2. Επικολλήστε τον σύνδεσμο στο αρχείο που ελέγχεται στο πεδίο "Όνομα κεντρικού υπολογιστή", πατήστε "Λήψη robots.txt από τον ιστότοπο" ή Enter.
  • Η δοκιμή ξεκινά πατώντας την εντολή "Έλεγχος".
  • Αφού ξεκινήσει η δοκιμή, μπορείτε να αναλύσετε τα αποτελέσματα.

Μετά την έναρξη του ελέγχου, ο αναλυτής αναλύει κάθε γραμμή του περιεχομένου του πεδίου "Text robots.txt" και αναλύει τις οδηγίες που περιέχει. Επιπλέον, θα μάθετε αν το ρομπότ θα ανιχνεύσει σελίδες από το πεδίο Λίστα διευθύνσεων URL.

Μπορείτε να δημιουργήσετε ένα αρχείο robots.txt κατάλληλο για τον πόρο σας, επεξεργάζοντας τους κανόνες. Μην ξεχνάτε ότι το ίδιο το αρχείο πόρων παραμένει αμετάβλητο. Για να τεθούν σε ισχύ οι αλλαγές, θα πρέπει να ανεβάσετε ανεξάρτητα τη νέα έκδοση του αρχείου στον ιστότοπο.

Κατά τον έλεγχο των οδηγιών των ενοτήτων που προορίζονται για το ρομπότ Yandex (User-agent: Yandex ή User-agent: *), ο αναλυτής καθοδηγείται από τους κανόνες χρήσης του robots.txt. Τα υπόλοιπα τμήματα ελέγχονται σύμφωνα με τις απαιτήσεις του προτύπου. Όταν ο αναλυτής αναλύει το αρχείο, εμφανίζει ένα μήνυμα σχετικά με τα σφάλματα που εντοπίστηκαν, προειδοποιεί εάν υπάρχουν ανακρίβειες στη σύνταξη των κανόνων και παραθέτει ποια μέρη του αρχείου προορίζονται για το ρομπότ Yandex.

Ο αναλυτής μπορεί να στείλει μηνύματα δύο τύπων: σφάλματα και προειδοποιήσεις.

Εμφανίζεται ένα μήνυμα σφάλματος εάν δεν είναι δυνατή η επεξεργασία οποιασδήποτε γραμμής, ενότητας ή ολόκληρου του αρχείου από τον αναλυτή λόγω σοβαρών συντακτικών σφαλμάτων που έγιναν κατά τη σύνταξη οδηγιών.

Η προειδοποίηση συνήθως ενημερώνει για απόκλιση από τους κανόνες, οι οποίοι δεν μπορούν να διορθωθούν από τον αναλυτή ή για την ύπαρξη πιθανού προβλήματος (μπορεί να μην εμφανιστεί), η αιτία του οποίου είναι τυχαίο τυπογραφικό λάθος ή ανακριβείς κανόνες.

Το μήνυμα σφάλματος "Αυτή η διεύθυνση URL δεν ανήκει στον τομέα σας" σημαίνει ότι η λίστα διευθύνσεων URL περιέχει τη διεύθυνση ενός από τους καθρέφτες του πόρου σας, για παράδειγμα, http://example.com αντί για http: //www.example. com (επίσημα, αυτές οι διευθύνσεις URL είναι διαφορετικές). Οι διευθύνσεις URL που πρέπει να ελεγχθούν πρέπει να σχετίζονται με τον ιστότοπο του οποίου το αρχείο robots.txt αναλύεται.

Πώς ελέγχεται το robots.txt στο Google

Το Google Search Console σάς επιτρέπει να ελέγχετε αν το αρχείο robots.txt εμποδίζει το Googlebot να ανιχνεύει συγκεκριμένες διευθύνσεις URL στην ιδιοκτησία σας. Για παράδειγμα, ας υποθέσουμε ότι έχετε μια εικόνα που δεν θέλετε να βλέπετε στα αποτελέσματα αναζήτησης εικόνων της Google. Το εργαλείο θα σας πει εάν το Googlebot-Image έχει πρόσβαση σε αυτήν την εικόνα.

Για να το κάνετε αυτό, καθορίστε τη διεύθυνση URL που σας ενδιαφέρει. Μετά από αυτό, το αρχείο robots.txt υποβάλλεται σε επεξεργασία από το εργαλείο επαλήθευσης, παρόμοια με την επαλήθευση από το Googlebot. Αυτό καθιστά δυνατό να προσδιοριστεί εάν αυτή η διεύθυνση είναι διαθέσιμη.

Διαδικασία ελέγχου:

  • Αφού επιλέξετε την ιδιοκτησία σας στο Google Search Console, μεταβείτε στο εργαλείο επικύρωσης, το οποίο θα σας δώσει το περιεχόμενο του αρχείου robots.txt. Το επισημασμένο κείμενο είναι συντακτικά σφάλματα ή λογικά σφάλματα. Ο αριθμός τους εμφανίζεται κάτω από το πλαίσιο επεξεργασίας.
  • Στο κάτω μέρος της σελίδας διεπαφής, θα δείτε ένα ειδικό παράθυρο στο οποίο πρέπει να εισαγάγετε τη διεύθυνση URL.
  • Θα εμφανιστεί ένα μενού στα δεξιά, από το οποίο πρέπει να επιλέξετε ένα ρομπότ.
  • Κάντε κλικ στο κουμπί "Έλεγχος".
  • Εάν η επαλήθευση καταλήξει σε μήνυμα με το κείμενο "διαθέσιμο", σημαίνει ότι επιτρέπεται στα ρομπότ της Google να επισκέπτονται την καθορισμένη σελίδα. Η κατάσταση "μη διαθέσιμη" σημαίνει ότι απαγορεύεται η πρόσβαση σε αυτά σε ρομπότ.
  • Εάν είναι απαραίτητο, μπορείτε να αλλάξετε το μενού και να πραγματοποιήσετε έναν νέο έλεγχο. Προσοχή! Δεν θα υπάρξουν αυτόματες αλλαγές στο αρχείο robots.txt στον ιστότοπό σας.
  • Αντιγράψτε τις αλλαγές και προσθέστε τις στο αρχείο robots.txt στον διακομιστή ιστού σας.

Τι πρέπει να προσέξετε:

  1. Οι αλλαγές που έγιναν στο πρόγραμμα επεξεργασίας δεν αποθηκεύονται στον διακομιστή ιστού. Θα χρειαστεί να αντιγράψετε τον κωδικό που προκύπτει και να τον επικολλήσετε στο αρχείο robots.txt.
  2. Μόνο οι πράκτορες χρηστών της Google και τα ρομπότ που σχετίζονται με την Google (για παράδειγμα, το Googlebot) μπορούν να λάβουν τα αποτελέσματα του ελέγχου του αρχείου robots.txt από το εργαλείο. Ταυτόχρονα, δεν υπάρχει καμία εγγύηση ότι η ερμηνεία του περιεχομένου του αρχείου σας από τα ρομπότ άλλων μηχανών αναζήτησης θα είναι η ίδια.

15 σφάλματα κατά τον έλεγχο του αρχείου robots.txt

Λάθος 1. Συγχέεται οδηγίες

Το πιο συνηθισμένο σφάλμα στο robots.txt είναι η σύγχυση οδηγιών. Για παράδειγμα:

  • User-agent: /
  • Απαγόρευση: Yandex

Η σωστή επιλογή είναι η εξής:

  • User-agent: Yandex
  • Απαγορεύεται: /

Λάθος 2. Καθορισμός πολλαπλών καταλόγων σε μία πρόταση απαγόρευσης

Συχνά, οι κάτοχοι πόρων Διαδικτύου προσπαθούν να καταχωρίσουν όλους τους καταλόγους που θέλουν να απαγορεύσουν την ευρετηρίαση σε μια δήλωση Απαγόρευση.

Απαγόρευση: / css / / cgi-bin / / images /

Μια τέτοια εγγραφή δεν πληροί τις απαιτήσεις του προτύπου · είναι αδύνατο να προβλεφθεί πώς θα υποβληθεί σε επεξεργασία από διαφορετικά ρομπότ. Μερικά από αυτά μπορεί να αγνοήσουν κενά. Η ερμηνεία τους για την εγγραφή θα έχει ως εξής: "Απαγόρευση: / css / cgi-bin / images /". Άλλοι χρήστες μπορούν να χρησιμοποιήσουν μόνο τον πρώτο ή τον τελευταίο φάκελο. Άλλοι μπορεί να απορρίψουν εντελώς την οδηγία χωρίς να την καταλάβουν.

Υπάρχει η πιθανότητα η επεξεργασία αυτής της κατασκευής να είναι ακριβώς αυτό που ανέμενε ο πλοίαρχος, αλλά είναι ακόμα καλύτερο να το γράψετε σωστά:

  • Απαγόρευση: / css /
  • Απαγόρευση: / cgi-bin /
  • Απαγόρευση: / images /

Σφάλμα 3. Το όνομα αρχείου περιέχει κεφαλαία γράμματα

Το σωστό όνομα αρχείου είναι robots.txt και όχι Robots.txt ή ROBOTS.TXT.

Λάθος 4. Γράφοντας το όνομα αρχείου ως robot.txt αντί για robots.txt

Θυμηθείτε να ονομάσετε σωστά το αρχείο robots.txt.

Σφάλμα 5. Άδεια της συμβολοσειράς στον παράγοντα χρήστη

Λάθος επιλογή:

  • User-agent:
  • Απαγορεύω:
  • Αντιπρόσωπος χρήστη: *
  • Απαγορεύω:

Λάθος 6. Σύνταξη Url στην οδηγία Host

Η διεύθυνση URL πρέπει να καθοριστεί χωρίς τη χρήση της συντομογραφίας Hypertext Transfer Protocol (http: //) και της τελικής κάθετης (/).

Μη έγκυρη καταχώρηση:

Σωστή επιλογή:

Η σωστή χρήση της οδηγίας κεντρικού υπολογιστή είναι μόνο για το ρομπότ Yandex.

Λάθος 7. Χρήση μπαλαντέρ στη δήλωση απαγόρευση

Μερικές φορές, για να παραθέσει όλα τα αρχεία file1.html, file2.html, file3.html κ.λπ., ο webmaster μπορεί να γράψει:

  • Αντιπρόσωπος χρήστη: *
  • Απαγόρευση: αρχείο * .html

Ωστόσο, αυτό δεν μπορεί να γίνει, καθώς ορισμένα ρομπότ στερούνται υποστήριξης για μπαλαντέρ.

Λάθος 8. Χρησιμοποιώντας μία γραμμή για τη σύνταξη σχολίων και οδηγιών

Το πρότυπο επιτρέπει τέτοιες καταχωρήσεις:

Απαγόρευση: / cgi-bin / # απαγορεύουν στα ρομπότ να ευρετηριάζουν το cgi-bin

Προηγουμένως, ορισμένα ρομπότ δεν ήταν σε θέση να επεξεργαστούν τέτοιες συμβολοσειρές. Maybeσως προς το παρόν καμία μηχανή αναζήτησης δεν θα έχει κανένα πρόβλημα με αυτό, αλλά αξίζει τον κίνδυνο; Είναι καλύτερα να τοποθετήσετε σχόλια σε ξεχωριστή γραμμή.

Σφάλμα 9. Ανακατεύθυνση στη σελίδα σφάλματος 404

Συχνά, εάν ένας ιστότοπος δεν έχει αρχείο robots.txt, τότε όταν ζητηθεί, η μηχανή αναζήτησης θα ανακατευθυνθεί σε άλλη σελίδα. Μερικές φορές αυτό δεν επιστρέφει την κατάσταση 404. Δεν βρέθηκε... Το ρομπότ πρέπει να καταλάβει τι πήρε - robots.txt ή ένα κανονικό αρχείο html. Αυτό δεν είναι πρόβλημα, αλλά είναι καλύτερο αν βρίσκεται η ρίζα του ιστότοπου κενό αρχείο robots.txt.

Λάθος 10: Η χρήση κεφαλαίων γραμμάτων είναι ένδειξη κακού στυλ

ΧΡΗΣΤΗΣ-ΠΡΑΚΤΟΡΑΣ: GOOGLEBOT

Παρόλο που το πρότυπο δεν ρυθμίζει την ευαισθησία πεζών -κεφαλαίων του robots.txt, συχνά λαμβάνει χώρα για ονόματα αρχείων και καταλόγων. Επίσης, εάν το αρχείο robots.txt είναι γραμμένο στο ακέραιο με κεφαλαία γράμματατότε αυτό θεωρείται κακό στυλ.

Αντιπρόσωπος χρήστη: googlebot

Σφάλμα 11. Λίστα όλων των αρχείων

Δεν θα ήταν σωστό να παραθέσουμε κάθε αρχείο στον κατάλογο ξεχωριστά:

  • Αντιπρόσωπος χρήστη: *
  • Απαγόρευση: /AL/Alabama.html
  • Απαγορεύεται: /AL/AR.html
  • Απαγόρευση: /Az/AZ.html
  • Απαγόρευση: /Az/bali.html
  • Απαγορεύεται: /Az/bed-breakfast.html

Θα είναι σωστό να κλείσετε ολόκληρο τον κατάλογο από την ευρετηρίαση:

  • Αντιπρόσωπος χρήστη: *
  • Απαγόρευση: / AL /
  • Απαγόρευση: / Az /

Λάθος 12. Χρήση πρόσθετων οδηγιών στην ενότητα *

Ορισμένα ρομπότ ενδέχεται να αντιδράσουν εσφαλμένα στη χρήση πρόσθετων οδηγιών. Επομένως, η χρήση τους στην ενότητα "*" είναι ανεπιθύμητη.

Εάν η οδηγία δεν είναι τυπική (όπως, για παράδειγμα, "Host"), τότε είναι καλύτερο να δημιουργήσετε μια ειδική ενότητα γι 'αυτήν.

Λάθος επιλογή:

Θα ήταν σωστό να γράψετε:

Σφάλμα 13. Λείπει εντολή απαγόρευσης

Ακόμα κι αν θέλετε να χρησιμοποιήσετε μια πρόσθετη οδηγία και να μην ορίσετε απαγόρευση, συνιστάται να ορίσετε ένα κενό Απαγόρευση. Το πρότυπο καθορίζει την υποχρέωση της εντολής απαγόρευσης · ​​στην απουσία της, το ρομπότ μπορεί να σας "παρεξηγήσει".

Όχι σωστά:

Σωστά:

Σφάλμα 14. Μη χρήση κάθετων κατά τον καθορισμό ενός καταλόγου

Τι θα κάνει το ρομπότ σε αυτή την περίπτωση;

  • User-agent: Yandex
  • Απαγόρευση: john

Σύμφωνα με το πρότυπο, η ευρετηρίαση δεν θα πραγματοποιηθεί ούτε για το αρχείο ούτε για τον κατάλογο που ονομάζεται "john". Για να καθορίσετε μόνο τον κατάλογο, πρέπει να γράψετε:

  • User-agent: Yandex
  • Απαγόρευση: / john /

Σφάλμα 15. Λανθασμένη ορθογραφία της κεφαλίδας HTTP

Ο διακομιστής πρέπει να επιστρέψει στην κεφαλίδα HTTP για το robots.txt "Content-Type: text / plain" και, για παράδειγμα, όχι "Content-Type: text / html". Εάν ο τίτλος είναι γραμμένος λανθασμένα, τότε ορισμένα ρομπότ δεν θα μπορούν να επεξεργαστούν το αρχείο.

Πώς να συνθέσετε το αρχείο σωστά, έτσι ώστε ο έλεγχος robots.txt να μην αποκαλύπτει σφάλματα

Τι πρέπει να είναι σωστό αρχείο robots.txt για έναν πόρο Διαδικτύου; Ας εξετάσουμε τη δομή του:

1. User-agent

Αυτή η οδηγία είναι η κύρια · καθορίζει για ποια ρομπότ γράφονται οι κανόνες.

Εάν για οποιοδήποτε ρομπότ, γράφουμε:

Εάν για ένα συγκεκριμένο bot:

Αντιπρόσωπος χρήστη: GoogleBot

Θα πρέπει να σημειωθεί ότι η περίπτωση των χαρακτήρων δεν είναι σημαντική στο robots.txt. Για παράδειγμα, ένας πράκτορας χρήστη για το Google μπορεί να γραφτεί ως εξής:

πράκτορας χρήστη: googlebot

Εδώ είναι ένας πίνακας των κύριων πρακτόρων χρηστών διαφόρων μηχανών αναζήτησης.

Το κύριο ρομπότ ευρετηρίου της Google

ειδήσεις Google

Εικόνες Google

Mediapartners-Google

Google Adsense, Google Mobile Adsense

έλεγχος ποιότητας σελίδα προορισμού

AdsBot-Google-Mobile-Apps

Ρομπότ Google για εφαρμογές

Το κύριο ρομπότ ευρετηρίασης της Yandex

Yandex. Εικόνες

Yandex.Video

δεδομένα πολυμέσων

ρομπότ αναζήτησης blog

ένα ρομπότ που έχει πρόσβαση σε μια σελίδα όταν την προσθέτει μέσω της φόρμας "Προσθήκη διεύθυνσης URL"

ένα ρομπότ που ευρετηριάζει favicons

Yandex.Direct

Yandex.Metrica

Yandex.Catalog

Yandex.News

YandexImageResizer

ρομπότ κινητών υπηρεσιών

Το κύριο ρομπότ ευρετηρίασης του Bing

το κύριο ρομποτικό ευρετήριο Yahoo!

ρομπότ κύριας ευρετηρίασης Mail.Ru

2. Απαγορεύεται και επιτρέπεται

Το Disallow σάς επιτρέπει να απαγορεύετε την ευρετηρίαση σελίδων και τμημάτων του πόρου Διαδικτύου.

Το Allow χρησιμοποιείται για να τους αναγκάσει να ανοίξουν για ευρετηρίαση.

Αλλά η χρήση τους δεν είναι αρκετά εύκολη.

Πρώτον, πρέπει να εξοικειωθείτε με επιπλέον χειριστέςκαι τους κανόνες για τη χρήση τους. Αυτά περιλαμβάνουν: *, $ και #.

  • * - οποιοσδήποτε αριθμός χαρακτήρων, ακόμη και η απουσία τους. Δεν είναι απαραίτητο να τοποθετήσετε αυτόν τον τελεστή στο τέλος μιας γραμμής, υποτίθεται ότι υπάρχει από προεπιλογή.
  • $ - υποδηλώνει ότι ο χαρακτήρας μπροστά του πρέπει να είναι ο τελευταίος.
  • # - Αυτός ο χειριστής χρησιμοποιείται για να υποδείξει ένα σχόλιο, οποιεσδήποτε πληροφορίες αφού δεν ληφθούν υπόψη από το ρομπότ.

Πώς να χρησιμοποιήσετε αυτούς τους τελεστές:

  • Απαγορεύεται: *? S =
  • Απαγόρευση: / κατηγορία / $

Δεύτερον, πρέπει να καταλάβετε πώς εφαρμόζονται οι κανόνες που είναι ένθετοι στο αρχείο robots.txt.

Δεν έχει σημασία με ποια σειρά γράφονται οι οδηγίες. Ο ορισμός της κληρονομιάς κανόνα (τι να ανοίξετε ή να κλείσετε από την ευρετηρίαση) πραγματοποιείται σύμφωνα με τους καθορισμένους καταλόγους. Ας δώσουμε ένα παράδειγμα.

Να επιτρέπεται: * .css

Απαγόρευση: / template /

Εάν πρέπει να ανοίξετε όλα τα αρχεία .css για ευρετηρίαση, τότε θα πρέπει να το ορίσετε επιπλέον για κάθε φάκελο, του οποίου η πρόσβαση είναι κλειστή. Στην περίπτωσή μας:

  • Επιτρέψτε: * .css
  • Να επιτρέπεται: /template/*.css
  • Απαγόρευση: / template /

Ας σας υπενθυμίσουμε ξανά: δεν έχει σημασία με ποια σειρά γράφονται οι οδηγίες.

3. Χάρτης ιστοτόπου

Αυτή η οδηγία καθορίζει τη διαδρομή προς το αρχείο Χάρτη ιστοτόπου XML. Το URL φαίνεται το ίδιο με αυτό στη γραμμή διευθύνσεων.

Η οδηγία του Χάρτη ιστοτόπου μπορεί να καθοριστεί οπουδήποτε στο αρχείο robots.txt και δεν χρειάζεται να τη συνδέσετε με συγκεκριμένο παράγοντα χρήστη. Επιτρέπονται αρκετοί κανόνες Χάρτη ιστοτόπου.

Αυτή η οδηγία καθορίζει τον κύριο καθρέφτη του πόρου (συνήθως με ή χωρίς www). Θυμηθείτε: κατά τον καθορισμό του κύριου καθρέφτη, δεν γράφεται το http: //, αλλά https: //. Εάν είναι απαραίτητο, υποδεικνύεται επίσης η θύρα.

Αυτή η οδηγία μπορεί να υποστηριχθεί μόνο από bots Yandex και Mail.Ru. Άλλα ρομπότ, συμπεριλαμβανομένου του GoogleBot, δεν λαμβάνουν υπόψη αυτήν την εντολή. Μπορείτε να εγγραφείτε host μόνο μία φορά!

5. Ανίχνευση-καθυστέρηση

Σας επιτρέπει να ορίσετε το χρονικό διάστημα μετά το οποίο το ρομπότ πρέπει να κατεβάσει τις σελίδες του πόρου. Η οδηγία υποστηρίζεται από ρομπότ από Yandex, Mail.Ru, Bing και Yahoo. Κατά τη ρύθμιση του διαστήματος, μπορείτε να χρησιμοποιήσετε τόσο ακέραιες όσο και κλασματικές τιμές, χρησιμοποιώντας μια τελεία ως διαχωριστικό. Η μονάδα μέτρησης είναι δευτερόλεπτα.

Καθυστέρηση ανίχνευσης: 0,5

Εάν το φορτίο στον ιστότοπο είναι μικρό, τότε δεν χρειάζεται να ορίσετε αυτόν τον κανόνα. Αλλά εάν το αποτέλεσμα της ανίχνευσης σελίδων από το ρομπότ υπερβαίνει τα όρια ή μια σοβαρή αύξηση του φορτίου, οδηγώντας σε διακοπές στη λειτουργία του διακομιστή, τότε συνιστάται η χρήση αυτής της οδηγίας: σας επιτρέπει να μειώσετε το φορτίο.

Όσο μεγαλύτερο είναι το χρονικό διάστημα, τόσο μικρότερο θα είναι ο αριθμός των λήψεων κατά τη διάρκεια μιας περιόδου σύνδεσης. Η βέλτιστη τιμή για κάθε πόρο είναι διαφορετική. Αρχικά, συνιστάται να ορίσετε μικρές τιμές (0,1, 0,2, 0,5) και, στη συνέχεια, να τις αυξήσετε σταδιακά. Για ρομπότ μηχανών αναζήτησης που δεν είναι ιδιαίτερα σημαντικά για τα αποτελέσματα προώθησης (για παράδειγμα, Mail.Ru, Bing και Yahoo), μπορείτε αμέσως να ορίσετε τιμές που είναι υψηλότερες από αυτές για τα ρομπότ Yandex.

6. Clean-param

Αυτή η οδηγία απαιτείται για την ειδοποίηση του προγράμματος ανίχνευσης (ρομπότ αναζήτησης) σχετικά με την περιττή ευρετηρίαση των διευθύνσεων URL με τις καθορισμένες παραμέτρους. Για τον κανόνα καθορίζονται δύο ορίσματα: η παράμετρος και η διεύθυνση URL ενότητας. Το Yandex υποστηρίζει την οδηγία.

http://site.ru/articles/?author_id=267539 - δεν θα ευρετηριαστεί

http://site.ru/articles/?author_id=267539&sid=0995823627 - δεν θα ευρετηριαστεί

Clean-Param: utm_source utm_medium utm_campaign

7. Άλλες παράμετροι

Η εκτεταμένη προδιαγραφή robots.txt περιέχει επίσης τις ακόλουθες παραμέτρους: Ρυθμός αιτήματος και Χρόνος επίσκεψης. Αλλά προς το παρόν δεν υπάρχει υποστήριξη από τις κορυφαίες μηχανές αναζήτησης.

Απαιτούνται οδηγίες για τα ακόλουθα:

  • Ρυθμός αιτήματος: 1/5 - επιτρέπει τη φόρτωση όχι περισσότερο από 1 σελίδα σε 5 δευτερόλεπτα
  • Ώρα επίσκεψης: 0600-0845 - επιτρέπει τη φόρτωση σελίδας μόνο από τις 6 π.μ. έως τις 8:45 π.μ. GMT

Για σωστή ρύθμισηαρχείο txt, σας συνιστούμε να χρησιμοποιήσετε τον ακόλουθο αλγόριθμο:

2) Κλείστε την πρόσβαση σε ρομπότ στο ΠΡΟΣΩΠΙΚΟΣ ΛΟΓΑΡΙΑΣΜΟΣ, σελίδες εξουσιοδότησης και εγγραφής ·

4) Κλείσιμο από την ευρετηρίαση ajax, json scripts.

6) Απαγόρευση προσθήκης ευρετηρίου, θέματα, js, css για ρομπότ όλων των μηχανών αναζήτησης, εκτός από το Yandex και το Google.

7) Κλείστε την πρόσβαση στη λειτουργία αναζήτησης για ρομπότ.

8) Απαγορεύστε τις ενότητες υπηρεσιών ευρετηρίασης που δεν είναι πολύτιμες για τον πόρο στην αναζήτηση (σφάλμα 404, λίστα συγγραφέων).

9) Κλείστε τις τεχνικές διπλές σελίδες και σελίδες από την ευρετηρίαση, το περιεχόμενο των οποίων σε έναν βαθμό ή άλλο αντιγράφει το περιεχόμενο άλλων σελίδων (ημερολόγια, αρχεία, RSS).

12) Χρησιμοποιήστε την παράμετρο "site:" για να ελέγξετε τι έχουν ευρετηριάσει οι Yandex και Google. Για να το κάνετε αυτό, εισαγάγετε "site: site.ru" στη γραμμή αναζήτησης. Εάν υπάρχουν σελίδες στα αποτελέσματα αναζήτησης που δεν χρειάζεται να ευρετηριαστούν, προσθέστε τις στο robots.txt;

13) Καταγράψτε τους κανόνες του Χάρτη ιστοτόπου και του κεντρικού υπολογιστή.

14) Εάν είναι απαραίτητο, προσδιορίστε Crawl-Delay και Clean-Param.

15) Ελέγξτε την ορθότητα του αρχείου robots.txt χρησιμοποιώντας εργαλεία Google και Yandex.

16) Μετά από 14 ημέρες, ελέγξτε ξανά για να βεβαιωθείτε ότι δεν υπάρχουν σελίδες στα αποτελέσματα της μηχανής αναζήτησης που δεν πρέπει να ευρετηριαστούν. Εάν υπάρχει, επαναλάβετε όλα τα παραπάνω σημεία.

Ο έλεγχος του αρχείου robots.txt έχει νόημα μόνο εάν ο ιστότοπός σας είναι εντάξει. Ένας έλεγχος του ιστότοπου, που θα διενεργηθεί από εξειδικευμένους ειδικούς, θα βοηθήσει να προσδιοριστεί αυτό.

Ελπίζουμε να βρείτε χρήσιμο το άρθρο μας για επιχειρηματικές ιδέες. Και αν έχετε ήδη αποφασίσει για την κατεύθυνση της δραστηριότητας και ασχολείστε ενεργά με την ανάπτυξη, τότε σας συμβουλεύουμε να ελέγξετε τον ιστότοπο για να παρουσιάσετε μια πραγματική εικόνα των δυνατοτήτων του πόρου σας.


Ένα από τα στάδια βελτιστοποίησης ιστότοπου για τις μηχανές αναζήτησης είναι η σύνταξη ενός αρχείου robots.txt. Διά μέσου αυτού του αρχείουΜπορείτε να αποτρέψετε ορισμένα ή όλα τα ρομπότ αναζήτησης από την ευρετηρίαση του ιστότοπού σας ή ορισμένα μέρη αυτού που δεν προορίζονται για ευρετηρίαση. Συγκεκριμένα, μπορείτε να αποτρέψετε την ευρετηρίαση διπλού περιεχομένου, όπως εκτυπώσεις εκδόσεων σελίδων.

Πριν ξεκινήσετε την ευρετηρίαση, τα ρομπότ αναζήτησης αναφέρονται πάντα στο αρχείο robots.txt στον ριζικό κατάλογο του ιστότοπού σας, για παράδειγμα, http://site.ru/robots.txt, για να μάθετε ποιες ενότητες του ιστότοπου απαγορεύεται το ρομπότ από το ευρετήριο. Αλλά ακόμη και αν δεν πρόκειται να απαγορεύσετε τίποτα, συνιστάται να δημιουργήσετε αυτό το αρχείο.

Όπως μπορείτε να δείτε από την επέκταση robots.txt, αυτό είναι ένα αρχείο κειμένου. Είναι καλύτερα να χρησιμοποιήσετε τους απλούστερους επεξεργαστές κειμένου όπως το Σημειωματάριο για να δημιουργήσετε ή να επεξεργαστείτε αυτό το αρχείο. Το robots.txt πρέπει να βρίσκεται στον ριζικό κατάλογο του ιστότοπου και να έχει τη δική του μορφή, την οποία θα συζητήσουμε παρακάτω.

Η μορφή αρχείου robots.txt

Το αρχείο robots.txt πρέπει να περιέχει τουλάχιστον δύο απαιτούμενες καταχωρήσεις. Η πρώτη είναι η οδηγία User-agent που δείχνει ποιος ανιχνευτής πρέπει να ακολουθεί τις οδηγίες που ακολουθούν. Η τιμή μπορεί να είναι το όνομα του ρομπότ (googlebot, Yandex, StackRambler) ή το σύμβολο * εάν απευθύνεστε σε όλα τα ρομπότ ταυτόχρονα. Για παράδειγμα:

Αντιπρόσωπος χρήστη: googlebot

Το όνομα του ρομπότ βρίσκεται στον ιστότοπο της αντίστοιχης μηχανής αναζήτησης. Θα πρέπει να ακολουθούν μία ή περισσότερες οδηγίες απαγόρευσης. Αυτές οι οδηγίες λένε στο ρομπότ ποια αρχεία και φακέλους απαγορεύεται να ευρετηριαστούν. Για παράδειγμα, οι ακόλουθες γραμμές εμποδίζουν τα ρομπότ να ευρετηριάσουν το αρχείο feedback.php και τον κατάλογο cgi-bin:

Disallow: /feedback.php Disallow: / cgi-bin /

Μπορείτε επίσης να χρησιμοποιήσετε μόνο τους κύριους χαρακτήρες αρχείων ή φακέλων. Η γραμμή Disallow: / forum απαγορεύει την ευρετηρίαση όλων των αρχείων και φακέλων στη ρίζα του ιστότοπου του οποίου το όνομα ξεκινά με το φόρουμ, για παράδειγμα, το αρχείο http://site.ru/forum.php και το φάκελο http: // site. ru / φόρουμ / με όλο το περιεχόμενο. Εάν το Disallow είναι κενό, σημαίνει ότι το ρομπότ μπορεί να ευρετηριάσει όλες τις σελίδες. Εάν η τιμή της απαγόρευσης είναι το σύμβολο /, σημαίνει ότι απαγορεύεται η ευρετηρίαση ολόκληρου του ιστότοπου.

Κάθε πεδίο User-agent πρέπει να έχει τουλάχιστον ένα πεδίο Απαγόρευση. Δηλαδή, εάν δεν πρόκειται να απαγορεύσετε τίποτα για ευρετηρίαση, τότε το αρχείο robots.txt θα πρέπει να περιέχει τις ακόλουθες καταχωρήσεις:

User-agent: * Απαγόρευση:

Πρόσθετες οδηγίες

Εκτός από τις κανονικές εκφράσεις, το Yandex και η Google επιτρέπουν τη χρήση της οδηγίας Allow, η οποία είναι το αντίθετο του Disallow, δηλαδή υποδεικνύει ποιες σελίδες μπορούν να ευρετηριαστούν. Στο ακόλουθο παράδειγμα, απαγορεύεται στο Yandex να ευρετηριάσει τα πάντα εκτός από τις διευθύνσεις των σελίδων που ξεκινούν με / άρθρα:

User-agent: Yandex Allow: / άρθρα Απαγόρευση: /

Σε αυτό το παράδειγμα, η οδηγία Allow πρέπει να γραφτεί πριν από το Disallow, διαφορετικά το Yandex θα το καταλάβει ως πλήρη απαγόρευση ευρετηρίασης ιστότοπων. Μια κενή οδηγία Allow επιτρέπει επίσης εντελώς την ευρετηρίαση ιστότοπων:

Χρήστης-πράκτορας: Yandex Να επιτρέπεται:

ισοδύναμος προς

Χρήστης-πράκτορας: Yandex Disallow: /

Οι μη τυπικές οδηγίες θα πρέπει να καθορίζονται μόνο για τις μηχανές αναζήτησης που τις υποστηρίζουν. Διαφορετικά, το ρομπότ δεν καταλαβαίνει αυτό το λήμμαενδέχεται να μην το χειριστεί σωστά ή ολόκληρο το αρχείο robots.txt. Για περισσότερες πληροφορίες σχετικά με πρόσθετες οδηγίες και, γενικά, για την κατανόηση των εντολών του αρχείου robots.txt από ένα μεμονωμένο ρομπότ, ανατρέξτε στον ιστότοπο της αντίστοιχης μηχανής αναζήτησης.

Κανονικές εκφράσεις στο robots.txt

Οι περισσότερες μηχανές αναζήτησης εξετάζουν μόνο ρητά καθορισμένα ονόματα αρχείων και φακέλων, αλλά υπάρχουν και πιο προηγμένες μηχανές αναζήτησης. Το Google Robot και το Yandex Robot υποστηρίζουν τη χρήση απλών τακτικών εκφράσεων στο robots.txt, γεγονός που μειώνει σημαντικά την εργασία για webmasters Για παράδειγμα, οι ακόλουθες εντολές αποτρέπουν την Google από την ευρετηρίαση όλων των αρχείων .pdf:

User-agent: googlebot Disallow: * .pdf $

Σε αυτό το παράδειγμα, ο χαρακτήρας * είναι οποιαδήποτε ακολουθία χαρακτήρων και το $ υποδεικνύει το τέλος του συνδέσμου.

User-agent: Yandex Allow: /articles/*.html$ Απαγόρευση: /

Οι παραπάνω οδηγίες επιτρέπουν στο Yandex να ευρετηριάζει μόνο αρχεία με την επέκταση ".html" που βρίσκεται στο / άρθρα / φάκελο. Όλα τα άλλα απαγορεύονται για ευρετηρίαση.

χάρτης του ιστότοπου

Μπορείτε να καθορίσετε τη θέση του χάρτη ιστοτόπου XML στο αρχείο robots.txt:

User-agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Αν έχετε πολύ ένας μεγάλος αριθμός απόσελίδες στον ιστότοπο και έπρεπε να χωρίσετε τον χάρτη ιστότοπου σε μέρη, στη συνέχεια στο αρχείο robots.txt πρέπει να καθορίσετε όλα τα μέρη του χάρτη:

Αντιπρόσωπος χρήστη: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Καθρέφτες ιστότοπου

Όπως γνωρίζετε, συνήθως μπορείτε να έχετε πρόσβαση στον ίδιο ιστότοπο σε δύο διευθύνσεις: τόσο με www όσο και χωρίς αυτόν. Για ένα ρομπότ αναζήτησης, το site.ru και το www.site.ru είναι διαφορετικοί ιστότοποι, αλλά με το ίδιο περιεχόμενο. Ονομάζονται καθρέφτες.

Λόγω του γεγονότος ότι οι σελίδες του ιστότοπου έχουν συνδέσμους τόσο με το www όσο και χωρίς, το βάρος των σελίδων μπορεί να χωριστεί μεταξύ του www.site.ru και του site.ru. Για να αποφευχθεί αυτό, η μηχανή αναζήτησης πρέπει να καθορίσει τον κύριο καθρέφτη του ιστότοπου. Ως αποτέλεσμα της "κόλλησης" όλο το βάρος θα ανήκει σε έναν κύριο καθρέφτη και ο ιστότοπος θα μπορεί να πάρει υψηλότερη θέση στα αποτελέσματα αναζήτησης.

Μπορείτε να καθορίσετε τον κύριο καθρέφτη για το Yandex απευθείας στο αρχείο robots.txt χρησιμοποιώντας την οδηγία Host:

User-agent: Yandex Disallow: /feedback.php Disallow: / cgi-bin / Host: www.site.ru

Μετά την κόλληση, ο καθρέφτης www.site.ru θα έχει όλο το βάρος και θα καταλάβει υψηλότερη θέση στα αποτελέσματα αναζήτησης. Και η μηχανή αναζήτησης δεν θα ευρετηριάσει το site.ru καθόλου.

Για άλλες μηχανές αναζήτησης, η επιλογή του κύριου καθρέφτη είναι μια μόνιμη ανακατεύθυνση διακομιστή (κωδικός 301) από επιπλέον καθρέφτες στον κύριο. Αυτό γίνεται χρησιμοποιώντας το αρχείο .htaccess και τη μονάδα mod_rewrite. Για να το κάνετε αυτό, τοποθετήστε το αρχείο .htaccess στη ρίζα του ιστότοπου και γράψτε τα εξής εκεί:

RewriteEngine On Options + FollowSymlinks RewriteBase / RewriteCond% (HTTP_HOST) ^ site.ru $ RewriteRule ^ (. *) $ Http://www.site.ru/$1

Ως αποτέλεσμα, όλα τα αιτήματα από το site.ru θα μεταβούν στη διεύθυνση www.site.ru, δηλαδή το site.ru/page1.php θα ανακατευθυνθεί στο www.site.ru/page1.php.

Η μέθοδος ανακατεύθυνσης θα λειτουργήσει για όλες τις μηχανές αναζήτησης και τα προγράμματα περιήγησης, αλλά συνιστάται να προσθέσετε την οδηγία κεντρικού υπολογιστή για το Yandex στο αρχείο robots.txt.

Σχόλια Robots.txt

Μπορείτε επίσης να προσθέσετε σχόλια στο αρχείο robots.txt - ξεκινούν με ένα # και τελειώνουν με μια ροή γραμμής. Συνιστάται να γράφετε σχόλια σε ξεχωριστή γραμμή και είναι καλύτερα να μην τα χρησιμοποιείτε καθόλου.

Ένα παράδειγμα χρήσης σχολίων:

User-agent: StackRambler Disallow: / garbage / # δεν υπάρχει τίποτα χρήσιμο σε αυτόν τον φάκελο Απαγόρευση: /doc.xhtml # και σε αυτήν τη σελίδα επίσης # και όλα τα σχόλια σε αυτό το αρχείο είναι επίσης άχρηστα

Δείγμα αρχείων robots.txt

1. Επιτρέπουμε σε όλα τα ρομπότ να ευρετηριάσουν όλα τα έγγραφα του ιστότοπου:

User-agent: * Απαγόρευση:
Χρήστης: * Απαγόρευση: /

3. Απαγορεύουμε στο ρομπότ αναζήτησης Google να ευρετηριάζει το αρχείο feedback.php και τα περιεχόμενα του καταλόγου cgi-bin:

User-agent: googlebot Disallow: / cgi-bin / Disallow: /feedback.php

4. Επιτρέπουμε σε όλα τα ρομπότ να ευρετηριάσουν ολόκληρο τον ιστότοπο και απαγορεύουμε στο ρομπότ της μηχανής αναζήτησης Yandex να ευρετηριάσει το αρχείο feedback.php και τα περιεχόμενα του καταλόγου cgi-bin:

User-agent: Yandex Disallow: / cgi-bin / Disallow: /feedback.php Host: www.site.ru User-agent: * Disallow:

5. Επιτρέπουμε σε όλα τα ρομπότ να ευρετηριάσουν ολόκληρο τον ιστότοπο και επιτρέπουμε στο ρομπότ Yandex να ευρετηριάσει μόνο το μέρος του ιστότοπου που προορίζεται για αυτόν:

Αντιπρόσωπος χρήστη: Yandex Allow: / yandex Disallow: / Host: www.site.ru User-agent: * Disallow:

Οι κενές γραμμές χωρίζουν τους περιορισμούς για διαφορετικά ρομπότ. Κάθε μπλοκ περιορισμών πρέπει να ξεκινά με μια γραμμή με ένα πεδίο User-Agent που υποδεικνύει το ρομπότ στο οποίο εφαρμόζονται αυτοί οι κανόνες ευρετηρίασης ιστότοπων.

Κοινά λάθη

Μην ξεχνάτε ότι μια κενή γραμμή στο αρχείο robots.txt διαχωρίζει δύο εγγραφές για διαφορετικά ρομπότ. Επίσης, δεν μπορείτε να καθορίσετε πολλές οδηγίες σε μία γραμμή. Όταν απαγορεύουν την ευρετηρίαση ενός αρχείου, οι webmaster συχνά παραλείπουν / πριν το όνομα του αρχείου.

Δεν χρειάζεται να εγγραφείτε στο robots.txt απαγόρευση ευρετηρίασης ιστότοπων για διάφορα προγράμματα, τα οποία προορίζονται για πλήρη λήψη του ιστότοπου, για παράδειγμα, TeleportPro. Ούτε τα "προγράμματα ροκ" ούτε τα προγράμματα περιήγησης εξετάζουν ποτέ αυτό το αρχείο και δεν ακολουθούν τις οδηγίες που γράφονται εκεί. Προορίζεται αποκλειστικά για μηχανές αναζήτησης. Επίσης, δεν πρέπει να αποκλείσετε τον πίνακα διαχείρισης του ιστότοπού σας στο robots.txt, επειδή εάν δεν υπάρχει σύνδεσμος προς αυτόν οπουδήποτε, τότε δεν θα ευρετηριαστεί. Απλώς θα αποκαλύψετε τη θέση του πίνακα διαχείρισης σε άτομα που δεν πρέπει να το γνωρίζουν. Αξίζει επίσης να θυμόμαστε ότι τα πολύ μεγάλα robots.txt μπορούν να αγνοηθούν από τη μηχανή αναζήτησης. Εάν έχετε πάρα πολλές σελίδες που δεν προορίζονται για ευρετηρίαση, είναι καλύτερα να τις διαγράψετε απλώς από τον ιστότοπο ή να τις μετακινήσετε σε ξεχωριστό κατάλογο και να απαγορεύσετε την ευρετηρίαση αυτού του καταλόγου.

Έλεγχος του αρχείου robots.txt για σφάλματα

Βεβαιωθείτε ότι έχετε ελέγξει πώς οι μηχανές αναζήτησης κατανοούν το αρχείο ρομπότ σας. Για έλεγχοι googleμπορείς να χρησιμοποιήσεις Εργαλεία Googleγια webmasters. Εάν θέλετε να μάθετε πώς το Yandex κατανοεί το αρχείο robots.txt, μπορείτε να χρησιμοποιήσετε την υπηρεσία Yandex.Webmaster. Αυτό θα σας επιτρέψει να διορθώσετε τα λάθη που έγιναν εγκαίρως. Επίσης, στις σελίδες αυτών των υπηρεσιών, μπορείτε να βρείτε προτάσεις για τη σύνταξη ενός αρχείου robots.txt και πολλές άλλες χρήσιμες πληροφορίες.

Απαγορεύεται η αντιγραφή του άρθρου.

Το αρχείο robots.txt βρίσκεται στον ριζικό κατάλογο του ιστότοπού σας. Για παράδειγμα, στο www.example.com, το αρχείο robots.txt θα μοιάζει με www.example.com/robots.txt. Είναι ένα απλό αρχείο κειμένου που συμμορφώνεται με το πρότυπο εξαίρεσης ανιχνευτή και περιλαμβάνει έναν ή περισσότερους κανόνες, καθένας από τους οποίους απαγορεύει ή επιτρέπει σε έναν συγκεκριμένο ανιχνευτή ανίχνευσης να έχει πρόσβαση σε μια συγκεκριμένη διαδρομή στον ιστότοπο.

Παρακάτω είναι ένα παράδειγμα απλό αρχείο robots.txt που περιέχει δύο κανόνες και την ερμηνεία του.

# Κανόνας 1 Αντιπρόσωπος χρήστη: Googlebot Disallow: / nogooglebot / # Κανόνας 2 Αντιπρόσωπος χρήστη: * Να επιτρέπεται: / Χάρτης ιστότοπου: http://www.example.com/sitemap.xml

Ερμηνεία

  1. Ο πράκτορας χρήστη με το όνομα Googlebot δεν πρέπει να ανιχνεύει τον κατάλογο http://example.com/nogooglebot/ και τους υποκαταλόγους του.
  2. Όλοι οι άλλοι πράκτορες χρήστη έχουν πρόσβαση σε ολόκληρο τον ιστότοπο (μπορεί να παραλειφθεί, το αποτέλεσμα θα είναι το ίδιο από τότε πλήρης πρόσβασηπαρέχεται από προεπιλογή).
  3. Αρχείο χάρτη ιστοτόπουαυτού του ιστότοπου βρίσκεται στη διεύθυνση http://www.example.com/sitemap.xml.

Ακολουθούν μερικές συμβουλές για την εργασία με αρχεία robots.txt. Σας συνιστούμε να μελετήσετε την πλήρη σύνταξη των αρχείων robots.txt, καθώς οι κανόνες σύνταξης που χρησιμοποιούνται κατά τη δημιουργία αρχείων robots.txt δεν είναι προφανείς και πρέπει να τους κατανοήσετε.

Μορφή και τοποθεσία

Μπορείτε να δημιουργήσετε ένα αρχείο robots.txt σε σχεδόν οποιοδήποτε επεξεργαστής κειμένου(πρέπει να υποστηρίζει κωδικοποίηση ASCII ή UTF-8). Μη χρησιμοποιεις επεξεργαστές κειμένου: Συχνά αποθηκεύουν αρχεία σε ιδιόκτητη μορφή και προσθέτουν μη έγκυρους χαρακτήρες, όπως σγουρά εισαγωγικά, που δεν αναγνωρίζονται από τις μηχανές αναζήτησης.

Χρησιμοποιήστε το εργαλείο ελέγχου robots.txt κατά τη δημιουργία και τη δοκιμή αυτών των αρχείων. Σας επιτρέπει να αναλύσετε τη σύνταξη ενός αρχείου και να μάθετε πώς θα λειτουργήσει στον ιστότοπό σας.

Μορφή αρχείου και κανόνες τοποθεσίας

  • Το αρχείο πρέπει να ονομάζεται robots.txt.
  • Θα πρέπει να υπάρχει μόνο ένα τέτοιο αρχείο στον ιστότοπο.
  • Το αρχείο robots.txt πρέπει να τοποθετηθεί root directoryιστοσελίδα. Για παράδειγμα, για να ελέγξετε την ανίχνευση όλων των σελίδων στον ιστότοπο http://www.example.com/, τοποθετήστε το αρχείο robots.txt στη διεύθυνση http://www.example.com/robots.txt. Δεν πρέπει να βρίσκεται σε έναν υποκατάλογο(για παράδειγμα, στις http://example.com/pages/robots.txt). Εάν δυσκολεύεστε να αποκτήσετε πρόσβαση στον βασικό κατάλογο, επικοινωνήστε με τον πάροχο φιλοξενίας σας. Εάν δεν έχετε πρόσβαση στη ρίζα του ιστότοπου, χρησιμοποιήστε μια εναλλακτική μέθοδο αποκλεισμού, όπως μετα -ετικέτες.
  • Το αρχείο robots.txt μπορεί να προστεθεί σε διευθύνσεις URL με υποτομείς(για παράδειγμα, http: // δικτυακός τόπος.example.com/robots.txt) ή μη τυπικές θύρες (για παράδειγμα http://example.com: 8181 /robots.txt).
  • Τα σχόλια είναι όλες οι γραμμές που ξεκινούν με το σύμβολο της λίρας (#).

Σύνταξη

  • Το αρχείο robots.txt πρέπει να είναι αρχείο κειμένουσε κωδικοποίηση ASCII ή UTF-8. Άλλοι χαρακτήρες δεν επιτρέπονται.
  • Το αρχείο robots.txt μπορεί να αποτελείται από ένα ή περισσότερα κανόνες.
  • Ο κανόναςπρέπει να περιέχει πολλά οδηγίες(οδηγίες), καθένα από τα οποία πρέπει να προσδιορίζεται σε ξεχωριστή γραμμή.
  • Ο κανόνας περιέχει τις ακόλουθες πληροφορίες:
    • Στην οποία πράκτορας χρήστηισχύει ο κανόνας.
    • υπάρχει πρόσβαση.
    • Ποιοι κατάλογοι ή αρχεία διαθέτει αυτός ο πράκτορας Καμία πρόσβαση.
  • Οι κανόνες επεξεργάζονται από πάνω προς τα κάτω. Ένας πράκτορας χρήστη μπορεί να ακολουθήσει μόνο έναν κανόνα που του ταιριάζει, ο οποίος θα υποβληθεί πρώτα σε επεξεργασία.
  • Από προεπιλογή θεωρείταιότι εάν η πρόσβαση στη σελίδα ή στον κατάλογο δεν αποκλείεται από τον κανόνα Disallow:, ο πράκτορας χρήστη μπορεί να τις χειριστεί.
  • Κανόνες ευαίσθητη υπόθεση... Για παράδειγμα, ο κανόνας Disallow: /file.asp ισχύει για τη διεύθυνση URL http://www.example.com/file.asp, αλλά όχι για το http://www.example.com/File.asp.

Οδηγίες που χρησιμοποιούνται σε αρχεία robots.txt

  • User-agent: Είναι υποχρεωτική η χρήση, σε έναν κανόνα μπορεί να υπάρχουν ένας ή περισσότεροι τέτοιοι κανόνες.Ορίζει ρομπότμηχανή αναζήτησης στην οποία ισχύει ο κανόνας. Αυτή η γραμμή είναι η πρώτη σε κάθε κανόνα. Τα περισσότερα από αυτά αναφέρονται στη βάση δεδομένων του προγράμματος ανίχνευσης ιστού ή στη λίστα του προγράμματος ανίχνευσης Google. Η μπαλαντέρ * υποστηρίζεται για να δηλώσει ένα πρόθεμα ή επίθημα μιας διαδρομής ή μιας ολόκληρης διαδρομής. Χρησιμοποιήστε ένα σύμβολο (*) όπως φαίνεται στο παρακάτω παράδειγμα για να αποκλείσετε όλα τα προγράμματα ανίχνευσης ( εκτός από τα ρομπότ AdsBotπου πρέπει να ρυθμιστεί ξεχωριστά). Σας συνιστούμε να εξοικειωθείτε με τη λίστα των ρομπότ Google. Παραδείγματα:# Παράδειγμα 1: Αποκλεισμός μόνο Googlebot User-agent: Googlebot Disallow: / # Παράδειγμα 2: Αποκλεισμός Googlebot και Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Παράδειγμα 3: Αποκλεισμός όλων των ανιχνευτών AdsBot User-agent : * Απαγορεύεται: /
  • Απαγορεύω: ... Υποδεικνύει έναν κατάλογο ή σελίδα στον ριζικό τομέα που δεν μπορεί να σαρωθεί από τον παράγοντα χρήστη που ορίζεται παραπάνω. Εάν πρόκειται για σελίδα, πρέπει να καθοριστεί η πλήρης διαδρομή προς αυτήν, όπως στη γραμμή διευθύνσεων του προγράμματος περιήγησης. Εάν πρόκειται για κατάλογο, η διαδρομή πρέπει να τελειώνει με κάθετο (/). Η μπαλαντέρ * υποστηρίζεται για να δηλώσει ένα πρόθεμα ή επίθημα μιας διαδρομής ή μιας ολόκληρης διαδρομής.
  • Επιτρέπω: Κάθε κανόνας πρέπει να έχει τουλάχιστον ένα Απαγόρευση: ή Να επιτρέπεται:... Υποδεικνύει έναν κατάλογο ή σελίδα στον ριζικό τομέα που δεν μπορεί να σαρωθεί από τον παράγοντα χρήστη που ορίζεται παραπάνω. Χρησιμοποιείται για να ακυρώσει τον κανόνα Απαγόρευση και να επιτρέψει τη σάρωση ενός υποκαταλόγου ή σελίδας σε έναν κατάλογο κλειστό για σάρωση. Εάν πρόκειται για σελίδα, πρέπει να καθοριστεί η πλήρης διαδρομή προς αυτήν, όπως στη γραμμή διευθύνσεων του προγράμματος περιήγησης. Εάν πρόκειται για κατάλογο, η διαδρομή πρέπει να τελειώσει με μια κάθετο προς τα εμπρός (/). Η μπαλαντέρ * υποστηρίζεται για να δηλώσει ένα πρόθεμα ή επίθημα μιας διαδρομής ή μιας ολόκληρης διαδρομής.
  • Χάρτης ιστοτόπου: Προαιρετικά, ενδέχεται να υπάρχουν λίγες ή καθόλου τέτοιες οδηγίες.Υποδεικνύει τη θέση του Χάρτη ιστοτόπου που χρησιμοποιείται σε αυτόν τον ιστότοπο. Η διεύθυνση URL πρέπει να είναι πλήρης. Η Google δεν επεξεργάζεται ή επικυρώνει παραλλαγές διευθύνσεων URL με τα προθέματα http και https ή με ή χωρίς το στοιχείο www. Οι χάρτες ιστοτόπου λένε στην Google ποιο περιεχόμενο απαραίτητησαρώστε και πώς να το ξεχωρίσετε από το περιεχόμενο που μπορώή ειναι ΑΠΑΓΟΡΕΥΜΕΝΟσάρωση. Διαβάστε περισσότερα για τους χάρτες ιστότοπου. Παράδειγμα:Χάρτης ιστότοπου: https://example.com/sitemap.xml Χάρτης ιστότοπου: http://www.example.com/sitemap.xml

Αγνωστος λέξεις -κλειδιάαγνοήθηκε.

Ένα ακόμη παράδειγμα

Ένα αρχείο robots.txt αποτελείται από ένα ή περισσότερα σύνολα κανόνων. Κάθε σύνολο ξεκινά με μια συμβολοσειρά User-agent που προσδιορίζει το ρομπότ που υπακούει στους κανόνες του σετ. Εδώ είναι ένα παράδειγμα αρχείου με δύο κανόνες. εξηγούνται ενσωματωμένα σχόλια:

# Αποκλείστε το Googlebot από την πρόσβαση στο example.com/directory1 / ... και το example.com/directory2 / ... # αλλά επιτρέψτε την πρόσβαση στον κατάλογο2 / υποκατάλογο1 / ... # Όλοι οι άλλοι κατάλογοι επιτρέπονται από προεπιλογή. User-agent: googlebot Disallow: / directory1 / Disallow: / directory2 / Allow: / directory2 / subdirectory1 / # Αποκλεισμός πρόσβασης σε άλλες μηχανές αναζήτησης σε ολόκληρο τον ιστότοπο. User-agent: anothercrawler Απαγόρευση: /

Πλήρης σύνταξη για το αρχείο robots.txt

Η πλήρης σύνταξη περιγράφεται σε αυτό το άρθρο. Σας συνιστούμε να εξοικειωθείτε με αυτό, καθώς υπάρχουν μερικές σημαντικές αποχρώσεις στη σύνταξη του αρχείου robots.txt.

Χρήσιμοι κανόνες

Ακολουθούν ορισμένοι κοινοί κανόνες για ένα αρχείο robots.txt:

Ο κανόνας Παράδειγμα
Αποτρέψτε την ανίχνευση ολόκληρου του ιστότοπου.Λάβετε υπόψη ότι σε ορισμένες περιπτώσεις, οι διευθύνσεις URL ιστότοπου ενδέχεται να εμφανίζονται στο ευρετήριο ακόμα και αν δεν έχουν ανιχνευθεί. Λάβετε υπόψη ότι αυτός ο κανόνας δεν ισχύει για τα ρομπότ AdsBot, τα οποία πρέπει να καθορίζονται ξεχωριστά. Χρήστης: * Απαγόρευση: /
Για να αποτρέψετε τη σάρωση ενός καταλόγου και όλου του περιεχομένου του, βάλτε κάθετο μετά το όνομα καταλόγου. Μην χρησιμοποιείτε ένα αρχείο robots.txt για την προστασία εμπιστευτικών πληροφοριών! Για τους σκοπούς αυτούς πρέπει να χρησιμοποιείται έλεγχος ταυτότητας. Οι διευθύνσεις URL που δεν ανιχνεύονται από το αρχείο robots.txt μπορούν να ευρετηριαστούν και το περιεχόμενο του αρχείου robots.txt μπορεί να προβληθεί από οποιονδήποτε χρήστη, και έτσι να μάθετε τη θέση των αρχείων με ευαίσθητες πληροφορίες. User-agent: * Disallow: / calendar / Disallow: / junk /
Επιτρέπεται η ανίχνευση μόνο για έναν ανιχνευτή User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Επιτρέπεται η ανίχνευση για όλα τα προγράμματα ανίχνευσης εκτός από ένα Χρήστης-πράκτορας: Μη απαραίτητοςbot Απαγόρευση: / Χρήστης-πράκτορας: * Επιτρέψτε: /

Για να αποτρέψετε την ανίχνευση μιας συγκεκριμένης σελίδας, συμπεριλάβετε αυτήν τη σελίδα μετά την κάθετο.

Απαγόρευση: /private_file.html

Για να αποκρύψετε μια συγκεκριμένη εικόνα από το πρόγραμμα ανίχνευσης εικόνων Google

Μέλος χρήστη: Googlebot-Image Disallow: /images/dogs.jpg

Για να αποκρύψετε όλες τις εικόνες από τον ιστότοπό σας από το πρόγραμμα ανίχνευσης εικόνων Google

User-agent: Googlebot-Image Disallow: /

Για να αποτρέψετε τη σάρωση όλων των αρχείων συγκεκριμένου τύπου(σε αυτή η υπόθεση GIF)

User-agent: Googlebot Disallow: /*.gif$

Για να αποκλείσετε συγκεκριμένες σελίδες στον ιστότοπό σας, αλλά να συνεχίσετε να προβάλλετε διαφημίσεις Adsense σε αυτές, χρησιμοποιήστε τον κανόνα Απαγόρευση για όλα τα ρομπότ εκτός από το Mediapartners-Google. Ως αποτέλεσμα, αυτό το ρομπότ θα μπορεί να έχει πρόσβαση στις σελίδες που καταργούνται από τα αποτελέσματα αναζήτησης, προκειμένου να επιλέγει διαφημίσεις που θα εμφανίζονται σε έναν συγκεκριμένο χρήστη.

User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Για να καθορίσετε διευθύνσεις URL που τελειώνουν με συγκεκριμένους χαρακτήρες,χρησιμοποιήστε το σύμβολο $. Για παράδειγμα, για διευθύνσεις URL που καταλήγουν σε .xls, χρησιμοποιήστε τον ακόλουθο κώδικα: Αντιπρόσωπος χρήστη: Googlebot Disallow: /*.xls$

'Ηταν αυτό το άρθρο χρήσιμο?

Πώς μπορεί να βελτιωθεί αυτό το άρθρο;

Συνεχίζοντας το θέμα:
συσκευές

Η αποτελεσματική μετατροπή των ελεύθερων ακτίνων του ήλιου σε ενέργεια που μπορεί να χρησιμοποιηθεί για την παροχή ηλεκτρικού ρεύματος σε σπίτια και άλλες εγκαταστάσεις είναι το αγαπημένο όνειρο πολλών απολογητών για το πράσινο ...

Νέα άρθρα
/
Δημοφιλής