ロボットの欠如 メタタグロボットとそれがどのように処方されています。 次はどうする

ロボットの種類Yandex

  • YANDEX / 1.01.001(互換性、Win16; I) - 主なインデックスロボット
  • YANDEX / 1.01.001(互換性、Win16; P) - 写真のインデクサー
  • YANDEX / 1.01.001(互換性; Win16; H) - サイトのミラーを決定するロボット
  • Yandex / 1.02.000(互換性、Win16; F) - ロボット、インデックス付けサイトのアイコン(ファビコン)
  • YANDEX / 1.03.003(互換性のある; Win16; D) - フォーム「URLの追加」を介して追加するときにページに訴えるロボット
  • YANDEX / 1.03.000(互換性; Win16; M) - リンク上のページを開くときに訴えるロボット「言葉が見つかりました」
  • YadirectBot / 1.0(互換性、Win16; I) - ロボット、ヤンデックス広告ネットワークに関与するサイトページ
  • YANDEXBLOG / 0.99.101(互換性DOS3.30、B)は、ブログを検索するためのXMLファイルを索引付けするロボットです。
  • Yandexsomething / 1.0はロボットで、Yandexニュースパートナーのニュースフローです。
  • Bond、James Bond(バージョン0.07) - Yandexのサブネットからのサイトに来るロボット。 正式には言及されたことがない。 ページ上で選択的に側面。 参照が渡されません。 写真がロードされません。 詠唱によって判断すると、ロボットは違反 - 採用などの現場の確認に従事しています。

yandexロボットのIPアドレス

YANDEXロボットが「行く」のIPアドレス、そしてそれらは変更することができます。 アドレスのリストは開示されていません。

ロボットに加えて、Yandexにはいくつかの「Nature」エージェントがあり、これは、現在関連サービス内のリンクが現在利用可能であるサイトまたはドキュメントが利用可能かどうかを判断します。

  • YANDEX / 2.01.000(互換性; Win16; Dyatel; C) - 「眠っている」Yandex.catalog。 サイトが数日間利用できない場合は、出版物から削除されます。 サイトが応答を始めるとすぐに、カタログに自動的に表示されます。
  • Yandex / 2.01.000(互換性、Win16; Dyatel; Z) - 「栄養的」Yandex。断り アクセスできないサイトへのリンクはグレーでマークされています。
  • Yandex / 2.01.000(互換性; Win16; Dyatel; D) - 「眠っている」Yandex.Direct。 適度前の広告からのリンクの正確さをチェックします。 自動処置は行われません。
  • YANDEX / 2.01.000(互換性、Win16; Dyatel; N) - "Naval" Yandex.News。 これは、問題のスケールを評価し、必要に応じてパートナーに関連付けられているコンテンツマネージャのレポートを形成します。

指令ホスト

サイトミラーに関する問題を回避するために、ホスト指令を使用することをお勧めします。 ホスト指令は、このサイトのメインミラーのYANDEXロボットを示します。 ディレクティブが許可されていないと、接続されていません。

ユーザーエージェント:Yandex
許可:/ cgi-bin.
ホスト:www.site.ru.

ユーザーエージェント:Yandex
許可:/ cgi-bin.
ホスト:site.ru.

あなたにとって最適なものに応じて。

質問: Hostディレクティブにタイムリーに準拠する予定の場合:robots.txt? サイトがwww.site.ruとして索引付けされている場合、robots.txtが1~2週間後に配置された後、wwwとwwwなしのサイトが1~2ヶ月を超えないサイトを配置しました。そしてYandexでは、2コピーの部分的に交差するサイト(1つの550ページ、さらに150ページ、同じ50ページの)があります。 「ミラー」の作品の問題についてコメントしてください。
回答: robots.txt標準の拡張yandexによって紹介された標準標準で、ホスト指令は2つのサイトのミラーを考慮するためのチームではありません、これはミラーとして自動的に定義されたグループのどのサイトから、メインワンを考慮してどのサイトからどのサイトを定義しているかを示しています。 したがって、サイトがミラーとして識別されると、ホストディレクティブが機能します。

HTMLタグ

Yandex RobotはNOINDEXタグをサポートしています。これにより、YANDEXロボットがテキストの指定された(サービス)セクションにインデックスを索引付けすることを禁止します。 サービスフラグメントの始めに設定されています そして最後に -そしてyandexはこのテキストのこのセクションに索引付けされません。

あなたへのご挨拶、親愛なる読者SEOブログPingo。 この記事では、robots.txtをサイトに正しくする方法についての私の考えを述べたいです。 一度に私はこの問題に関するインターネット上の情報がかなり断片的であることをとても厄介でした。 このため、私は多数のリソースを通してクロールしなければならず、絶えず繰り返し情報をフィルタリングし、新しいものを補充していました。

したがって、ここでは、このツールによって解決された実際のタスクの例で、定義から始めて、質問の大部分に答えようとします。 あなたが何かを忘れた場合 - それについてのコメントを書き留めて - 私の研究の質問と資料を補足しなさい。

robots.txt - それは何ですか、なぜあなたは必要なのか、そしてそれが居住するのですか?

だから、最初に誰かのためのlibez このトピック なじみのない完全です。

robots.txtは、検索エンジンのロボットのサイトを索引付けするための命令を含むテキストファイルです。 このファイルでは、ウェブマスターはすべてのロボットのサイト索引付けのパラメータをすぐに、そしてそれぞれの両方で決定できます。 検索エンジン 別途(例えば、Googleの場合)。

robots.txtはどこですか? FTPサイトのルートフォルダに配置されており、実際にはTXT形式の通常の文書であり、その編集は任意のテキストエディタを介して実行できます(私は個人的にはメモ帳++を好む)。 ROBOSTSファイルの内容は入ることによって見ることができます 住所欄 ブラウザhttp://www.vash-site.ru/robots.txt。 もちろん、それが存在する場合。

サイトのrobots.txtを作成する方法 同じ名前の通常のテキストファイルを作成してサイトにアップロードするのに十分です。 正しく設定して構成する方法については、以下に言われます。

robots.txtファイルの構造と正しい設定

正しいロボットTXTファイルはどのようにサイトのように見えるのでしょうか。 この構造は次のように説明できます。

指令ユーザエージェント

このセクションで書くものは何ですか? このディレクティブは、指示がどのようなロボットのために設計されているのかを正確に決定します。 たとえば、すべてのロボットを対象としている場合は、次のデザインを十分に設計してください。

robots.txtファイルの構文では、 "*"記号は "yony"というフレーズと同じです。 特定の検索エンジンまたはロボットの命令を指定する必要がある場合は、前の例からスプロケットがその名前で書かれています。

ユーザーエージェント:YANDEXBOT.

各検索エンジンには、特定の機能を実行する一連のロボットがあります。 YANDEX検索エンジンのロボットについて説明する。 一般的には、次のようなものがあります。

  • yandexはYandexロボットの指標です。
  • GoogleBotは主な索引付けロボットです。
  • MSNBOTは主な索引付けロボットビングです。
  • Aport - Aportのロボット。
  • Mail.ru - PSメールロボット。

特定の検索エンジンまたはロボットの指示がある場合、一般は無視されます。

2.指令を許可します。

セクションの個々のページを許可します。したがって、それは以前にインデックス作成から完全に閉じられていた場合。 例えば:

ユーザーエージェント: *
許可されない:/
許可:/ otkrotyuyan.html。

この例 poni.htmlページ以外のサイト全体の索引付けを禁止します

これは、このディレクティブをある程度で、不許可の指令で指定された規則から除外を示すことを指定します。 そのような状況がない場合、指令はまったく使用されないかもしれません。 それはあなたが禁止のためのサイトを開くことを可能にしません、多くの人が考えていないのであれば、defaintによって開かれます。

2.ディレクティブを許可しません

それは許可ディレクティブの帯電池であり、個々のページをインデックス、パーティション、またはサイト全体から閉じます。 それはNOINDEXタグの類似体です。 例えば:

ユーザーエージェント: *
許可:/ rounded.html。

3.ホストディレクティブ

YANDEXにのみ使用され、サイトのメインミラーを示します。 それはこんな感じです。

wwwなしのメインミラー:

wwwのメインミラー:

ホスト:www.site.ru.

HTTPSのサイト:

ホスト:https://site.ru。

ファイルにホストディレクティブを2回録音できません。 いくつかの誤りのために起こったことが起こった場合、同じディレクティブが処理され、最初に処理され、2番目は無視されます。

4.サイトマップディレクティブ

XMLサイトマップへのパスを指定するために使用されます.SiteMap.xml(ある場合)。 構文は次のとおりです。

サイトマップ:http://www.site.ru/sitemap.xml。

5.クリーンパラメータディレクティブ

ダブである可能性があるパラメータを使用して、索引付けページから閉じるために使用されます。 私の意見で非常に便利なディレクティブは、ウルロンのパラメトリックテールを切り取って、バックボーンだけを残します。これはページの程度です。

特にカタログやオンラインストアを操作するときにこのような問題が発生します。

ページがあるとしましょう。

http://www.site.ru/index.php。

そして仕事の過程のこのページは種のクローンに直面することができます。

http://www.site.ru/index.php?option\u003dcom_user_view\u003dremind.
http://www.site.ru/index.php?option\u003dcom_user_view\u003dreset。
http://www.site.ru/index.php?option\u003dcom_user_view\u003dlogin.

このスパムのあらゆる種類のオプションを取り除くために、次のデザインを指定するのに十分です。

clean-param:option / dindex.php.

この例からの構文、私は考えていると思います:

clean-param:#directiveを示します
オプション#スパムパラメータを示します
/ index.php#は、スパムメーターでURLAのバックボーンを示します

いくつかのパラメータがある場合は、単にアンペルサント(&)を介してそれらをリストします。

http://www.site.ru/index.php?option\u003dcom_user_view\u003dremind&size\u003dbig#ul 2つのパラメータを持つul
clean-param:option&big / dindex.php#はアンペルサントを通して2つのパラメータを示します

例を簡単に説明し、本質自体を説明しています。 特にこのパラメータのおかげで、私はCMS Bitrixを操作するときに言いたいです。

クロール遅延ディレクティブ

YANDEXロボットでサイトのページをダウンロードするためのタイムアウトを設定できます。 大きなサーバー負荷で使用され、それは単にコンテンツをすばやく与える時間がないだけではありません。 私の意見では、これはアナクロニズムであり、これはもはや考慮に入れて使用できません。

クロール遅延:3.5#3.5秒でタイムアウト

構文

  • # - コメントを書くために使用されます。
  • ユーザーエージェント:*#ディレクティブはすべてのロボットを参照します

  • * - 文字の順序、値を意味します。
  • 変更されない:/ページ*すべてのページのバン

    許可されていません:/ * Page#ページ内で終わるすべてのページの禁止

    許可されていません:/ cgi-bin/*.aspx#cgi-binフォルダのすべてのASPXページの禁止

  • $ - カッティングルール、アンティポッドサインアスタリスク:
  • 許可されていません:ページ/ページのみ/ page.htmlまたはpageline.html

Robots.txtファイルの例

上記の構造と規則の理解を統合するために、CMSデータライフエンジンの標準ロボットTXTを与えます。

ユーザーエージェント:*#ディレクティブはすべての検索エンジン用に設計されています
許可されていません:/engine/go.php#別々のセクションとページを禁止します
許可されていません:/engine/download.php#
許可:/ user /#
許可:/ NEWPOSTS /#
許可:/ *副作用\u003d UserInfo#別々のパラメータを持つページを閉じる
許可:/ * SUBAction \u003d NEWPOSTS#
許可されていません:/ * do \u003d lastComments#
許可されていません:/ * do \u003dフィードバック#
許可:/ * do \u003d登録#
許可されていません:/ * do \u003d lostpassword#
ホスト:www.syt#メインサイトミラーを表示します
サイトマップ:https://syt/sitemap.xml#サイトマップへの道を示す
User-Agent:Aport#PS Aportのルールの権利を示す
許可されていません:/#私たちが友達になりたくないとします

robots.txtをチェックしてください

編集の正確さについてロボットTXTをチェックする方法 標準オプション - yandex validator - http://webmaster.yandex.ru/robots.xml。 ロボットファイルへのパスを入力するか、直ちにその内容をテキストフィールドに挿入します。 チェックしたいUllesのリストを入力します - 閉じたディレクティブに従って開いています - 「チェック」をクリックするとVoila! 利益。

ページのステータスが表示されます - 索引付けまたは閉じたかどうか。 閉じている場合は、そのルールを正確に把握する方法が示されます。 そのようなページの索引付けを解決するには、バリデータが示すルールを確定する必要があります。 ファイルに構文エラーがある場合、バリデータもこれを報告します。

robots.txtジェネレータ - オンライン作成

あなたが欲望や時間の構文を勉強していないが、サイトのスパムページを閉じる必要がある場合は、クリックのペア全体のサイトのロボットtxtを作成する無料のオンライン生成器を使用できます。 その後、ファイルをダウンロードしてサイトにダウンロードします。 それを使って作業するときは、索引付けから閉じたいページを指定してください。 発電機の残りの部分はあなたのためにそれを作るでしょう。

人気のCMS用のファイルの準備完了

1C Bitrixのサイト用のrobots.txtファイル

ユーザーエージェント: *
許可:/ bitrix /
禁止:/個人/
許可:/アップロード/
許可:/ *ログイン*
許可:/ * auth *
許可:/ *検索
許可されていません:/ *?sort \u003d
許可:/ * gclid \u003d
許可:/ * Register \u003d
許可されていません:/ *?per_count \u003d
許可されていません:/ * forgot_password \u003d
許可:/ * change_password \u003d
許可されていません:/ * logout \u003d
許可:/ * back_url_admin \u003d
許可:/ * print \u003d
許可されていません:/ * backurl \u003d
許可されていません:/ * backurl \u003d
許可:/ * back_url \u003d
許可:/ * back_url \u003d
許可されていません:/ * Add2basket.
許可:/ * add_to_compare_list.
許可:/ * DELETE_FROM_COMPARE_LIST.
許可されていません:/ * action \u003d by
許可:/ * set_filter \u003d y
許可:/ *?mode \u003d matrix.
許可されていません:/ *?mode \u003d listItems
許可されない:/ * OpenStat.
許可されていません:/ * from \u003d adwords.
許可されていません:/ * utm_source.
ホスト:www.site.ru.

DataLife Engine(DLE)のためのrobots.txt

ユーザーエージェント: *
許可:/ Engine/Go.Php。
disallow:/engine/download.php。
許可:/エンジン/クラス/高層/
許可:/ user /
変更:/タグ/
許可:/ NEWPOSTS /
許可されていません:/statistics.html。
許可:/ * subcation \u003d userInfo.
許可:/ * Subcation \u003d NewPosts.
許可されない:/ * do \u003d lastComments.
許可:/ * do \u003dフィードバック
許可されていません:/ * do \u003d register.
許可されていません:/ * do \u003d lostpassword.
許可されていません:/ * do \u003d addnews.
許可されていません:/ * do \u003d stats
許可されていません:/ * do \u003d pm
許可されない:/ * do \u003d検索
ホスト:www.site.ru.
サイトマップ:http://www.site.ru/sitemap.xml。

Joomlaのためのrobots.txt

ユーザーエージェント: *
許可:/管理者/
許可:/キャッシュ/
許可:/含まれている/
/インストール/
許可されない:/言語/
許可:/ライブラリ/
許可:/メディア/
許可:/モジュール/
許可:/プラグイン/
許可:/テンプレート/
許可:/ tmp /
許可:/ xmlrpc /
変更されない:*印刷
許可されていません:/ * utm_source.
許可されていません:/ * mailto *
許可されていません:/ * start *
許可されない:/ *フィード*
許可:/ *検索*
許可:/ *ユーザー*
ホスト:www.site.ru.
サイトマップ:http://www.site.ru/sitemap.xml。

WordPress.txtのためのrobots.txt

ユーザーエージェント: *
許可:/ cgi-bin.
許可:/ wp-admin
許可:/ wp-include
許可:/ WP-Content / Plugins
/ WP-Content / Cacheを許可しません
許可:/ WP-Content / Themes
変更されない:* / Trackback
変更されない:* /フィード
許可:/wp-login.php。
許可:/wp-register.php。
ホスト:www.site.ru.
サイトマップ:http://www.site.ru/sitemap.xml。

UCOZのrobots.txt。

ユーザーエージェント: *
許可:/ a /
許可:/ stat /
許可:/ Index / 1
許可:/ Index / 2.
/ index / 3を許可しません
許可:/ Index / 5.
許可:/ Index / 7
許可:/ Index / 8.
許可:/ Index / 9.
許可:/パネル/
許可:/ admin /
禁止:/安全/
許可:/インフォーマー/
許可:/ mchat.
disalow:/検索
禁止:/店舗/順序/
許可されていません:/?ssid \u003d
許可:/ Google
許可されない:/

販売発電機

robots.txtファイルを作成するときに間違っているならば、それは役に立たないかもしれません 検索ロボット。 検索ロボットへの転送が間違っているリスクが表示されます 必要なコマンドそれは格付けを減らすでしょう、仮想プラットフォームのユーザーインジケータの変更。 サイトがうまくいっていっぱいになっても、robots.txtチェックは彼を傷つけませんが、それを良くするだけです。

この記事から、あなたは学ぶでしょう:

robots.txtをチェックすることによって必要なもの

システム検索結果には、インターネットリソースの不要なページが含まれています。 検索エンジンのインデックスの多数のページに悪いことはないように見えるかもしれませんが、そうではありません。

  • 不要なページでは、ユーザーは見つかりません 有用な情報 あなた自身のための。 より高い確率で、彼は皆、これらのページを長い間彼らに長くしてください。
  • 検索エンジンの発行では、アドレスが異なる(つまり、コンテンツが重複している)、いくつかがある(つまりコンテンツが重複している)。
  • 検索ロボットは、完全に不要なページを索引付けするために多くの時間を費やす必要があります。 便利なコンテンツを索引付けする代わりに、それらはサイトを歩き回るのは役に立たないでしょう。 ロボットはリソース全体を索引付けできず、(たくさんのサイトがあるため)章を作成することはできませんので、リクエストの後に取得したい希望の情報があまり早く見つかりません。
  • サーバーは非常にロードされています。

この点に関して、検索ロボットへのアクセスを一部のWebリソースに閉じることをお勧めします。

どのファイルとフォルダをインデックスに禁止することができます。

  1. ページページを検索します。 これは物議を醸す点です。 関連ページを作成するには、サイト上の内部検索の使用が必要です。 しかし、これは必ずしも行われません。 多くの場合、検索結果は多数の重複ページの外観になります。 したがって、索引付けの検索ページを閉じることをお勧めします。
  2. バスケットとそれらが発行/注文を確認するページ。 彼らの閉鎖は、オンライン取引サイトやその他の商用リソースを注文フォームを使用してお勧めします。 これらのページの検索エンジンインデックスへのエントリは非常に望ましくありません。
  3. ページが切り離します。 原則として、同じメタタグを自動処方することを特徴としています。 さらに、それらは動的コンテンツを収容するために使用されているので、DUPLICASは発行された結果に現れる。 これに関して、ページ付けは索引付けのために閉じられるべきです。
  4. 商品のフィルターと比較 オンラインストアやカタログサイトを閉じる必要があります。
  5. 登録および承認ページ。 データを登録または承認するときに、ユーザーが入力またはログ記録するユーザーの機密性に関連して閉じる必要があります。 これらの索引付けページのアクセス可能性は、Googleによって認識されます。
  6. システムカタログとファイル。 インターネット上の各リソースはさまざまなデータで構成されています(スクリプト、 テーブルCSS。、ロボットによって見るべきではありません(管理部分)。

索引付け用のファイルとページを閉じると、robots.txtファイルが役立ちます。

robots.txtは、検索ロボットの命令を含む通常のテキストファイルです。 検索ロボットがサイト上にあることが判明した場合は、主にrobots.txtファイルの検索に従事しています。 それが欠けている(または空の)、ロボットはすべてのページとリソースカタログ(システムを含む)に移動し、それは自由にアクセスし、それらの索引付けを実行しようとします。 同時に、あなたが必要とするページがそれに届かないかもしれないので索引付けされるという保証はありません。

robots.txtを使用すると、検索ロボットを目的のページに送信でき、索引付けされてはいけないものにしないでください。 ファイルはすべてのロボットの両方を直ちに別々に指示できます。 サイトページが索引付けから閉じられている場合は、検索エンジンの発行には表示されません。 robots.txtファイルを作成する必要があります。

robots.txtファイルの場所は、サーバー、リソースのルートである必要があります。 任意のサイトのrobots.txtファイルは、ネットワーク上で表示できます。 それを見るためには、リソースアドレスの後に/robots.txtを追加する必要があります。

原則として、さまざまなリソースのrobots.txtファイルは互いに異なります。 外部サイトのファイルをあきらめなくコピーした場合は、検索ロボットをインデックス付けするときに問題が発生します。 したがって、作成するときに使用されるrobots.txtファイルと命令(ディレクティブ)が必要なのかを知る必要があります。


アプリケーションを送信してください

robots.txt yandexをチェックする方法

  • チェックファイルを確認します 特別なサービス Yandex.veBMaster "robots.txt分析"。 リンク:http://webmaster.yandex.ru/robots.xmlにあります
  • 提案されたフォームでは、エラーを確認するrobots.txtファイルの内容を入力する必要があります。 データを入力する方法は2つあります。
    1. http link://vash-site.ru/robots.txtを使用してサイトに参加して、内容を空のサービスフィールドにコピーします(robots.txtファイルがない場合は、それを作成する必要があります)。
    2. チェックされたファイルにリンクを挿入します[ホスト名]フィールドで、[サイトからRobots.txtをダウンロード]または[入力]をクリックするか、入力します。
  • チェックのチェックは、「チェック」コマンドをクリックして実行されます。
  • 確認が実行されたら、結果を分析できます。

テストを確認した後、アナライザは「テキストrobots.txt」フィールドの内容の各行を分解し、それが含むディレクティブを分析します。 さらに、ロボットがURLリストフィールドからページを迂回するかどうかを調べます。

リソースに適したrobots.txtファイルを構成すると、ルールを編集できます。 リソースファイル自体が変更されていないことを忘れないでください。 強制を変更するためには、新しいバージョンのファイルをサイトに独立してダウンロードする必要があります。

YANDEXロボット(user-agent:yandexまたはuser-agent:*)を対象としたセクションディレクティブを確認するとき、アナライザはrobots.txtルールによって導かれます。 残りの部分は標準の要件に従ってチェックされます。 アナライザーがファイルを分解すると、見つかったエラーに関するメッセージが表示され、ルールの書き込みに不正確な場合はファイルのどの部分がYADDEXロボット用のものです。

アナライザは、エラーと警告の2つのタイプのメッセージを送信できます。

ディレクティブを作成するときに許可された重大な構文エラーがあるために、文字列、セクション、またはファイル全体がアナライザによって処理できない場合は、エラーメッセージが表示されます。

警告では、原則として、その規則から逸脱していると報告され、その補正は分析装置によって不可能であるか、または潜在的な問題の存在(それほど潜在的な問題の存在)があり、その原因はランダムな版または不正確なものである。コンパイルされたルール

「このURLはあなたのドメインに属していません」というエラーメッセージは、URLリストには、リソースのミラーの1つのアドレスが含まれています。たとえば、http://jpple.com代わりにhttp://www.example.com (正式にこれらのURLは異なります)。 このサイトに属する検証対象のアドレスが、robots.txtファイルを分析する必要がある。

Googleのrobots.txtをチェックする方法

Google Search Consoleツールを使用すると、robots.txtには、リソース内の特定のURLのGoogleBotロボットの禁止が含まれているかどうかを確認できます。 たとえば、写真の検索結果の結果に見たくないイメージがあります。 ツールを使用すると、ロボットにこの画像へのGooglebotイメージアクセスがあるかどうかを学びます。

これを行うには、関心のあるURLを指定してください。 その後、robots.txtファイルは、GoogleBotロボットと同様に、検証ツールによって処理されます。 これにより、このアドレスが利用可能かどうかを判断できます。

確認手順:

  • Google Search Consoleでリソースを選択したら、検証ツールに移動します。これにより、robots.txtファイルの内容があります。 選択したテキストは、構文または論理のエラーです。 それらの番号は編集ウィンドウの下に示されています。
  • インターフェイスページの下部には、URLを入力したい特別なウィンドウが表示されます。
  • メニューが右側に表示され、そこからロボットを選択する必要があります。
  • 「チェック」ボタンをクリックしてください。
  • チェックが「利用可能」というテキストで表示されている場合、これはGoogleのロボットが指定されたページにアクセスできることを意味します。 ステータスは「利用できない」と彼女のロボットへのアクセスが閉じられていることを示唆しています。
  • 必要に応じて、メニューを変更して新しいチェックを行うことができます。 注意! リソース上のrobots.txtファイルへの自動変更は起こりません。
  • 変更をコピーしてWebサーバー上のrobots.txtファイルにそれらを作成します。

何に注意を払うべきか

  1. Webサーバー上のエディタで行われた変更を保存しません。 受信したコードをコピーしてrobots.txtファイルに挿入します。
  2. robots.txtファイルのrobots.txtファイルの結果を取得することは、GoogleのユーザーエージェントとGoogleに関連するロボットだけにしかありません(たとえば、GoogleBot Robot)。 この場合、他の検索エンジンのロボットを持つファイルの内容の解釈が類似していることを保証します。

robots.txtファイルをチェックするとき15エラー

エラー1.疲れた指示

robots.txtファイルの最も一般的なエラーは混乱した指示です。 例えば:

  • ユーザーエージェント: /
  • 禁止:yandex

正しいオプションは次のとおりです。

  • ユーザーエージェント:Yandex
  • 許可されない:/

error 2. 1つの許容命令で複数のディレクトリを指定します

多くの場合、インターネットリソースの所有者は、インデックスを禁止したいすべてのカタログを同じ許容索引で登録しようとしています。

許可:/ CSS / / CGI-BIN / /画像/

そのような記録は、さまざまなロボットでの処理が不可能であることを予測するために、標準の要件に準拠していません。 そのうちのいくつかはスペースを無視することができます。 レコードの解釈は次のようになります。「許可:/ css / cgi-bin / images /」。 最初のフォルダまたは最後のフォルダのみが使用できます。 第三に、それを理解せずにすべての指示を描くことができます。

このデザインの処理がマスターが計算されたものであるが、それでも正しく書くのが良いほど良いという可能性があります。

  • 許可:/ css /
  • 許可:/ cgi-bin /
  • 許可:/イメージ/

エラー3.資本の文字はファイル名にあります

ファイルの正しい名前はrobots.txtであり、robots.txtまたはrobots.txtではなく、ファイルです。

エラー4. robots.txtの代わりにrobot.txtのようなファイル名を書き込む

覚えておいてください、正しくrobots.txtファイルを呼び出します。

エラー5.文字列をuser-agent空のままにする

間違ったオプション:

  • ユーザーエージェント:
  • 許可されません:
  • ユーザーエージェント: *
  • 許可されません:

エラー6.ホストディレクティブにURLを書き込む

HyperText伝送プロトコルの省略形(http://)を使用せずにURLを指定する必要があります(http://)、スラッシュ(/)を閉じる必要があります。

無効なレコード:

正しいオプション:

ホスト指令の使用はYANDEXロボット専用です。

エラー7.命令を使用して置換のシンボルを許可しません

すべてのファイルfile1.html、file2.html、file3.htmlなどを指定することがありますWebMasterは書き込みできます。

  • ユーザーエージェント: *
  • 変更されない:ファイル* .html

しかし、いくつかのロボットは置換文字のサポートを持っていないため、これを行うことは不可能です。

エラー8. 1行のコメントと指示を書くために使用

標準はそのようなレコードを可能にします。

許可:/ CGI-BIN /#禁止ロボットインデックスCGI-BIN

以前は、いくつかのロボットによるそのような線の処理は不可能でした。 現在、検索エンジンはこれに問題がありませんが、リスクになる価値がありますか? それは別の行にコメントを投稿するのが良いです。

エラー9. 404番目のエラーページにリダイクトします

多くの場合、サイトにrobots.txtファイルがない場合は、検索エンジンを要求すると別のページにリダイレクトされます。 時々それはステータス404を返さない 見つかりません。。 ロボットは彼がrobots.txtまたは通常のHTMLファイルを持っていると自分自身に対処しなければなりません。 問題ではありませんが、サイトがrootに配置されている場合もよい 空のファイル robots.txt。

エラー10.大文字の使用 - 悪いスタイルの兆候

ユーザーエージェント:GoogleBot

robots.txtの感度は規格では規制されておらず、レジスタに規制されていませんが、ファイル名とディレクトリを取ります。 また、robots.txtファイルが完全に書き込まれている場合 大文字これは悪いスタイルと見なされます。

ユーザーエージェント:GoogleBot

エラー11.すべてのファイルの列挙

間違っていると、各ファイルが別々に各ファイルをリストします。

  • ユーザーエージェント: *
  • 許可:/al/alabama.html。
  • 許可:/al/ar.html。
  • 許可されていません:/az/az.html
  • 許可されていません:/az/bali.html。
  • 許可されていません:/az/ded-breakfast.html

ディレクトリ全体の索引付けから正しいです。

  • ユーザーエージェント: *
  • 許可:/ al /
  • 禁止:/ z / z /

エラー12.セクション内の追加のディレクティブの使用*

追加の指令を使用するためのいくつかのロボットの反応が誤っている可能性があります。 したがって、「*」のセクションの使用は望ましくない。

ディレクティブが標準ではない場合(たとえば、「ホスト」のように)、それに特別なセクションを作成することをお勧めします。

無効なオプション:

正しく書きます:

エラー13.不明な指示がありません

追加のディレクティブを使用して禁止をインストールしない場合でも、空の禁止を指定することをお勧めします。 規格は、不在で、禁止の指示の義務を示していますが、ロボットは「誤解」されます。

違う:

正しい:

エラー14.ディレクトリが指定されているときの使用以外のスラット

この場合のロボットの行動は何ですか?

  • ユーザーエージェント:Yandex
  • 無効にされています:ジョン。

規格によると、ファイルと「john」という名前のディレクトリの両方にはインデックスが実行されません。 ディレクトリのみを指定するには、次のように書く必要があります。

  • ユーザーエージェント:Yandex
  • 禁止:/ john /

エラー15. HTTPヘッダーの書き込みが正しくありません

サーバーは、robots.txt "content-type / plain"のHTTPヘッダーに戻って、たとえば、 "content-type:text / html"ではありません。 ヘッダーが正しく書き込まれている場合は、一部のロボットによるファイル処理は不可能になります。

エラーを検出するためにrobots.txtをチェックするファイルを作成する方法

インターネットリソースの正しいrobots.txtファイルは何になるべきですか? その構造を考える:

1.ユーザーエージェント

このディレクティブはメインワンです、それはロボットのためのルールの書き込み方法を決定します。

任意のロボットの場合は、書きます。

特定のボットの場合:

ユーザーエージェント:GoogleBot

シンボルレジスタがrobots.txtでは関係していないことは注目に値します。 たとえば、Googleのユーザーエージェントを記録することができます。

ユーザーエージェント:GoogleBot

さまざまな検索エンジンの主要なユーザーエージェントのテーブルを渡します。

主な索引付けロボットGoogle

グーグルニュース

Google Pictures

MediaPartners - Google

Google AdSense、Google Mobile AdSense

品質チェック ターゲットページ

Adsbot - Google-Mobile-Apps

アプリケーション用のGoogleロボット

主な索引付けロボットYandex

Yandex.Martinki

yandex.videos.

マルチメディアデータ

ブログ検索ロボット

「URLの追加」フォームを介して追加するときにページにアクセスするロボット

ロボット、サイトの絵文字(Favicons)

yandex.direct

yandex.metrica.

yandex.catalog.

yandex.news.

yandeximageresizer。

モバイルサービスロボット

主な索引付けロボットビンピング

メインインデックスロボットYahoo!

主なインデックス作成ロボットメール.ru.

2.許可して許可します

変更を許可して、ページとインターネットリソースセクションの索引付けを禁止できます。

索引付けのためにそれらを開く強制的に許可されます。

しかし、それらを使うのは簡単ではありません。

まず、追加の演算子とその使用規則に知り合いになる必要があります。 *、$ and#。

  • *彼らの不在でさえ、キャラクターの数を愛しています。 このオペレータを線の最後に配置する必要はありませんが、デフォルトではそこにあることが暗示されます。
  • $ - 彼の前に立っているシンボルが最後のものになるはずです。
  • # - この演算子はコメントを指定するためのもので、ロボットが撮影されていない後に情報を指定します。

これらの演算子の使い方:

  • 変更されません:*?s \u003d
  • /カテゴリ/ $

次に、robots.txtファイルに投資されたルールがどのように行われるかについての理解を説明します。

どのガイドラインが記録されているかは関係ありません。 指定されたディレクトリに従って、継承規則(索引付けまたは閉じるもの)を決定します。 例を与えましょう。

許可:* .css

許可:/テンプレート/

すべてのファイルをインデックスに開く必要がある場合は、CSSでは、フォルダごとにこれをさらに指定する必要があります。 私たちの場合には:

  • 許可:* .css
  • 許可:/ WebSiteplate.com.css.
  • 許可:/テンプレート/

再びリコール:ディレクティブがどの順序で記録されているのかは関係ありません。

3.サイトマップ

このディレクティブは、サイトマップXMLファイルへのパスを指定します。 URLはアドレスバーと同じです。

SiteMapディレクティブの指定Robots.txtファイルのどこにでも可能です。それはそれを特定のユーザーエージェントに結び付ける必要はありません。 サイトマップルールを複数指定できます。

このディレクティブは、リソースのメインミラー(ルールとして、WWWまたはWWWなしで)を示します。 覚えておいてください:メインミラーを指定するときは、http://、およびhttps://ではなく書かれています。 必要に応じて、ポートも指定されます。

この指令のサポートは、yandexとmail.ruのボットによってのみ可能です。 GoogleBotを含む他のロボットは、このチームを考慮に入れていません。 ホストを1回登録できます。

クロール遅延

設定すると、ロボットはリソースページをダウンロードする必要がある。 ディレクティブはYandexロボット、mail.ru、bing、ヤフーをサポートしています。 間隔をインストールするときは、区切り文字として点を使用して、整数値と端数の両方を使用できます。 測定単位 - 秒数。

クロール遅延:0.5

サイトの負荷が小さい場合は、この規則をインストールする必要はありません。 しかし、ページロボットを索引付けした結果、または負荷の深刻な上昇を超えること、サーバー操作の中断につながる場合は、この指令の使用がお勧めします。負荷が軽減されます。

インストールされた間隔が多いほど、1セッション内のダウンロード数が小さくなります。 各リソースの最適値はITSです。 まず、小さい値(0.1,0.2,0.5)を入れることをお勧めします。その後、徐々にそれらを増やします。 検索エンジンのロボットのために、プロモーション結果(Mail.ru、Bing、Yahooなど)には特に重要ではありません(たとえば、mail.ru、bing、yahoo)、yandexロボット以上の値をすぐにインストールできます。

6.クリーンパラメータ

このディレクティブは、URLの索引付けの不要さを指定されたパラメータと通信するためにクローラ(検索ロボット)を通信するために必要です。 ルールの場合、2つの引数が指定されています。セクションのパラメータとURL。 yandexはディレクティブをサポートしています。

http://site.ru/articles/?author_id\u003d267539 - 索引付けの対象にはありません

http://site.ru/articles/?author_id\u003d267539&sid\u003d0995823627 - 索引付けの対象にはなりません

clean-param:UTM_Source UTM_Medium UTM_Campaign.

その他のパラメータ

拡張robots.txt仕様には、より多くのパラメータが含まれています:リクエストレートと訪問時間。 しかし現在、彼らの主要な検索エンジンによるサポートはありません。

次のためにディレクティブが必要です。

  • リクエストレート:1/5 - 5秒で1ページ以下のロードを許可する
  • 訪問時間:0600-0845 - 午前6時から午後8時45分までのページロードを許可していますgrinvichich

にとって 適切な設定 robots.txtファイルそのようなアルゴリズムを使用することをお勧めします。

2)アクセスロボットを閉じる 個人口座、承認ページ、登録ページ。

4)Ajaxの索引付けから閉じて、JSONスクリプト。

6)yandexおよびGoogle以外のすべての検索エンジンのロボットのためのインデックスプラグイン、装飾テーマ、JS、CSSを無効にする。

7)検索機能へのロボットへのアクセスを閉じる。

8)検索内のリソースに有益でないインデックスサービスセクションを無効にする(エラー404、著者のリスト)。

9)Indexing Technical Duplicateページと1度または別のページの内容が他のページの内容を重複しているページ(カレンダー、アーカイブ、RSS)に閉じる。

12)yandexとGoogleが索引付けされたもの、 "site:"パラメータを確認するために使用します。 これを行うには、検索文字列に "site:site.ru"と入力します。 索引付けする必要がないページがある場合は、それらをrobots.txtに追加してください。

13)サイトマップとホストの規則を調整する。

14)必要に応じて、クロール遅延とクリーンパラメータを指定します。

15)GoogleおよびYANDEXツールを使用してrobots.txtファイルの正しさを確認してください。

16)14日後、検索エンジンの発行で索引付けされてはいけない検索エンジンを確認するための再検証を実行してください。 もしあれば、上記の項目をすべて繰り返します。

robots.txtファイルの確認サイトが順番に順番にある場合にのみ意味があります。 これを決定すると、資格のある専門家によって行われたサイト監査が支援されます。

ビジネスのアイデアに関する私たちの記事があなたに役立つことを願っています。 そして、あなたがすでに活動の方向を決めて積極的に発展していることを決定しているならば、私たちはあなたのリソースの機会の実際の写真を提示するためにサイトの監査を受けることをお勧めします。


検索エンジンのサイト最適化の段階の1つは、robots.txtファイルのコンパイルです。 via このファイル 検索ロボットやすべての検索ロボットを禁止することは、索引付けを目的としていないWebサイトまたはその特定の部分にインデックスを付けます。 特に、印刷用のページのバージョンなどの重複内容の索引付けを禁止することができます。

検索ロボット索引付けを開始する前に、常にサイトのルートディレクトリ内のrobots.txtファイル、たとえばhttp://site.ru/robots.txtを参照してください。 しかし、あなたが何も禁止されない場合でも、このファイルはまだ作成することをお勧めします。

robots.txt拡張子によってわかるように、テキストファイルがあります。 このファイルを作成または編集するには、メモ帳(メモ帳)のような最も単純なテキストエディタを使用することをお勧めします。 robots.txtはサイトのルートディレクトリに配置され、以下を参照してください。

ファイル形式のrobots.txt.

robots.txtファイルは、少なくとも2つの必須エントリで構成されています。 1つ目は、どの検索ロボットがさらに実行されている指示に従うべきかを示すユーザーエージェント指令です。 値は、すべてのロボットにすぐに連絡する場合のロボット(Googlebot、YANDEX、STACKRAMBLER)または*記号の名前である場合があります。 例えば:

ユーザーエージェント:GoogleBot

対応する検索エンジンのサイトにロボットの名前を見つけることができます。 その後、1つ以上の不許可の指令を受けるべきです。 これらのディレクティブはロボットに通知し、インデックスへのファイルとフォルダは禁止されています。 たとえば、次の行は、Feedback.phpファイルとCGI-BINディレクトリを索引付けするためのロボットを禁止します。

許可されていません:/feedback.phpは許可されません:/ cgi-bin /

ファイルまたはフォルダの初期文字のみを使用することもできます。 disallow:/ forum文字列は、サイトのルートですべてのファイルとフォルダのインデックス付けを無効にします。たとえば、ファイルから始まります(たとえば、for http://site.ru/forum.phpとhttp: //site.ru/forum/すべての彼女のコンテンツを持つ。 無効になっている場合、ロボットがすべてのページにインデックスを付けることができることを意味します。 許可されていない値が/、これはサイト全体が禁止されていることを意味します。

各ユーザーエージェントフィールドに対して、少なくとも1つの不許可フィールドにする必要があります。 つまり、索引付けに何も禁止しない場合は、robots.txtファイルに次のエントリを含める必要があります。

user-agent:* deallow:

追加のディレクティブ

YANDEXとGoogleの正規表現に加えて、許可指令の使用を許可していますが、その後、どのページを索引付けすることができるかを示します。 次の例では、yandexは/記事から始まるページアドレスを除くすべての索引を禁止しています。

ユーザーエージェント:YANDEX許可:/記事が許可されていません:/

この例では、許可ディレクティブを許可する必要がありますが、それ以外の場合はYANDEXはサイトの索引付けの完全な禁止として理解します。 空のALONディレクティブは、サイトインデックス作成も完全に禁止されています。

ユーザーエージェント:YANDEX許可:

同等のもの

ユーザーエージェント:YANDEXが許可されていません:/

非標準指令は、それらをサポートする検索エンジンについてのみ指定する必要があります。 そうでなければロボットは理解していません このエントリ それは誤ってそれを処理するか、またはrobots.txtファイル全体を処理するかもしれません。 追加の指令について、一般的にrobots.txtファイルのコマンドの理解については、対応する検索エンジンのサイトで別のロボットを見つけることができます。

robots.txtの正規表現

ほとんどの検索エンジンは明示的に指定されたファイル名とフォルダのみを考慮に入れていますが、より高度な検索エンジンがあります。 GoogleのロボットとYandex Robotは、robots.txtでの単純な正規表現の使用をサポートしています。これにより、Webマスターの作業量が大幅に削減されます。 たとえば、次のコマンドでは、Googleのロボットをextension.pdfですべてのファイルにインデックスを付けることを禁止します。

User-Agent:GoogleBotを許可しない:* .pdf $

与えられた例では、シンボル*は文字の順序であり、$は参照の終わりを示します。

ユーザーエージェント:YANDEX許可:/記事/ AKTML $ disaalow:/

上記の指令により、YANDEXは、拡張子「.html」を持つフォルダ/記事/ファイルのみをインデックスすることができます。 他のすべてのものは索引付けのために禁止されています。

サイトのマップ

robots.txtファイルでは、XMLサイトマップの場所を指定できます。

User-Agent:GoogleBotは変更されません:sitemap:http://site.ru/sitemap.xml

サイト上に非常に多数のページがある場合、サイトマップをピースに分割しなければならない場合は、robots.txtファイルでカードのすべての部分を指定する必要があります。

ユーザーエージェント:YANDEXを許可します:sitemap:http://mysite.ru/my_sitemaps1.xmlサイトマップ:http://mysite.ru/my_sitemaps2.xml

サイトミラー

あなたが通常知っているように、同じサイトは2つのアドレスで利用できるようになります.WWWから、そしてそれなしではありません。 検索ロボットSite.ruとwww.site.ruの場合は異なるサイトですが、同じコンテンツがあります。 それらは鏡と呼ばれています。

サイトのページ上にWWWおよびなしでリンクがあるという事実のために、ページの重さはwww.site.ruとsite.ruの間で分割することができます。 これが検索エンジンには起こらないように、サイトのメインミラーを指定する必要があります。 「接着」の結果として、すべての重さは同じメインミラーに属し、そのサイトは検索結果に高い位置をとることができるでしょう。

Host Directiveを使用して、robots.txtファイルにyandexのメインミラーを指定できます。

User-Agent:YANDEXを許可します:/feedback.phpが許可されていません:/ cgi-bin / host:www.site.ru

ミラーを接着した後、www.site.ruはすべての重さに属し、検索結果にはより高い位置がかかります。 そしてSite.ru Search Engineはまったくインデックスされません。

他の検索エンジンの場合、メインミラーの選択は、メインワンの追加のミラーを持つサーバー永久リダイレクト(コード301)です。 これは、file.htaccessおよびmod_rewriteモジュールを使用して行われます。 これを行うには、rootにsite.htaccessサイトを入力して、以下を書いてください。

RewriteEngineオンオプション+ FallowSymlinks RewriteBase / RewriteCond%(http_host)^ site.ru $ Rewriterule ^(。*)$ http://www.site.ru/ds1

その結果、Site.ruからのすべての要求がwww.site.ruにアクセスし、その後、site.ru/page1.phpがwww.site.ru/page1.phpにリダイレクトされます。

リダイレクトメソッドはすべての検索エンジンとブラウザで機能しますが、YANDEXのrobots.txtファイルにホスト指令を追加することをお勧めします。

robots.txtのコメント

robots.txtファイルにコメントを追加することもできます - それらは#シンボルから始まり、行翻訳で終わります。 コメント別のラインで書くことをお勧めします、そしてそれをまったく使わないことはより良いです。

コメントの使用例:

User-Agent:StackRamblerを許可しません:/ garbage /#このフォルダでは何もありません。/doc.xhtml#とこのページでもこのページのすべてのコメントも無駄になります。

robots.txtファイルの例

1.すべてのロボットをすべてのサイト文書に索引付けできるようにします。

user-agent:* deallow:
ユーザーエージェント:*許可:/

3. Google検索エンジンのロボット索引ファイルBack.phpファイルとCGI-BINディレクトリの内容を禁止します。

User-Agent:GoogleBOTは許可されません:/ cgi-bin / disalow:/feedback.php

4.すべてのロボットをサイト全体に索引付けし、YANDEX検索エンジンのロボットはfeedback.phpファイルとcgi-binディレクトリの内容を禁止します。

User-Agent:YANDEXの許可:/ cgi-bin / disallow:/feedback.php host:www.site.ru user-agent:* deallow:

5.すべてのロボットをサイト全体に索引付けすることができ、Yandexのロボットは私に意図されているサイトの一部のみを索引付けさせてください。

ユーザーエージェント:YANDEX許可:/ yandex disallow:/ host:www.site.ru user-agent:* deallow:

空の文字列はさまざまなロボットの共有制限です。 各制限ブロックは、サイトインデックス作成規則が含まれるロボットを示すUser-Agentフィールドを含む文字列で始める必要があります。

頻繁に発生したエラー

robots.txtファイル内の空の行が異なるロボットのための2つのエントリの区切り文字であることを考慮に入れる必要があります。 また、1行に複数のディレクティブを指定することはできません。 Webマスターファイルのインデックスを使用すると、ファイル名がスキップ/ファイル名の前に表示されます。

の索引付けのrobots.txt禁止の禁止を禁止する必要はありません。 異なるプログラムこれはサイトを完全にダウンロードするように設計されています。たとえば、TeleportProです。 「ロッキングプログラム」もブラウザもこのファイルを見ることはなく、そこで登録されている指示を実行しません。 検索エンジン専用のものです。 リンクがどこにでもリンクがない場合は、索引付けされないため、robots.txtでサイトの管理パネルをブロックしないでください。 あなたはそれについて知らないべきである人々に管理者の場所を開くだけです。 大きなrobots.txtは、検索エンジンによって無視できることを覚えておく価値があります。 インデックス作成を目的としていないページが多すぎる場合は、サイトからそれらを削除するか、別のディレクトリに転送し、このディレクトリの索引付けを禁止することをお勧めします。

robots.txtファイルの確認エラーの確認

ロボットのファイル検索エンジンを必ず確認してください。 チェックするためにGoogleを使うことができます Googleツール ウェブマスターのために。 あなたのrobots.txtファイルがyandexsの理解方法を知りたいならば、あなたはyandex.vebmasterサービスを使うことができます。 これにより、時間内に行われた間違いを修正することができます。 また、ページのデータページにも、robots.txtファイルと他の多くの有用な情報を作成するための推奨事項があります。

コピー品は禁止されています。

robots.txtファイルはあなたのサイトのルートディレクトリにあります。 たとえば、サイトwww.example.comでは、robots.txtファイルのアドレスがwww.example.com/robots.txtのようになります。 これは、ロボットの例外標準を満たし、それぞれがサイト上の特定のパスへのアクセスを禁止または許可する1つ以上の規則を含みます。

以下は例です 単純なファイル。 2つの規則とその解釈を含むrobots.txt。

#ルール1ユーザーエージェント:GoogleBOTの許可:/ NOGOOGOTBOT /#ルール2 user-agent:* allow:/ sitemap:http://www.example.com/sitemap.xml

解釈

  1. GoogleBotというユーザー名はカタログhttp://example.com/nogooglebot/とそのサブディレクトリをスキャンしないでください。
  2. 他のすべてのユーザーエージェントはすべてのサイトにアクセスできます(省略できます。結果はと同じになります。 全権アクセス デフォルトで提供されます)。
  3. サイトマップファイル このサイトはhttp://www.example.com/sitemap.xmlにあります。

以下はrobots.txtファイルを操作するためのいくつかのヒントです。 robots.txtファイルを作成するときに構文規則が使用されているため、robots.txtファイルの完全な構文を探ることをお勧めします。

フォーマットと場所

robots.txtファイルを作成することはほぼ中にあることができます テキストエディタ (ASCIIまたはUTF-8エンコーディングをサポートする必要があります)。 使ってはいけません テキストプロセッサー:多くの場合、それらはファイルを独自の形式で保存し、検索ロボットによって認識されていないカーリー引用符など、それらに許容できない文字を追加します。

そのようなファイルを作成およびテストするときに、robots.txtファイルの検証ツールを使用してください。 ファイルの構文を分析し、それがあなたのサイト上でどのように機能するかを調べることを可能にします。

ファイルのフォーマットと場所に関する規則

  • ファイルはrobots.txtという名前を着用する必要があります。
  • そのサイトではそのようなファイルが1つだけ存在している必要があります。
  • robots.txtファイルを配置する必要があります ルートカタログ 地点。 たとえば、サイトhttp://www.example.com/のすべてのページのスキャンを監視するには、robots.txtファイルをhttp://www.example.com/robots.txtに配置する必要があります。 彼はサブディレクトリにいるべきではありません (たとえば、 http://example.com/pages/robots.txt.)。 ルートカタログへのアクセスが困難な場合は、ホスティングプロバイダに連絡してください。 サイトのルートディレクトリにアクセスできない場合は、メタレットなどの代替ブロック方式を使用してください。
  • robots.txtファイルをアドレスに追加することができます サブドメイン (たとえば、http://など ウェブサイト。.example.com / robots.txt)または非標準ポート(たとえば、http://example.com) 8181 /robots.txt)。
  • コメントは、ラティスシンボル(#)で始まる行です。

構文

  • robots.txtファイルでなければなりません テキストファイル エンコードASCIIまたはUTF-8。 他の文字を使用することはできません。
  • robots.txtファイルは1つ以上で構成されています 規則.
  • ルール いくつか含まれている必要があります 指令 (命令)、それぞれが別の行に指定されるべきです。
  • ルールには次の情報が含まれています。
    • これに ユーザーエージェント ルールを参照します。
    • アクセスがあります.
    • このエージェントからどのディレクトリまたはファイルに アクセスなし.
  • ルールは上から下に処理されます。 ユーザエージェントは、それに対して1つの適切な規則だけに従うことができ、それは最初に処理されます。
  • デフォルトでは、想定されていますページまたはディレクトリへのアクセスが許可ルールによってブロックされていない場合、ユーザーエージェントはそれらを処理できます。
  • 規則 登録に敏感。 したがって、disallow:/file.aspルールは、URL http://www.example.com/file.aspに適用されますが、http://www.example.com/file.aspには適用されません。

robots.txtファイルで使用されるディレクティブ

  • ユーザーエージェント: 必ず使用してください.1つのルールでは、1つ以上のそのような規則がある可能性があります。 決定する ロボット ルールが属する検索エンジン。 この行は任意の規則の最初のものです。 それらのほとんどは、インターネットロボットデータベースまたはGoogle検索ロボットリストに記載されています。 ワイルドカードはサポートされています*プレフィックスまたはサフィックスパスまたはパス全体を指定します。 以下の例に示されているように、そのような符号(*)を使用して、すべての検索ロボットをブロックする( adsbotロボットに加えて別々に指定する必要があります。 Googleのロボットリストを詳しく知り合いにくいことをお勧めします。 例: #例1:GoogleBot User-Agent:/#例2:ブロックGoogleBotとAdsbot User-Agent:adsbot-google:/#例3:Adsbot Crawlers User-Agentをブロックする:*未許可:/
  • 許可されません: 。 上記のユーザーエージェントをスキャンできないルートドメイン内のディレクトリまたはページを指定します。 このページをブラウザのアドレスバーと同様に、フルパスを指定する必要がある場合。 これがディレクトリの場合、そのパスはスラッシュ(/)で終わらなければなりません。 ワイルドカードはサポートされています*プレフィックスまたはサフィックスパスまたはパス全体を指定します。
  • 許可: 各ルールでは、少なくとも1つの許可されていないディレクティブ:または許可が必要です。。 上記のユーザーエージェントをスキャンできないルートドメイン内のディレクトリまたはページを指定します。 許可されていないルールをキャンセルし、閉じられたディレクトリをスキャンしているサブディレクトリまたはページのスキャンを許可します。 このページをブラウザのアドレスバーと同様に、フルパスを指定する必要がある場合。 これがディレクトリの場合、そのパスはスラッシュ(/)で終わらなければなりません。 ワイルドカードはサポートされています*プレフィックスまたはサフィックスパスまたはパス全体を指定します。
  • サイトマップ: 任意選択で、そのような指令はやや完全ではないかもしれない。 このサイトで使用されているサイトマップファイルの場所を指定します。 URLは完了している必要があります。 Googleは続行されず、HTTPとHTTPSのプレフィックスを使用してURLのバリアントをチェックしたり、WWWを使用したりすることはできません。 サイトマップファイルはGoogle、どのコンテンツを報告します 必要な それをコンテンツと区別する方法をスキャンします できる または それは不可能です スキャン。 サイトマップファイルに関する追加情報をお知らせください。 例: サイトマップ:https://example.com/sitemap.xmlサイトマップ:http://www.example.com/sitemap.xml.

わからない キーワード 無視する。

もう1つの例

robots.txtファイルは1つ以上のルールセットで構成されています。 各セットはUser-Agent Stringで始まります。これは、セット内のルールを下位のロボットを定義します。 これが2つの規則のファイルの例です。 それらは内蔵のコメントによって説明されています:

#expemple.com/directory1 / ...、example.com/directory1 / ...、example.com/directory2 / ...#...#...#...#...#...#...#...#...#...#...#...#... / ...他のすべてのディレクトリへのアクセスはデフォルトで許可されています。 user-agent:googlebot:/ directory1 / disallow:/ directory2 / allow:/ directory2 / subdirectory1 /#別の検索エンジンへの全サイトへのアクセスをブロックします。 ユーザーエージェント:別のクライララーが許可されていません:/

完全な構文ファイルrobots.txt.

この記事には全文が記載されています。 robots.txtファイルの構文のように、それをよく理解しておくことをお勧めします。

便利な規則

robots.txtファイルの一般的な規則は次のとおりです。

ルール
サイト全体をスキャンすることの禁止。 場合によっては、走査されていなくても、サイトのURLがインデックス内に存在している可能性があることに留意されたい。 この規則は、別途指定する必要があるADSBOTロボットには適用されません。 ユーザーエージェント:*許可:/
カタログスキャンとそのすべての内容を禁止するにはカタログ名の名前の後に確認してください。 機密情報を保護するためにrobots.txtファイルを使用しないでください。 これらの目的のために、認証を適用する必要があります。 Robots.txtファイルによって禁止されているURLをインデックス付けすることができ、robots.txtファイルの内容は任意のユーザーを表示でき、したがって機密情報を持つファイルの場所を見つけることができます。 ユーザーエージェント:*許可:/ calendar / disallow:/ junk /
1つの検索ロボットのみのスキャン解像度 User-Agent:GoogleBot-News allow:/ user-agent:* deallow:/
1つを除くすべての検索ロボットのスキャン解像度 User-Agent:不要な非公開Botを許可:/ user-agent:* allow:/

別のページのスキャンを防ぐためにSlashの後にこのページを指定してください。

disallow:/private_file.html。

Googleのロボット写真から特定のイメージを隠すには

ユーザーエージェント:Googlebot-Imageの許可:/images/dogs.jpg

Googleロボットの写真からあなたのサイトからすべての画像を隠すには

User-Agent:GoogleBOT-Image Image:/

特定の種類のすべてのファイルのスキャンを防ぐために (この場合はGIF)

User-Agent:GoogleBotは許可されません:/*.gifd

特定のページページをブロックするが、AdSense ADSを表示するにはMediaPartners-Googleを除き、すべてのロボットの許可ルールを使用してください。 その結果、このロボットは検索結果から離れたページにアクセスして、1つまたは別のユーザーを表示するための広告を選択できます。

ユーザーエージェント:* disallow:/ user-agent:MediaPartners - Google allow:/
特定の文字で終わるURLを指定するには $シンボルを使用してください。 たとえば、in-lineXLSで終わるURLの場合は、次のコードを使用してください。 User-Agent:GoogleBotは/*.xlsed $を許可しません

この記事は役に立ちましたか?

この記事を改善するにはどうすればよいですか。

トピックを続ける:
インターネット

Windowsブートディスクを作成する最も一般的な方法の1つは、この記事で説明されている方法です。 そしてより正確に創造の中で、それは遠い世界で私たちを助けるでしょう...