空のロボットTXTファイル。 Google検索ロボット。 ユーザーエージェントはどういう意味ですか
リリースしました 新しい本 インテリアマーケティング ソーシャルネットワーク:加入者の頭の中に座り、彼らのブランドと恋に落ちる方法。」
Hostディレクティブは、検索エンジンをメインワンであるもの(WWWまたはなし)について検索エンジンに伝えるコマンドまたはルールです。 ファイルにはホスト指令があり、yandex専用で意図されています。
検索エンジンがいくつかのサイトページまたはそのミラーに索引付けされていないことを確認する必要があります。 たとえば、リソースは1つのサーバー上にありますが、インターネット上で同じです ドメイン名これは、検索結果の結果を索引付けして表示しています。
ロボットを検索YANDEXバイパスサイトページを検索し、収集した情報を自分のスケジュール上のデータベースに追加します。 インデックス作成のプロセスでは、それらは自分自身を解く、どのページを処理する必要があります。 たとえば、ロボットは、様々なフォーラム、掲示板、カタログなどの様々なリソースをバイパスします。 主なサイトやミラーを定義することもできます。 1つ目は索引付けの対象となります。 このプロセスでは、エラーが発生します。 これには、robots.txtファイルへのホストディレクティブを使用することによって影響を与えることができます。
なぜrobots.txtファイルが必要なのですか
ロボットは通常のテキストファイルです。 ノートブックを通して作成することができますが、それを処理することをお勧めします(情報を開いて編集) テキストエディタ メモ帳++。 必需品 このファイル Webリソースを最適化するときは、いくつかの要因によって引き起こされます。
- robots.txtファイルが見つからない場合、そのサイトは検索エンジンのために絶えず過負荷になります。
- 追加のページまたはミラーサイトに索引付けされる危険性があります。
索引付けははるかに遅くなり、誤っています 設定設定 GoogleとYandexの検索結果の結果から消えることができます。
robots.txtファイルにホストディレクティブを配置する方法
ロボットファイルには、ホスト指令が含まれています - メインサイトとそのミラーがどこにあるかについての検索エンジンの指示が含まれています。
ディレクティブには次のシフトフォームがあります。ホスト:[オプションのスペース] [VALUE] [オプションのスペース]。 ディレクティブの作成規則には、次の段落に準拠する必要があります。
- 暗号化をサポートするためのHTTPSプロトコルのホストディレクティブ内のホスト。 ミラーへのアクセスが保護されたチャネルによってのみ実行される場合に使用する必要があります。
- IPアドレスではないドメイン名とWebリソースポート番号。
正しく描かれた指令は、メインミラーがある検索エンジンのためにWebマスターが指定されます。 残りは二次的な検討され、したがって、それらは索引付けされません。 規則として、鏡は略語wwwの有無によって区別することができる。 ユーザーがホストを介してメインWebリソースミラーを指定しない場合、YANDEX検索エンジンは適切な通知をWebマスターに送信します。 また、ロボットファイルがホストディレクティブによって設定されている場合、通知は追放されます。
検索エンジンを通じてサイトのメインミラーが可能である場所を決定します。 リソースアドレスを検索バーにドライブして、問題の結果を調べて、そのドメインの前にあるサイトを調べる必要があります。 住所欄 それはwwwの価値がある、主な領域です。
リソースが発行ページに表示されない場合、ユーザはYandex.veBMasterの適切なセクションに目を向けることによって個別にメインミラーに割り当てることができます。 Webマスタがサイトのドメイン名にwwwが含まれていないことが必要な場合は、ホストに指定しないでください。
多くのウェブマスターは、それらのサイトのための追加のミラーとしてキリルドドメインを使用しています。 しかしながら、ホスト指令では、キリルリックはサポートされていません。 これを行うには、ラテン語の単語を重複しています。これは、アドレス文字列からサイトのアドレスをコピーすることで簡単に認識できる状態で、それらが簡単に認識できます。
ロボットファイルのホスト
このディレクティブの主な目的は、重複ページに関する問題を解決することです。 Webリソースの作業がロシア語の視聴者に焦点を当てている場合は、ホストを使用する必要があります。
すべての検索エンジンがホスト指令の作業をサポートしているわけではありません。 この機能はyandexでのみ利用可能です。 同時に、ここでもドメインがメインミラーとして割り当てられるという保証はありませんが、YANDEX自体の保証によると、優先順位は常にホストで指定されている名前の後ろに残ります。
検索エンジンがrobots.txtファイルを処理するときに情報を正しく読み取るためには、ユーザーエージェントの単語の後に開始してホスト指令を適切なグループに規定する必要があります。 ただし、指令が交差点に応じて登録されているかどうかにかかわらず、ロボットはホストを使用できます。
こんにちは、ブログの読者「World Webmaster」の読者!
ファイル robots.txt. - これは非常に重要なファイルで、あなたのサイトのインデックスの質、したがってその検索促進のために直接影響を与えます。
そのため、誤ってインターネットプロジェクトの重要な文書をインデックスに禁止しないように、ロボットを正しく作成できるようにする必要があります。
robots.txtファイルを作成する方法、どの構文を同時に使用する必要があります。同時に、索引へのドキュメントを許可および禁止する方法を説明し、この記事で説明します。
robots.txtファイルについて
まず、このファイルが何であるかを詳しく説明しましょう。
ファイルロボット - これは検索エンジンを表示し、どのページとサイト文書をインデックスに追加して追加できないファイルです。最初に検索エンジンがサイト全体を索引付けしようとするという事実のために必要であり、これは必ずしも正しいとは限りません。 たとえば、エンジン(WordPress、Joomlaなど)にサイトを作成した場合、管理パネルの作業を整理するフォルダがあります。 この場合、これらのフォルダ内の情報をインデックス付けできないことは明らかであり、robots.txtファイルが使用され、検索エンジンが制限されます。
ロボットファイルでも、サイトのマップのアドレスが表示されます(検索エンジンの索引付けが改善されます)サイトのメインドメイン(メインミラー)。
鏡 - これはサイトの絶対的なコピー、すなわち 1つのサイトがあるとき、彼らはそれらのうちの1つがメインドメインであり、もう1つはその鏡です。
したがって、ファイルにはかなり多くの機能があり、重要です。
robots.txtファイル構文
ロボットファイルには、索引付けされている特定の検索エンジンと言う規則のブロックが含まれています。 ルールブロックは1つ(すべての検索エンジンのための)であり得るが、それらはまた別々にいくつかの特定の検索エンジンのために幾分になることができる。
そのような各ユニットは、どの検索システムがこれらの規則が適用可能かを示す「User-Agent」演算子で始まります。
ユーザー-エージェント:A.
(ロボット「A」の規則)
ユーザー-エージェント:b
(ロボット「B」の規則)
上記の例では、 "user-agent"演算子がパラメータを持っていることが示されています - ロボットの名前 検索エンジンルールが適用されるか。 それらの主な私は以下を示します:
"user-agent"の後に他の演算子を参照してください。 その説明は次のとおりです。
すべての演算子の場合、1つの構文が有効です。 それら。 オペレータは次のように使用される必要があります。
operator1:Parameter1
operator2:Parameter2。
…
したがって、最初にオペレータの名前を書き込み、その後コロンを置き、スペースを介してパラメータを示します。 この演算子。 その後、新しい行から、同じ方法でオペレータ2について説明します。
重要!!! 空の行は、この検索エンジンのルールブロックが完了していることを意味しますので、オペレータを空の文字列で分割しないでください。
Robots.txtファイルの例
robots.txtファイルの簡単な例を検討して、その構文の機能をよりよく理解してください。
ユーザーエージェント:Yandex
許可:/ folder1 /
許可されていません:/file1.html。
ホスト:www.site.ru.
ユーザーエージェント: *
許可されていません:/document.php。
許可:/ folderXxx /
許可されていません:/ foldryyy / folderzzz
禁止:/フィード/
サイトマップ:http://www.site.ru/sitemap.xml。
これで説明されている例を分析します。
ファイルは3つのブロックで構成されています。 ")。 Yandex私たちは、フォルダ "folder1"とそのすべての内容を索引付けしますが、ホスティングのルートディレクトリにあるFile1.htmlドキュメントの索引を禁止しました。 また、ヤンデックスの主な領域も示した。 2番目のブロックはすべての検索エンジン用です。 そこで、ドキュメント「document.php」、およびフォルダ「FolderXXX」、「FOLDRYYY / FOLDERZZZ」と「フィード」を禁止しました。
コマンドの2番目のコマンドのコマンドのコマンドでは、フォルダ全体 "FOLDRYYY"ではなく、このフォルダ内のフォルダだけが "folderzzz"です。 それら。 私たちはFolderzzzのフルパスを指摘しました。 そのため、サイトのルートディレクトリにない文書を禁止している場合は、必ず実行する必要がありますが、他のフォルダ内のどこかに。
作成は2分以内にかかります。
作成されたROBOSTSファイルは、YANDEX WebMastersパネルのパフォーマンスを確認できます。 ファイル内でエラーが突然検出された場合は、YANDEXが表示されます。
まだ誰も持っていない場合は、必ずサイト用のrobots.txtファイルを作成してください。 これにより、検索エンジンのサイトの開発に役立ちます。 Meta Tagメソッドおよび.htaccessについての別の記事を読むこともできます。
読書の時間: 7分
監査または宣伝で当社にやってくるほとんどすべてのプロジェクトには、誤ったロボットが誤りがあり、しばしばまったくありません。 これは、ファイルを作成するときに、すべての人がそのルールではなく、ファンタジーによって導かれているために発生します。 検索ロボットが彼と効果的に機能するように、このファイルを正しく作成する方法を見てみましょう。
なぜあなたは構成robots.txtを設定する必要がありますか?
robots.txt. - これは、サイトのルートディレクトリにあるファイルであり、そこでアクセスできるサイトのパーティションとページのパーティションとページに表示されます。
robots.txtの設定は、検索エンジンの発行に重要な部分であり、正しく設定されたロボットもサイトのパフォーマンスを向上させます。 ROBOTS.TXTは検索エンジンをスキャンしてサイトをスキャンして索引付けしませんが、このファイルがない場合は、2つの問題がある可能性があります。
検索ロボットは、渇望予算を「損傷する」サイト全体を読みます。 渇望予算は、検索ロボットが一定期間中に回避できるページ数です。
ロボットファイルがないと、検索エンジンはチェルノフへのアクセスを受け取ります。 隠しページCMSの管理に使用された数百ページまで。 彼はそれらを索引付けし、そしてそれが訪問者のための直接のコンテンツが提示されている目的のページに関して、「終わる」ことを目的としている。
サイトへの入り口のインデックス、その他の管理者リソースはインデックスに到達することができるので、攻撃者はそれらを簡単に追跡してそれらを保持することができるでしょう。 dDOS攻撃 またはそのサイトをハックしてください。
検索ロボットとして、robots.txtとそれがなければサイトを見る:
robots.txt構文
構文を逆アセンブルしてrobots.txtを設定する前に、「完璧なファイル」がどのように見えるかを見てみましょう。
しかし、それはすぐにそれを適用する必要はありません。 サイトごとに、ほとんどの場合、ほとんどの場合、すべてのサイト構造が異なるため、異なるCMSがあります。 私たちはすべての指示を順番に分析します。
ユーザーエージェント
User-Agent - ファイルに記載されている命令に従わない検索ロボットを決定します。 すぐにすべてに連絡する必要がある場合は、アイコンが使用されます*。 特定の検索ロボットを参照することもできます。 たとえば、yandexとGoogle:
このディレクティブを使用すると、ロボットはどのファイルとフォルダをインデックスに禁止するかを理解しています。 サイト全体を索引付けに開く必要がある場合は、許可値を空のままにしてください。 変更後にサイトのコンテンツ全体を非表示にするには、 "/"を入力します。
特定のフォルダ、ファイル、またはファイル拡張子へのアクセスを禁止できます。 この例では、すべての検索ロボットにアピールし、Bitrix、Search Folder、PDFの拡張へのアクセスを秘密にします。
許可します。
強制的に開き、サイトのページとセクションの索引付けになります。 上記の例では、検索ロボットGoogleに訴え、Bitrix、Search Folder、PDFの拡張へのアクセスを閉じます。 しかし、Bitrixフォルダでは、索引付けのために強制的に3つのフォルダを開きます。コンポーネント、JS、Tools。
ホスト - サイトミラー
サイトミラーはメインサイトの複製です。 ミラーはさまざまな目的に使用されます。アドレス、セキュリティ、サーバーへの負荷の軽減などを変更します。
ホストは最も重要な規則の1つです。 この規則が綴られている場合、ロボットはどのサイトミラーが索引付けを考慮する価値があるかを理解します。 このディレクティブはロボットYANDEXとMail.ruに必要です。 他のロボットこの規則は無視されます。 ホストは一度だけ処方されています!
"https://"および "http://"プロトコルの場合、robots.txtファイルの構文は異なります。
サイトマップ - サイトマップ
サイトマップは、新しいページについて検索エンジンを知らせるために使用されるサイトナビゲーションフォームです。 サイトマップディレクティブを使用して、私たちは地図が配置されているロボットを「激しく」表示しています。
robots.txtのシンボル
ファイルで使用されている記号: "/、*、$、#"。
![](https://i2.wp.com/obrazstroy.ru/upload/iblock/f08/f0883d4a7c6c06e5b3989c7a83a4f644.jpg)
robots.txtの設定後のパフォーマンスの確認
あなたのウェブサイト上にrobots.txtを投稿した後、あなたはyandexとGoogleウェブマスターでそれを追加してチェックする必要があります。
Yandexチェック:
- リンクhttps://webmaster.yandex.ru/tools/robotstxt /に従ってください。
- 選択:索引設定 - robots.txt分析。
Googleチェック:
- link https://support.google.com/webmasters/answer/6062598に従ってください。
- Select:Scanning - robots.txtファイル検証ツール。
このようにして、必要に応じてrobots.txtをエラーに確認し、必要に応じて必要な設定を行うことができます。
- ファイルの内容は大文字で書かなければなりません。
- ディレクティブを許可しない場合は、ファイルまたはディレクトリを1つだけ指定する必要があります。
- 文字列 "user-agent"は空にしないでください。
- User-Agentは常に不許可の前に行くべきです。
- ディレクトリの索引付けを禁止する必要がある場合は、スラッシュを規定することを忘れないでください。
- ファイルをサーバーにダウンロードする前に、構文エラーとスペルミスのエラーの存在について確認する必要があります。
私たちは新しい本「ソーシャルネットワークに関するコンテンツマーケティング」をリリースしました:加入者の頭の中に座り、彼らのブランドに恋をする方法」。
robots.txtは、ポータルページに索引付けするのに役立つ検索ロボットの情報を含むテキストファイルです。
私たちのチャンネルでのより多くのビデオ - セマンティカでインターネットマーケティングを学ぶ
あなたが島の宝物に行ったと想像してください。 地図があります。 その経路はそこに示されています。「大きなパンチに上がる。 彼から東へ10歩10歩踏み出し、それから崖まで歩いてください。 右に回転し、洞窟を見つけてください。」
これは指示です。 彼らに続いて、あなたはそのルートに沿って行き、宝物を見つけます。 Search Barは、Webサイトまたはページのインデックスを実行し始めると機能しています。 彼はrobots.txtファイルを見つけます。 どのページへのページを読み取り、そうではありません。 そして、これらのチームに従って、彼はポータルを迂回し、そのページをインデックスに追加します。
必要なrobots.txtです
サイトがホスティングおよび登録されたDNSにロードされた後、それらはサイトとインデックスページを歩き始めます。 彼らはあなたが技術的なファイルがあるかどうかにかかわらず彼らの仕事をします。 ロボットは、その中にあるパラメータを考慮する必要があるウェブサイトを追跡するときに検索エンジンを示します。
robots.txtファイルの欠如は、サイト取引の速度とインデックス内のゴミの存在に関する問題につながる可能性があります。 ファイルの誤った設定は、リソースの重要な部分のインデックスと不要なページの発行中の存在からの例外に含まれています。
その結果、これはすべて、プロモーションに関する問題につながります。
このファイルに含まれている指示は、あなたのサイト上のボットの動作にどのように影響するかをより詳細に検討してください。
robots.txtの作り方
起動するには、このファイルがあるかどうかを確認してください。
ブラウザのアドレスバー内のサイトのアドレスを入力し、スラッシュファイル名(https://www.xxxxx.ru/robots.txt)を入力します。
ファイルが存在する場合、そのパラメータのリストが画面に表示されます。
ファイルがない場合
- ファイルは、通常のテキストエディタの種類メモ帳またはNotepad ++に作成されます。
- 名前ロボット、拡張子を設定する必要があります。txt。 採用された設計基準を考慮に入れるデータを作成してください。
- YANDEX Webマスタータイプのサービスを使用してエラーを確認できます。「ツール」セクションの「robots.txt Analysis」項目を選択してプロンプトに従ってください。
- ファイルが準備ができたら、それをサイトのルートディレクトリに記入してください。
設定規則
検索エンジンは1つのロボットではありません。 いくつかのボットインデックスのみテキストコンテンツ、いくつかのグラフィック。 はい、そして検索エンジン自体で、クローラの作業のスキームは異なる可能性があります。 ファイルを作成するときは考慮されなければなりません。
たとえば、ルールの一部を無視できます。たとえば、Googlebotは、メインと見なされる場所に関する情報には応答しません。 しかし一般的に、彼らはファイルによって知覚し、そして導かれています。
構文ファイル
ドキュメントパラメータ:ロボット名(BOT) "user-agent"、ディレクティブ:解像度と禁止禁止を許可します。
現在、ヤンデックスとGoogleの2つの重要な検索エンジンがあります。サイトを作成して両方の要件を考慮に入れるときに重要です。
レコードを作成するための形式は次のとおりです。必須のギャップと空の文字列に注意してください。
ユーザーエージェントディレクティブ
ロボットはUser-Agentから始まるレコードを探していますが、検索ロボットの名前に表示されている必要があります。 指定されていない場合は、ボットのアクセスは無制限です。
無効にしてディレクティブを許可します
robots.txtで索引付けを禁止する必要がある場合は、禁止されません。 これにより、ボトルアクセスをサイトまたはいくつかのセクションに制限します。
Robots.Tchtが禁止されていないディレクティブを含まない場合は、サイト全体の索引付けが許可されていると考えられています。 通常、各ボットの後には禁止が規定されています。
アイコン#の後にリストされているすべての情報はコメントであり、マシンによって読み取られません。
許可はアクセスを許可するために使用されます。
STARシンボルは、all:user-agent:*に適用されるものの表示として機能します。
逆に、このオプションは、すべての索引付けの完全な禁止を意味します。
特定のディレクトリフォルダの内容全体の観点から禁止
1つのファイルをブロックするには絶対パスを指定する必要があります
指令サイトマップ、ホスト
YANDEXの場合、どのミラーを指定したいメインのものを指定するのは慣習です。 そして、Googleは、覚えているように、彼を無視します。 ミラーがない場合は、WWWまたはなしでWebサイトの名前を書くのを修正する方法を修正してください。
クリーンパラメータディレクティブ
WebサイトのURLにコンテンツに影響を与えない可変パラメータが含まれている場合は適用できます(ユーザーID、参照元)。
たとえば、ページのアドレスには「Ref」はトラフィックの原因を定義します。 訪問者がサイトにやって来た場所を示します。 すべてのユーザーにとって、ページは同じになります。
ロボットをそれに指定することができ、繰り返し情報をロードしません。 これによりサーバーの負荷が軽減されます。
クロール遅延ディレクティブ
ボットが分析のためにページをダウンロードするかを決定することができます。 このコマンドは、サーバーがオーバーロードされたときに適用され、バイパスプロセスが加速されなければならないことを示します。
robots.txtエラー
- ファイルはルートディレクトリにありません。 より深いロボットは彼を探すことはなく、考慮に入れられません。
- タイトルの文字は小さいラテン語であるべきです。
タイトルのエラーは、最後に文字Sを見逃してロボットを書き込むことがあります。 - robots.txtファイルにキリル文字を使用することはできません。 ロシア語でドメインを指定する必要がある場合は、特殊PunyCodeエンコードの形式を使用してください。
- これは、ドメイン名を一連のASCII文字に変換する方法です。 これを行うには、特別なコンバータを使用できます。
次のようにエンコードのようになります。
site.rf \u003d xn - 80swg.xn - P1Ai.
詳細については、閉じる ロボットtxt。 そして検索エンジンの要件に応じた設定に従って、GoogleおよびYANDEXが参照文書にあります。 さまざまなCMSの場合、それら自身の機能があるかもしれません、それは考慮されるべきです。
robots.txtファイルはあなたのサイトのルートディレクトリにあります。 たとえば、サイトwww.example.comでは、robots.txtファイルのアドレスがwww.example.com/robots.txtのようになります。 これは、ロボットの例外標準を満たし、それぞれがサイト上の特定のパスへのアクセスを禁止または許可する1つ以上の規則を含みます。
以下は例です 単純なファイル。 2つの規則とその解釈を含むrobots.txt。
#ルール1ユーザーエージェント:GoogleBOTの許可:/ NOGOOGOTBOT /#ルール2 user-agent:* allow:/ sitemap:http://www.example.com/sitemap.xml
解釈
- GoogleBotというユーザー名はカタログhttp://example.com/nogooglebot/とそのサブディレクトリをスキャンしないでください。
- 他のすべてのユーザーエージェントはすべてのサイトにアクセスできます(省略できます。結果はと同じになります。 全権アクセス デフォルトで提供されます)。
- サイトマップファイル このサイトはhttp://www.example.com/sitemap.xmlにあります。
以下はrobots.txtファイルを操作するためのいくつかのヒントです。 robots.txtファイルを作成するときに構文規則が使用されているため、robots.txtファイルの完全な構文を探ることをお勧めします.txtファイルは非明白で理解する必要があります。
フォーマットと場所
robots.txtファイルをほぼすべてのテキストエディタで作成できます(ASCIIまたはUTF-8エンコーディングをサポートする必要があります)。 使ってはいけません テキストプロセッサー:多くの場合、それらはファイルを独自の形式で保存し、検索ロボットによって認識されていないカーリー引用符など、それらに許容できない文字を追加します。
そのようなファイルを作成およびテストするときに、robots.txtファイルの検証ツールを使用してください。 ファイルの構文を分析し、それがあなたのサイト上でどのように機能するかを調べることを可能にします。
ファイルのフォーマットと場所に関する規則
- ファイルはrobots.txtという名前を着用する必要があります。
- そのサイトではそのようなファイルが1つだけ存在している必要があります。
- robots.txtファイルを配置する必要があります ルートカタログ 地点。 たとえば、サイトhttp://www.example.com/のすべてのページのスキャンを監視するには、robots.txtファイルをhttp://www.example.com/robots.txtに配置する必要があります。 彼はサブディレクトリにいるべきではありません (たとえば、 http://example.com/pages/robots.txt.)。 ルートカタログへのアクセスが困難な場合は、ホスティングプロバイダに連絡してください。 サイトのルートディレクトリにアクセスできない場合は、メタレットなどの代替ブロック方式を使用してください。
- robots.txtファイルをアドレスに追加することができます サブドメイン (たとえば、http://など ウェブサイト。.example.com / robots.txt)または非標準ポート(たとえば、http://example.com) 8181 /robots.txt)。
- コメントは、ラティスシンボル(#)で始まる行です。
構文
- robots.txtファイルでなければなりません テキストファイル エンコードASCIIまたはUTF-8。 他の文字を使用することはできません。
- robots.txtファイルは1つ以上で構成されています 規則.
- ルール いくつか含まれている必要があります 指令 (命令)、それぞれが別の行に指定されるべきです。
- ルールには次の情報が含まれています。
- これに ユーザーエージェント ルールを参照します。
- アクセスがあります.
- このエージェントからどのディレクトリまたはファイルに アクセスなし.
- ルールは上から下に処理されます。 ユーザエージェントは、それに対して1つの適切な規則だけに従うことができ、それは最初に処理されます。
- デフォルトでは、想定されていますページまたはディレクトリへのアクセスが許可ルールによってブロックされていない場合、ユーザーエージェントはそれらを処理できます。
- 規則 登録に敏感。 したがって、disallow:/file.aspルールは、URL http://www.example.com/file.aspに適用されますが、http://www.example.com/file.aspには適用されません。
robots.txtファイルで使用されるディレクティブ
- ユーザーエージェント: 必ず使用してください.1つのルールでは、1つ以上のそのような規則がある可能性があります。 決定する ロボット ルールが属する検索エンジン。 この行は任意の規則の最初のものです。 それらのほとんどは、インターネットロボットデータベースまたはGoogle検索ロボットリストに記載されています。 ワイルドカードはサポートされています*プレフィックスまたはサフィックスパスまたはパス全体を指定します。 以下の例に示されているように、そのような符号(*)を使用して、すべての検索ロボットをブロックする( adsbotロボットに加えて別々に指定する必要があります。 Googleのロボットリストを詳しく知り合いにくいことをお勧めします。 例: #例1:GoogleBot User-Agent:/#例2:ブロックGoogleBotとAdsbot User-Agent:adsbot-google:/#例3:Adsbot Crawlers User-Agentをブロックする:*未許可:/
- 許可されません: 。 上記のユーザーエージェントをスキャンできないルートドメイン内のディレクトリまたはページを指定します。 このページをブラウザのアドレスバーと同様に、フルパスを指定する必要がある場合。 これがディレクトリの場合、そのパスはスラッシュ(/)で終わらなければなりません。 ワイルドカードはサポートされています*プレフィックスまたはサフィックスパスまたはパス全体を指定します。
- 許可: 各ルールでは、少なくとも1つの許可されていないディレクティブ:または許可が必要です。。 上記のユーザーエージェントをスキャンできないルートドメイン内のディレクトリまたはページを指定します。 許可されていないルールをキャンセルし、閉じられたディレクトリをスキャンしているサブディレクトリまたはページのスキャンを許可します。 このページをブラウザのアドレスバーと同様に、フルパスを指定する必要がある場合。 これがディレクトリの場合、そのパスはスラッシュ(/)で終わらなければなりません。 ワイルドカードはサポートされています*プレフィックスまたはサフィックスパスまたはパス全体を指定します。
- サイトマップ: 任意選択で、そのような指令はやや完全ではないかもしれない。 このサイトで使用されているサイトマップファイルの場所を指定します。 URLは完了している必要があります。 Googleは続行されず、HTTPとHTTPSのプレフィックスを使用してURLのバリアントをチェックしたり、WWWを使用したりすることはできません。 サイトマップファイルはGoogle、どのコンテンツを報告します 必要な それをコンテンツと区別する方法をスキャンします できる または それは不可能です スキャン。 サイトマップファイルに関する追加情報をお知らせください。 例: サイトマップ:https://example.com/sitemap.xmlサイトマップ:http://www.example.com/sitemap.xml.
わからない キーワード 無視する。
もう1つの例
robots.txtファイルは1つ以上のルールセットで構成されています。 各セットはUser-Agent Stringで始まります。これは、セット内のルールを下位のロボットを定義します。 これが2つの規則のファイルの例です。 それらは内蔵のコメントによって説明されています:
#expemple.com/directory1 / ...、example.com/directory1 / ...、example.com/directory2 / ...#...#...#...#...#...#...#...#...#...#...#...#... / ...他のすべてのディレクトリへのアクセスはデフォルトで許可されています。 user-agent:googlebot:/ directory1 / disallow:/ directory2 / allow:/ directory2 / subdirectory1 /#別の検索エンジンへの全サイトへのアクセスをブロックします。 ユーザーエージェント:別のクライララーが許可されていません:/
完全な構文ファイルrobots.txt.
この記事には全文が記載されています。 robots.txtファイルの構文のように、それをよく理解しておくことをお勧めします。
便利な規則
robots.txtファイルの一般的な規則は次のとおりです。
ルール | 例 |
---|---|
サイト全体をスキャンすることの禁止。 場合によっては、走査されていなくても、サイトのURLがインデックス内に存在している可能性があることに留意されたい。 この規則は、別途指定する必要があるADSBOTロボットには適用されません。 | ユーザーエージェント:*許可:/ |
カタログスキャンとそのすべての内容を禁止するにはカタログ名の名前の後に確認してください。 機密情報を保護するためにrobots.txtファイルを使用しないでください。 これらの目的のために、認証を適用する必要があります。 Robots.txtファイルによって禁止されているURLをインデックス付けすることができ、robots.txtファイルの内容は任意のユーザーを表示でき、したがって機密情報を持つファイルの場所を見つけることができます。 | ユーザーエージェント:*許可:/ calendar / disallow:/ junk / |
1つの検索ロボットのみのスキャン解像度 | User-Agent:GoogleBot-News allow:/ user-agent:* deallow:/ |
1つを除くすべての検索ロボットのスキャン解像度 | User-Agent:不要な非公開Botを許可:/ user-agent:* allow:/ |
別のページのスキャンを防ぐためにSlashの後にこのページを指定してください。 |
disallow:/private_file.html。 |
Googleのロボット写真から特定のイメージを隠すには |
ユーザーエージェント:Googlebot-Imageの許可:/images/dogs.jpg |
Googleロボットの写真からあなたのサイトからすべての画像を隠すには |
User-Agent:GoogleBOT-Image Image:/ |
特定の種類のすべてのファイルのスキャンを防ぐために (この場合はGIF) |
User-Agent:GoogleBotは許可されません:/*.gifd |
特定のページページをブロックするが、AdSense ADSを表示するにはMediaPartners-Googleを除き、すべてのロボットの許可ルールを使用してください。 その結果、このロボットは検索結果から離れたページにアクセスして、1つまたは別のユーザーを表示するための広告を選択できます。 |
ユーザーエージェント:* disallow:/ user-agent:MediaPartners - Google allow:/ |
特定の文字で終わるURLを指定するには $シンボルを使用してください。 たとえば、in-lineXLSで終わるURLの場合は、次のコードを使用してください。 | User-Agent:GoogleBotは/*.xlsed $を許可しません |
この記事は役に立ちましたか?
この記事を改善するにはどうすればよいですか。