サーチエンジンにインデックスさせたくない場合に、robots.txt を使ってインデックスさせないようにすることができます。たとえば、何かの謝罪のページや、会員向けページとか、いろいろ。その robots.txt でインデックスさせない設定の Disallow: と Noindex: が違う意味を持つようです。

robot.txtのNoindexは、クローラをアクセスを妨げるものではありません。
アクセスは拒否せず、インデックスだけを拒否します。
「中身を見るけれども、内緒にしておく」ということです。

アクセスして、リンクがあればリンクをたどりリンク先へPageRankを渡します。
※ただし、リンクにnofollow属性が付いていたり、meta noifollowタグが記述してあれば、リンク先をたどらないので、PageRankは渡されません。

すなわち、meta noindexタグと同じ振る舞いをします。

suzukikenichi.com : robots.txtのNoindex(Disallowではない!)を使ったPageRankスカルプティング

簡単にまとめると

Disallow:

  • クローラのアクセス自体を拒否して、インデックスを防止
  • クローラがアクセスしないので、次のページへページランクを渡せない

Noindex:

  • クローラのアクセスは許すけど、インデックスはさせない
  • インデックスしないけど、クローラはアクセスするのでページランクは渡せる
  • ただし、サポートしているのは Google だけ

Google のウェブマスター/サイト所有者 ヘルプ を見てみると、たしかに、小さく書かれていました。でも、この文章から、上記の動作になることはさっぱりわかりませんでした。。

ページのコンテンツが他のサイトからリンクされていても、Google のウェブ インデックスに一切登録されないようにするには、noindex メタ タグを使用します。Googlebot がページを取得するとき、noindex メタ タグを認識してウェブ インデックスにそのページが表示されないようにします。また、Google のウェブ インデックスでは、robots.txt ファイルに「noindex」を記述して、クロール対象外の URL リンクへの参照を Google ウェブ検索結果の表示から外すこともできます。

http://www.google.com/support/webmasters/bin/answer.py?answer=35303&query=Noindex&topic=&type=