جان مولر (مدیر تحلیل وبمسترها در گوگل) به تازگی توصیه هایی را در مورد نحوه جلوگیری از ایندکس شدن فایل های robots.txt و sitemap در نتایج جستجو ارائه داده است.
این توصیه با یک توییت از Gary Illyes انجام شد، که او به طور تصادفی به این نکته اشاره کرد که فایل robots.txt هم می تواند از لحاظ فنی مانند سایر URL ها اندیکس شود. در حالی که، این فایل مسیر های ویژه ای را برای خزیدن ارائه می دهد و هیچ کاری برای توقف ایندکس شدن آن وجود ندارد.
این متن کامل توییت Gary Illyes می باشد:
در پاسخ به یه سوال داخلی باید گفت که: از دیدگاه ایندکس شدن، robots.txt فقط یک آدرس اینترنتی می باشد که محتوای آن قابل ایندکس شدن می باشند. این URL می تواند با تگ canonical، به عنوان لینک اصلی و ارجح تبدیل شود یا مانند هر URL دیگر، نادیده گرفته شود. این فایل فقط برای خزیدن معنای ویژه ای دارد، اما در اینجا وضعیت ایندکس آن به هیچ وجه اهمیت ندارد.
مولر در پاسخ به این همکار خود گفت که هدر x-robots-tag HTTP header می تواند برای مسدود کردن ایندکس فایل robots.txt و sitemap ، مورد استفاده قرار بگیرد. او نباید در بیان این مسئله، فقط به این مورد اکتفا می کرد زیرا مسلماً این مورد یک مسئله بسیار مهمی است:
همچنین اگر فایل robots.txt یا sitemap شما برای پرس و جوهای عادی رتبه بندی می شود ( نه سایت )، نشان دهنده ی این است که سایت شما واقعا بد است و به جای آن باید به فکر بهبود آن باشید.
بنابراین، اگر چنین مشکلی برای شما پیش آمد ( رتبه بندی فایل robots.txt در نتایج جستجو) یک راه حل کوتاه مدت و خوب برای رفع این مشکل، مسدود کردن آن با استفاده از هدر HTTP-x-robots است. اما اگر این اتفاق بیافتد، طبق پیشنهادات مولر، احتمالاً موضوعات بسیار بزرگتری برای مراقبت دراز مدت وجود دارد.