Robots.txt فایلی است که به اسپایدرهای موتور جستجو میگوید که برخی صفحات یا بخشهای یک سایت را کراول نکنند. بیشتر موتورهای جستجو درخواستهای Robots.txt را تشخیص میدهند و آن را اجرا میکنند.
چرا Robots.txt اهمیت دارد؟
بیشتر سایتها نیازی به فایل Robots.txt ندارند. این بدان دلیل است که گوگل معمولاً همة صفحههای مهم سایت شما را مییابد و فهرست بندی میکند. و آنها معمولاً صفحه هایی که اهمیت ندارند و یا تکراری هستند را به طور اتوماتیک فهرست نمیکنند.
با توجه به این مطلب، چند دلیل برای استفاده از یک فایل Robots.txt وجود دارد.
بلوکه کردن صفحههای غیر عمومی
گاهی اوقات، شما صفحاتی روی سایت خودتان دارید که نمیخواهیم فهرست شوند. برای مثال، شما یک نسخه مرحله بندی از یک صفحه را دارید. یا یک صفحه لاگین.
این صفحات باید وجود داشته باشند، اما معمولاً نیازی نیست کسی وارد آنها شود. در این حالت از فایل Robots.txt برای بلوکه کردن این صفحهها در مقابل روباتهای موتور جستجو استفاده میکنید.
حداکثر سازی بوجه کراول
اگر در فهرست کردن همة صفحههای خودتان مشکل دارید، احتمالاً به مشکل بودجه کراول برخورد کردهاید. با بلوکه کردن صفحههایی که مهم نیستند از طریق فایل Robots.txt، ربات گوگل میتواند بیشتر بودجه کراول شما را برای صفحههای مهمتر صرف کنند.
جلوگیری از فهرست کردن منابع
استفاده از منشور های متا ( meta directives) نیز میتواند همانند Robots.txt برای جلوگیری از فهرست بندی برخی صفحهها انجام شود.
با این حال، آنها برای منابع چندرسانهای مثل PDF و عکس ها بهخوبی عمل نمیکنند. این همان جایی است که فایل robots.txt باید استفاده شود.
خط مبنا
این فایل به اسپایدر موتور جستجو میگوید که برخی صفحه های سایت شما را کراول نکند.
شما میتوانید صفحات فهرست بندی شده را در Google Search Console مشاهده کنید.
اگر این عدد با تعداد صفحاتی که میخواهید فهرست شوند منطبق باشد، نیازی به استفاده از فایل Robots.txt نخواهیم داشت.
با این حال اگر این عدد بالاتر از انتظار شما باشد، زمان استفاده از این فایل برای سایت شما فرا رسیده است.
بهترین عملکردها
اولین قدم شما ایجاد فایل robots.txt است. این یک فایل متنی است که با استفاده از Windows notepad ساخته میشود.
بدون توجه به اینکه در نهایت چگونه فایل مورد نظر را میسازید، فرمت آن در نهایت یکسان خواهد بود:
User-agent: X
Disallow: Y
User-agent روبات بخصوصی است که با او صحبت میکنید و هر چیزی که پس از disallow مشاهده میکنید، صفحات یا بخشهایی هستند که باید بلوکه شوند.
مثال
User-agent: googlebot
Disallow: /images
این قانون به ربات گوگل میگوید که فولدر عکس سایت شما را فهرست نکند.
شما همچنین میتوانید از یک * برای گفتن این مطلب به روباتها استفاده کنید.
مثال
User-agent: *
Disallow: /images
علامت تکرار به همه اسپایدر ها میگوید فولدر عکس را کراول نکنند. این یکی از راههای استفاده از فایل robots.txt است.
یافتن فایل robots.txt خودتان را آسان کنید.
پس از ایجاد این فایل، زمان فعالسازی آن است. شما میتوانید به صورت فنی فایل robots.txt را در هر دایرکتوری اصلی از سایت خودتان قرار دهید.
با این حال برای افزایش امکان یافت شدن فایل robots.txt ، پیشنهاد میکنم آن را در آدرس زیر بگذارید:
https://example.com/robots.txt
حتماً باید از r کوچک در اسم فایل استفاده کنید.
بسیار مهم است که فایل robots.txt شما به درستی پیکربندی های باشد. یک اشتباه از شما باعث میشود که کل سایت از فهرست خارج شود.
خوشبختانه نیازی نیست که شما به حدس زدن در مورد پیکربندی صحیح کدهای خودتان بپردازید. گوگل یک ابزار مناسب نام Robots Testing Tool دارد که میتوانید از آن استفاده کنید.
همانطورکه میبینیم، ما اسپایدر را از کراول کردن صفحه ادمین باز داشتیم.
ما همچنین از robots.txt برای بلوکه کردن کراول صفحههای تگ وردپرس که خود به وجود آمدهاند استفاده کردیم.
Robots.txt در برابر Meta Directive
در حالی که میتوانید صفحهها را با استفاده از تگ متای “noindex” بلوکه کنید، چرا باید از robots.txt استفاده کنید؟
همانطور که گفتیم، تگ همانطور که گفتیم، برای منابع چندرسانهای به راحتی کار نمیکند و همچنین اگر شما هزاران صفحه داشته باشید که میخواهید بلوکه شوند، گاهی اوقات بهترست کل بخش مورد نظر را با robots.txt بلوکه کنید تا این که بخواهید به صورت دستی یک تگ کنید تا این که بخواهید به صورت دستی یک را به هر صفحه اضافه کنید.
همچنین برخی موارد وجود دارند که شما نمیخواهید بودجه کراول خود را برای صفحههای دارای تگ noindex استفاده کنید.
در نتیجه، در خارج از این سه حالت، پیشنهاد میکنم از meta directives بجای robots.txt استفاده کنیم زیرا پیادهسازی آن آسانتر است و شانس وقوع فاجعه (بلوکه شدن کل سایت) کمتر است.