Robots.txt چیست؟

Robots.txt فایلی است که به اسپایدرهای موتور جستجو می‌گوید که برخی صفحات یا بخش‌های یک سایت را کراول نکنند. بیشتر موتورهای جستجو درخواست‌های Robots.txt را تشخیص می‌دهند و آن را اجرا می‌کنند.

چرا Robots.txt اهمیت دارد؟

بیشتر سایت‌ها نیازی به فایل Robots.txt ندارند. این بدان دلیل است که گوگل معمولاً همة صفحه‌های مهم سایت شما را می‌یابد و فهرست بندی می‌کند. و آن‌ها معمولاً صفحه هایی که اهمیت ندارند و یا تکراری هستند را به طور اتوماتیک فهرست نمی‌کنند.

با توجه به این مطلب، چند دلیل برای استفاده از یک فایل Robots.txt وجود دارد.

بلوکه کردن صفحه‌های غیر عمومی

گاهی اوقات، شما صفحاتی روی سایت خودتان دارید که نمی‌خواهیم فهرست شوند. برای مثال، شما یک نسخه مرحله بندی از یک صفحه را دارید. یا یک صفحه لاگین.

این صفحات باید وجود داشته باشند، اما معمولاً نیازی نیست کسی وارد آن‌ها شود. در این حالت از فایل Robots.txt برای بلوکه کردن این صفحه‌ها در مقابل روبات‌های موتور جستجو استفاده می‌کنید.

حداکثر سازی بوجه کراول

اگر در فهرست کردن همة صفحه‌های خودتان مشکل دارید، احتمالاً به مشکل بودجه کراول برخورد کرده‌اید. با بلوکه کردن صفحه‌هایی که مهم نیستند از طریق فایل Robots.txt، ربات گوگل می‌تواند بیشتر بودجه کراول شما را برای صفحه‌های مهم‌تر صرف کنند.

جلوگیری از فهرست کردن منابع

استفاده از منشور های متا ( meta directives) نیز می‌تواند همانند Robots.txt برای جلوگیری از فهرست بندی برخی صفحه‌ها انجام شود.

با این حال، آن‌ها برای منابع چندرسانه‌ای مثل PDF و عکس ها به‌خوبی عمل نمی‌کنند. این همان جایی است که فایل robots.txt باید استفاده شود.

خط مبنا

این فایل به اسپایدر موتور جستجو می‌گوید که برخی صفحه های سایت شما را کراول نکند.

شما می‌توانید صفحات فهرست بندی شده را در Google Search Console مشاهده کنید.

اگر این عدد با تعداد صفحاتی که می‌خواهید فهرست شوند منطبق باشد، نیازی به استفاده از فایل Robots.txt نخواهیم داشت.

با این حال اگر این عدد بالاتر از انتظار شما باشد، زمان استفاده از این فایل برای سایت شما فرا رسیده است.

بهترین عملکردها

اولین قدم شما ایجاد فایل robots.txt است. این یک فایل متنی است که با استفاده از Windows notepad ساخته می‌شود.

بدون توجه به اینکه در نهایت چگونه فایل مورد نظر را می‌سازید، فرمت آن در نهایت یکسان خواهد بود:

User-agent: X
Disallow: Y

User-agent روبات بخصوصی است که با او صحبت می‌کنید و هر چیزی که پس از disallow مشاهده می‌کنید، صفحات یا بخش‌هایی هستند که باید بلوکه شوند.

مثال

User-agent: googlebot
Disallow: /images

این قانون به ربات گوگل می‌گوید که فولدر عکس سایت شما را فهرست نکند.

شما همچنین می‌توانید از یک * برای گفتن این مطلب به روبات‌ها استفاده کنید.

مثال

User-agent: *
Disallow: /images

علامت تکرار به همه اسپایدر ها می‌گوید فولدر عکس را کراول نکنند. این یکی از راه‌های استفاده از فایل robots.txt است.

یافتن فایل robots.txt خودتان را آسان کنید.

پس از ایجاد این فایل، زمان فعالسازی آن است. شما می‌توانید به صورت فنی فایل robots.txt را در هر دایرکتوری اصلی از سایت خودتان قرار دهید.

با این حال برای افزایش امکان یافت شدن فایل robots.txt ، پیشنهاد می‌کنم آن را در آدرس زیر بگذارید:

https://example.com/robots.txt

حتماً باید از r کوچک در اسم فایل استفاده کنید.

بسیار مهم است که فایل robots.txt شما به درستی پیکربندی های باشد. یک اشتباه از شما باعث می‌شود که کل سایت از فهرست خارج شود.

خوشبختانه نیازی نیست که شما به حدس زدن در مورد پیکربندی صحیح کدهای خودتان بپردازید. گوگل یک ابزار مناسب نام Robots Testing Tool دارد که می‌توانید از آن استفاده کنید.

همان‌طورکه می‌بینیم، ما اسپایدر را از کراول کردن صفحه ادمین باز داشتیم.

ما همچنین از robots.txt برای بلوکه کردن کراول صفحه‌های تگ وردپرس که خود به وجود آمده‌اند استفاده کردیم.

Robots.txt در برابر Meta Directive

در حالی که می‌توانید صفحه‌ها را با استفاده از تگ متای “noindex” بلوکه کنید، چرا باید از robots.txt استفاده کنید؟

همان‌طور که گفتیم، تگ همان‌طور که گفتیم، برای منابع چندرسانه‌ای به راحتی کار نمی‌کند و همچنین اگر شما هزاران صفحه داشته باشید که می‌خواهید بلوکه شوند، گاهی اوقات بهترست کل بخش مورد نظر را با robots.txt بلوکه کنید تا این که بخواهید به صورت دستی یک تگ کنید تا این که بخواهید به صورت دستی یک را به هر صفحه اضافه کنید.

همچنین برخی موارد وجود دارند که شما نمی‌خواهید بودجه کراول خود را برای صفحه‌های دارای تگ noindex استفاده کنید.

در نتیجه، در خارج از این سه حالت، پیشنهاد می‌کنم از meta directives بجای robots.txt استفاده کنیم زیرا پیاده‌سازی آن آسان‌تر است و شانس وقوع فاجعه (بلوکه شدن کل سایت) کمتر است.

به اشتراک بگذارید