فایل Robots.txt

فابل Robots.txt چیست؟

Robots.txt یک فایل است که به عنکبوت موتور جستجو می گوید که صفحات یا بخش های خاص یک وب سایت را ایندکس نکنند. اکثر موتورهای جستجوی اصلی (از جمله گوگل، بینگ و یاهو) درخواستهای Robots.txt را به رسمیت می شناسند و احترام می گذارند.

 

چرا Robots.txt مهم است؟

اکثر وبسایت ها به فایل robots.txt نیاز ندارند.

به همین دلیل است که گوگل معمولا می تواند تمام صفحات مهم در سایت شما را پیدا کند و فهرست کند.

و جالب است بدانید ربات ها صفحات غیر مهم را شناسایی کرده و به صورت خودکار نمایش نمی دهند.

اما ، 3 دلیل اصلی که شما باید از یک فایل robots.txt استفاده کنید وجود دارد.

 

صفحات غیر عمومی:

گاهی اوقات صفحاتی در سایت شما وجود دارند که شما نمی خواهید آنها را ایندکس کنید. به عنوان مثال، شما ممکن است یک نسخه ثابت از یک صفحه داشته باشید که نمیخواهید به عنوان یکی از صفحات فرود شما باشند. این موردی است که شما از robots.txt برای جلوگیری از ایندکس شدن این صفحات توسط خزنده های موتور جستجو و رباتها استفاده می کنید.

به حداکثر رساندن بودجه خزش در سایت :

گاهاً شما صفحات بسیار زیادی در سایت خود دارید و نمیخواهید آنها ایندکس شوند زیرا این صفحات اگر ایندکس شوند در واقع انقدر زیاد هستند که مانع از دیده شدن دیگر صفحات توسط ربات های میشوند. بدین ترتیب میتوانید در فایل robots.txt به راحتی این صفحات را جزو صفحاتی بگذارید که ربات گوگل آنها را دوباره بررسی ننماید. بدین صورت میتوانید از حداکثر میزان بودجه خزش استفاده کنید.

جلوگیری از ایندکس شدن منابع:

استفاده از دستورالعمل های متا می تواند به درستی همانند روبات ها کار کند.
اما متاسفانه در برخی از موارد شما نمیتوانید با استفاده از متاها مانع از ایندکس شدن عکس ها ، PDf ها و… شوید و اینجا نیز باید از فایل Robots.txt استفاده کنید.

خط پایین؟

Robots.txt به عنکبوت موتور جستجو می گوید که صفحات خاصی را در وب سایت شما خزنده نمی کند.
شما می توانید چند صفحه ای را که در کنسول جستجوی Google نشان داده اید را بررسی کنید.

سرچ کنسول گوگل

اگر فقط تعداد صفحات مورد نظر شما را نشان می دهد، لازم نیست که یک فایل Robots.txt ایجاد کنید.

اما اگر این تعداد بیشتر از حد انتظار شما باشد (شما URL های نمایه شده را که نیازی به نمایه سازی ندارید را دیدید)، زمان آن است که یک فایل robots.txt برای وب سایت شما ایجاد شود.

 

یک فایل Robots.txt ایجاد کنید

اولین قدم شما این است که فایل robots.txt خود را ایجاد کنید.

شما این فابل را میتوانید حتی با استفاده از یک فایل متنی ساده که در ویندوز موجود است ایجاد کنید.

و مهم نیست که شما در نهایت فایل robots.txt خود را ایجاد می کنید، فرمت دقیقا یکسان است:

User-agent: X
Disallow: Y

کاربر عامل ربات خاص است که با آن صحبت می کنید.
و همه چیزهایی که بعد از “غیرفعال شدن” می آید، صفحاتی هستند که شما می خواهید آنها را مسدود کنید.

در اینجا یک مثال است:

کاربر-عامل: googlebot
نادیده گرفتن: / تصاویر

که به صورت اصولی درون فایل Robots.txt به این صورت نوشته میشود :

User-agent: googlebot
Disallow: /images

این قانون به Googlebot اجازه نمیدهد پوشه تصویر وبسایت شما را فهرست کند.

شما همچنین می توانید با استفاده از یک ستاره (*) با تمامی ربات هایی که به سایت شما سر میزنند صحبت کنید.

در اینجا یک مثال است:

User-agent: *
Disallow: /images

“*” به همه ربات ها می گوید که پوشه تصاویر شما را بررسی و ایندکس نکنند.

این فقط یکی از راههای بسیاری برای استفاده از فایل robots.txt است. این راهنما مفید از گوگل اطلاعات بیشتری در قواعد مختلفی که می توانید برای جلوگیری یا رها کردن صفحات مختلف سایت خود از باتها استفاده کنید کاربرد دارد.

راهنمای گوگل برای فایل robots.txt

فایل Robots.txt خود را برای پیدا شدن سریع آماده کنید

هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید.

شما از لحاظ فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.

اما برای افزایش احتمال اینکه فایل robots.txt شما پیدا شود، توصیه می کنم آن را در این محل قرار دهید:

https://example.com/robots.txt

توجه داشته باشید ربات ها در پیدا کردن فایل robots.txt به حروف کوچک و بزرگ حساس هستند پس سعی کنید تمامی حروف را با استفاده از حروف کوچک بنویسید تا به راحتی پیدا شود به این صورت : robots.txt

 

بررسی خطاها و اشتباهات

واقعا مهم است که فایل robots.txt شما درست تنظیم شود. یک اشتباه میتواند کل سایت شما را deindexed نماید

 

خوشبختانه، لازم نیست امیدوار باشید که کد شما درست تنظیم شود. گوگل دارای یک ابزار تست روبات های زیبا است که می توانید از آن استفاده کنید:

ابزار تست فایل robots.txt

این ابزار در واقع فایل robots.txt شما را بررسی کرده و تمامی اشتباهات و هشدار ها را به شما ارائه میکند.

هشدار و خطا

همانطور که می بینید، ما عنکبوت را از بازرسی صفحه WP مدیر منع می کنیم.

ما همچنین از robots.txt برای جلوگیری از بررسی کردن صفحات برچسب تولید شده توسط وردپرس (برای محدود کردن محتوای تکراری) استفاده می کنیم.

 

Robots.txt در مقابل Meta Directives

چرا شما می توانید از robots.txt استفاده کنید وقتی می توانید صفحات را در سطح صفحه با متا تگ “noindex” مسدود کنید؟

همانطور که قبلا ذکر شد، برچسب noindex برای پیاده سازی در منابع چند رسانه ای، مانند فیلم ها و فایل های PDF، پیچیده است.

همچنین، اگر شما هزاران صفحه ای دارید که می خواهید آنها را مسدود کنید، شما میتوانید به جای آنکه برای هر صفحه یکبار تگ noindex را استفاده کنید میتوانید به یکباره از Robots.txt استفاده کنید چراکه مطمئن تر هم هست.

در واقع به معنای دیگر با استفاده از فایل Robots.txt به جای متاها امکان بروز یک فاجعه در سایت شما کمتر خواهد شد.