Googlebot از دستورات خاصی پیروی می کند، فرم ها و کوکی ها را نادیده می گیرد و فقط لینک های کدنویسی شده را می خزد. بنابراین خطاها و اشتباهات موجود در پیاده سازی سایت می تواند بر روی توانایی خزیدن و ایندکس کردن آن تاثیر بگذارد.
کاملاً طبیعی است که فکر کنید، هر چیزی که در سایت برای انسان قابل مشاهده است، در دسترس موتورهای جستجو نیز می باشد، اما اینگونه نیست.
طبق گزارش ها، Googlebot می تواند فرم ها را پر کند، کوکی ها را بپذیرد و هر نوع لینکی را بخزد. اما به نظر می رسد که دسترسی به این عناصر و انجام این کارها، منابع خزنده و ایندکس نامحدودی را مصرف می کند.
ربات گوگل از دستورات خاصی پیروی می کند، فرم ها و کوکی ها را نادیده می گیرد و فقط لینک های کدنویسی شده ای را می خزد که دارای تگ انکر مناسب و href می باشند.
در ادامه به 7 موردی اشاره می شود که Googlebot و دیگر ربات های موتور جستجو را مسدود می کنند و مانع خزیدن و ایندکس کردن صفحات وب سایت شما می شوند.
1. صفحات مبتنی بر مکان
سایت هایی که دارای صفحات سازگار با محل هستند، آدرس IP بازدیدکننده را تشخیص می دهند و سپس محتوا را بر اساس آن مکان و لوکیشن نشان می دهند. اما این قابلیت می تواند با خطا نیز همراه باشد. ممکن است آدرس IP بازدید کننده به کشور بوستون اشاره کند، در حالی که آن شخص در نیویورک زندگی می کند و در این صورت او محتوای مربوط به شهر بوستون را دریافت می کند که اصلاً تمایلی به آن اطلاعات ندارد.
آدرس IP پیش فرض ربات گوگل، از منطقه سن خوزه، کالیفرنیا می باشد. به همین دلیل، Googlebot فقط محتوای مربوط به آن منطقه را مشاهده می کند.
محتوای مبتنی بر مکان به محض اولین ورود به سایت خوب عمل می کند اما محتوای بعدی باید براساس لینک های کلیک شده نمایش داده شود نه آدرس IP.
این مانع غیرقابل مشاهده برای موفقیت جستجوی ارگانیک، یکی از سخت ترین مواردی است که باعث صدمه زدن به عملکرد ربات ها می شود.
2. محتوای مبتنی بر کوکی
سایت ها، کوکی هایی مانند تنظیمات زبان برگزیده یا مسیرهای کلیک برای ارائه اطلاعات مرتبط، را بر روی یک مرورگر وب قرار می دهند تا تجربه بازدیدکننده را شخصی سازی کنند. محتوایی که براساس ایجاد کوکی در اختیار کاربر قرار داده می شود ( کلیک هایی انجام شده روی یک لینک تاثیری در آن ها ندارد )، برای ربات های موتور جستجو غیر قابل دسترسی می باشد.
به عنوان مثال، برخی از سایت ها بر اساس کوکی ها، محتوایی را مرتبط با کشور و زبان انتخاب شده در اختیار شما قرار می دهند. اگر شما از یک فروشگاه اینترنتی بازدید می کنید و زبان فرانسوی را انتخاب می کنید، یک کوکی تنظیم می شود و بقیه بازدید شما از آن سایت به زبان فرانسوی ادامه پیدا می کند. URL ها مانند قبل به زبان انگلیسی می باشند ولی محتوای آنها تغییر می کند.
احتمالاً صاحب سایت می خواهد که محتوای فرانسوی هم در نتایج جستجوی ارگانیک قرار بگیرد تا افراد فرانسوی زبان نیز در جستجوی خود، سایت موردنظر را پیدا کنند و از آن بازدید کنند. اما این امکان پذیر نمی باشد چون وقتی که URL با تغییر محتوا دچار تغییری نمی شود، موتورهای جستجو قادر به خزیدن یا رتبه بندی نسخه های جایگزین نمی باشند.
3. لینک های جاوا اسکریپت غیرقابل خزش
یک لینک زمانی برای گوگل مانند یک لینک عمل می کند که دارای یک تگ انکر و یک href برای یک URL خاص باشد. انکر تکست نیز قابل قبول است چون ارتباط بین آن صفحه و صفحه ی لینک داده به آن را برقرار می کند.
متن کد فرضی زیر، تفاوت بین لینک های قابل خزش و غیر قابل خزش را برای Googlebot برجسته می کند. – “Will be crawled” vs. “Not crawled”
گوگل به لینک هایی نیاز دارد که دارای یک تگ انکر و یک href برای یک URL خاص باشد. در این مثال، Googlebot اولین و چهارمین خط (Will be crawled ) را می خزد. اما خط دوم و سوم خزیده نمی شوند.
سایت های تجارت الکترونیکی تمایل دارند که به جای استفاده از تگ انکر، لینک های خود را با استفاده از onclicks ( بازدید کننده با کلیک روی آن لینک به صفحه ی دیگر منتقل می شود) کدنویسی کنند. در حالی که این روش برای انسان کار می کند و Googlebot نمی تواند آنها را به عنوان لینک های قابل خزیدن، تشخیص دهد. بنابراین، ایندکس کردن این صفحات می تواند با مشکل روبرو شود.
4. URL های هشتگ دار ( # )
AJAX نوعی از JavaScript می باشد که بدون بارگذاری کل صفحه ( refresh )، محتوای بخشی از صفحه را بروزرسانی می کند. محتوای بروزشده، یک علامت هشتگ ( #) را در URL صفحه وارد می کند. متاسفانه، هشتگ ها همیشه محتوای موردنظر را بار دیگر برای بازدیدهای بعدی کاربر تولید نمی کنند. اگر موتورهای جستجو، URLهای هشتگ دار را ایندکس کنند امکان دارد که محتوای ارائه شده، موارد موردنظر جستجوکننده ها، نباشد.
در حالی که اکثر بهینه سازهای موتورهای جستجو از مشکلات طبیعی ایندکس کردن با URLهای هشتگ دار اطلاع دارند. وجود این عنصر اصلی URL ( هشتگ )، باعث بروز خطا و مشکل در جستجوهای ارگانیک می شود و بازاریاب ها اغلب هنگام اطلاع از این مسئله، تعجب می کنند.
4. دستور غیر مجاز Robots.txt
فایل robots.txt، یک سند متنی قدیمی است که در قسمت ریشه ( root ) سایت قرار دارد. این فایل به ربات های تحت فرمان می گوید که کدام محتوا را می توان از طریق دستور غیر مجاز خزید.
دستورات غیرمجاز مانع ایندکس نمی شوند. اما آنها به دلیل عدم توانایی ربات ها در تعیین ارتباط صفحات، می توانند از رتبه بندی صفحات جلوگیری کنند.
دستورات غیرمجاز می توانند به صورت تصادفی در فایل های robots.txt ظاهر شوند – مثلا زمانی که برای یک طراحی مجدد وارد عمل می شوند – در نتیجه این اتفاق، ربات های جستجو را مسدود می کند و آنها نمی توانند کل سایت را بخزند. وجود یک دستور غیرمجاز در فایل robots.txt، از اولین مواردی است که باید برای پیدا کردن علت افت ناگهانی ترافیک بررسی شود.
6. ربات متای Noindex
صفت Noindex مربوط به تگ متای URL ها، به ربات های موتورجستجو دستور می دهد که صفحه موردنظر را ایندکس ( بررسی ) نکنند. این دستور مانند دستورات غیرمجاز عمل نمی کند ( یک فایل واحد، کل سایت را کنترل نمی کند) بلکه، به صورت صفحه به صفحه اعمال می شود.
با این حال، صفت های Noindex قوی تر از دستورات غیرمجاز نمی باشند چون آنها عمل ایندکس کردن را متوقف می کنند.
صفت های Noindex نیز می توانند مانند دستورات غیرمجاز، به صورت تصادفی وارد عمل شوند. آنها یکی از مسدودکننده هایی هستند که کشف آنها سخت است.
7. تگ های Canonical نادرست
تگ های Canonical، صفحه ای را مشخص می کنند که با چندین نسخه یکسان ( از نظر محتوا ) ایندکس شده است. این تگ ها، سلاح های مهمی برای جلوگیری از تکرار محتوا می باشند. تمامی صفحات بدون تگ Canonical، آتوریتی لینکشان را – ارزشی که صفحات لینک دهنده به آنها می دهند – به URL که دارای تگ Canonical است، نسبت می دهند. صفحات بدون تگ Canonical، ایندکس نمی شوند.
تگ های Canonical از سورس کد اصلی جدا نگه داشته می شوند. با این وجود تشخیص خطاها می تواند مشکل باشد. تگ های canonical بد می توانند مانع ایندکس صفحات سایت شما شوند.