اگر 2 یا چند صفحه ی سایت دارای متن مشابه یا یکسانی باشند، محتوای تکراری محسوب می شوند.
محتوای تکراری، آتوریتی لینک را بین صفحات تقسیم می کند و این باعث کاهش توانایی صفحه در رتبه بندی نتایج جستجوی ارگانیک می شود.
فرض کنید یک وب سایت دارای دو صفحه یکسان است و هر کدام دارای 10 لینک خارجی و داخلی می باشند. این سایت می توانست 20 لینک را در یک صفحه قرار دهد و رتبه بندی آن صفحه را ارتقاء دهد. اما در این حالت، هر کدام از این دو صفحه دارای 10 لینک هستند و به رتبه ی بالایی هم دست پیدا نمی کنند.
محتوای تکراری همچنین به بودجه خزش نیز آسیب زند ولی در صورت تکراری نبودن محتوا، ایندکس های موتورهای جستجو عملکرد بهتری خواهد داشت.
سایت های تجارت الکترونیک محتوای تکراری ایجاد می کنند. این یک نتیجه فرعی مربوط به تنظیمات پلتفرم و تصمیمات تکنولوژی می باشد. در ادامه 2 روش خوب برای حذف محتوای تکراری از ایندکس های موتورهای جستجو مطرح شده است – و 8 روشی که باید از اجرای آنها خودداری کنید.
محتوای تکراری ایندکس شده را حذف کنید
برای تصحیح محتوای تکراری و ایندکس شده، (اولا) آرتوریتی لینک را در یک صفحه واحد ادغام کنید و (ثانیا) موتورهای جستجو را وادار کنید که ایندکس صفحه ی مربوط به محتوای تکراری را حذف کنند.
ریدایرکت 301
ریدایرکت 301 بهترین گزینه می باشد. ریدایرکت های 301 آرتوریتی لینک را تقویت می کنند، بلافاصله ایندکس مربوط به آنها را حذف می کنند و کاربر را به یک صفحه جدید هدایت می کنند. گوگل اظهار کرده است که طبق ریدایرکت 301، 100 درصد آرتوریتی لینک موردنظر را به صفحه اختصاص می دهد. اما bing و سایر موتورهای جستجو طور دیگری عمل می کنند و فقط در صورت حذف دائمی صفحه، از این ریدایرکت استفاده می کنند.
تگ های Canonical
“Canonical” کلمه خیالی برای چیزی است که به عنوان یک واقعیت شناخته می شود. این تگ، صفحه ای که باید ایندکس شود و آتوریتی لینک به آن اختصاص پیدا کند را شناسایی می کند. این برچسب ها، پیشنهاداتی برای موتورهای جستجو می باشد – نه دستوراتی مانند ریدایرکت 301 – معمولاً موتورهای جستجو به خاطر عملکرد این تگ ها در شناسایی محتوای تکراری، به آنها احترام می گذارند.
تگ های کنونیکال بعد ریدایرکت 301، بهترین گزینه می باشند و زمانی استفاده می شوند که (اولا) ریدایرکت 301 قابل اجرا نباشند (ثانیا) صفحه ی تکراری باید در دسترس بماند.- برای مثال، اگر در سایت خود دو صفحه دارید که شامل مجموعه محصولات شما می باشد و تنها فرقشان در نحوه مرتب سازی محصولات می باشد و شما نمی خواهید یک صفحه را به صفحه دیگر ریدایرکت کنید.
8 روش که باید از آنها دوری کنید
برخی گزینه های نامناسب برای حذف محتوای تکراری از ایندکس های جستجو توصیه نمی شوند.
ریدایرکت 302
ریدایرکت 302 به جای انتقال دائمی، آدرس قدیمی لینک را به صورت موقت به آدرس جدید انتقال می دهد. گوگل سال ها به بیان این موضوع را پرداخته است که ریدایرکت های 301 ، کل آتوریتی لینک را حفظ می کند. با این حال، ریدایرکت های 302 به سرعت ایندکس را حذف نمی کنند. از آنجا که آنها همان تلاش را برای اجرای ریدایرکت های 301 انجام می دهند، این ریدایرکت فقط زمانی باید استفاده شود که این هدایت به صورت موقت باشد و بالاخره این تغییرات مربوط به تغییر مسیر باید حذف شود و سایت به حالت قبلی خود برگردد.
ریدایرکت های javascript
ریدایرکت های javascript توسط گوگل معتبر تلقی می شوند – چند روز یا هفته، برای تکمیل این فرآیند سپری می شود. اما دلیل کمی برای استفاده از ریدایرکت جاوا اسکریپت وجود دارد، مگر اینکه به ریدایرکت 301 دسترسی نداشته باشید.
متا تگ رفرش یا Meta refresh
متا تگ رفرش یا Meta refresh قبل از اینکه مرورگر صفحه ی جدید را بارگذاری کند، به عنوان یک صفحه خلاصه یا چند ثانیه ای برای خریداران قابل مشاهده است. این روش به دلیل آزار دهنده بودن برای کاربر و زمانی که گوگل برای فرآیندی شبیه به ریدایرکت صرف می کند، زیاد مورد استفاده قرار نمی گیرند.
خطای 404
خطای 404 نشان دهنده ی این است که فایل درخواستی روی سرور نمی باشد و باعث می شود که موتورهای جستجو ایندکس آن صفحه را حذف کنند. اما خطاهای 404، آتوریتی لینک مربوط به آن صفحه را هم حذف می کنند. در صورت امکان، برای یک صفحه حذف شده از ریدایرکت 301 استفاده کنید.
خطاهای Soft 404
خطاهای Soft 404 زمانی رخ می دهند که سرور بر اساس قاعده ریدایرکت 302، یک URL بد را به صفحه خطا هدایت کند و سپس پاسخ سرور موفقیت (200 ok) را برگرداند. به عنوان مثال، فرض کنید که آدرس example.com/page حذف شده است و باید خطای 404 را برگرداند. در عوض، این صفحه (طبق ریدایرکت 302) به صفحه مانند www.example.com/error-page هدایت می شود با این که خطا به نظر می رسد اما این اقدام، پاسخ 200 ok را بر می گرداند.
پاسخ ریدایرکت 302 به موتورهای جستجو می گوید که www.example.com/page از بین رفته است اما ممکن است دوباره کار کند، بنابراین این صفحه باید ایندکس شود. علاوه براین، پاسخ 200 به موتورهای جستجو می گوید که www.example.com/error-page یک صفحه معتبر برای ایندکس کردن می باشد. خطاهای Soft 404 باعث واردعمل شدن این ایندکس ها می شوند و هر دو URL بد هم ایندکس می شوند.
ابزارهای موتور جستجو
گوگل و بینگ ابزارهایی را برای حذف یک URL ارائه می دهند. با این حال، به خاطر اینکه هر دوی آنها نیاز به این دارند که URL های موردنظر، خطای معتبر 404 را برگردانند، این ابزار بعد از حذف صفحه از سرور شما به عنوان یک مرحله پشتیبان عمل می کند.
تگ noindex ربات های متا
تگ noindex ربات های متا در قسمت بالای فایل HTML قرار دارد. صفت noindex، به ربات ها می گوید که صفحه مورد نظر را ایندکس نکنید. اگر این اقدام بعد از ایندکس شدن صفحه انجام شود، ممکن است به طور ناگهانی باعث حذف شدن ایندکس آن صفحه شود، اما باید گفت که این عمل ممکن است ماه ها طول بکشد. متاسفانه، با این اقدام موتورهای جستجو آتوریتی لینک از بین می رود. و از آنجایی که موتور جستجو باید به خزش خود ادامه دهد تا وجود ویژگی noindex را تایید کند، این گزینه ( حذف ایندکس صفحات) باعث کاهش تعداد صفحات برای ایندکس نمی شود چون هر بار باید وجود ویژگی noindex را تشخیص دهد. (توجه داشته باشید که ویژگی nofollow تگ ربات های متا هیچ تاثیری در ایندکس آن صفحه ندارد.)
فرمان غیر مجاز Robots.txt
فرمان غیر مجاز Robots.txt مانع حذف ایندکس سریع می شود. صفحاتی که پس از ایندکس شدن، غیرمجاز می شوند، دیگر توسط ربات های موتور جستجو خزیده نمی شوند، اما در مورد ایندکس شدن یا نشدن آن نمی توان چیزی گفت. بعید است که این صفحات در نتایج جستجو نشان داده شوند مگر اینکه جستجو به طور مستقیم از طریق URL انجام شود، زیرا موتورهای جستجو آن صفحه را نمی خزند.
در حالی که آنها برای حذف محتوای ایندکس شده ایده آل نیستند، تگ noindex ربات های متا و فرمان غیر مجاز Robots.txt، هر دو باید مانع ایندکس شدن محتوای تکراری شوند. با این حال، کاربرد آنها نیاز به این دارد که محتوای تکراری قبل از راه اندازی سایت جدید، شناسایی شود و با در نظر گرفتن این موارد می توان گفت که استفاده از این روش ها صد در صد تاثیر گذار نمی باشد.
بهترین راه حل
اگر برای حذف ایندکس به یک روش مطمئن نیاز دارید، استفاده از ریدایرکت 301 یا خطای 404 بهترین راه حل است چون سرور دیگر محتوای موجود در آن صفحه را بارگیری نمی کند. اگر نیاز به این دارید که ایندکس یک صفحه را حذف کنید ولی به آتوریتی آن آسیبی نرسد، از ریدایرکت 301 استفاده کنید.