למה מתכוונים כשאומרים ״תוכן כפול״?

תוכן כפול הוא תוכן שמופיע באינטרנט ביותר ממקום אחד.
“מקום אחד” זו הגדרה בעייתית מעט כשמדובר באינטרנט,
אז תנו לי להסביר יותר לעומק: מקום מוגדר כמיקום עם כתובת אתר ייחודית (URL) כך שאם אותו תוכן מופיע ביותר מכתובת אינטרנט אחת, יש באמתחתכם תוכן כפול.

אמנם אין על כך איזה עונש מבחינה טכנית, אך תוכן משוכפל עדיין יכול לפעמים להשפיע על דירוג מנועי החיפוש.
כשיש מספר רב של תכנים, כפי שגוגל מכנה זאת, “דומים במידה ניכרת” לתוכן ביותר ממיקום אחד באינטרנט יכול להיות קשה למנועי חיפוש להחליט איזו גרסה רלוונטית יותר לשאילתת חיפוש נתונה.

למה שיהיה לי איכפת אם יש לי תוכן כפול?

למנועי חיפוש

תוכן משוכפל למעשה מייצר שלוש סוגיות עיקריות עבור מנועי חיפוש:

  1. הם לא יודעים אילו גרסאות לכלול או להוציא מכלל המדדים שלהם.
  1. מנועי החיפוש אינם יודעים אם לכוון את מדדי הקישורים (trust, authority, anchor text, link equity וכו׳) לדף אחד, או לשמור על הפרדה בין גרסאות מרובות.
  1. הם לא יודעים אילו גרסאות יש לדרג עבור תוצאות שאילתה.

למנהלי אתרים

כאשר קיים תוכן כפול באתר שלכם, אתם כבעלי אתרים יכולים לסבול מדירוגים גרועים והפסדי תנועה.
הפסדים אלה נובעים לעתים קרובות משתי בעיות עיקריות:

  1. כדי לספק את חוויית החיפוש הטובה ביותר, מנועי חיפוש יציגו גרסאות מרובות של אותו תוכן רק לעיתים נדירות בלבד.
    במקרה כזה אתם מכריחים את מנוע החיפוש לבחור איזו גרסה היא ככל הנראה התוצאה הטובה ביותר ולמעשה אתם מדללים את הנראות של כל אחת מהגרסאות.
  1. יותר מזה, אתם יכולים לדלל עוד יותר את ה-Link Equity מכיוון שאתרים אחרים צריכים לבחור בין הכפילויות גם כן.
    במקום שכל הקישורים הנכנסים (inbound links) יבוצעו לאותו דף תוכן, הם מקשרים למספר חלקים ומפיצים את ה-Equity בין הכפילויות.
    מכיוון שקישורים נכנסים הם גורם דירוג, הדבר יכול להשפיע על נראות החיפוש של פיסת תוכן.

התוצאה נטו? התוכן שלכם לא משיג את נראות החיפוש שהיה יכול להשיג אחרת.

איך צצות בעיות תוכן משוכפל?

ברוב המוחלט של המקרים, בעלי אתרים אינם יוצרים תוכן כפול בכוונה.
אבל זה לא אומר שהוא לא שם בחוץ. למעשה, לפי הערכות מסוימות, עד 29% מהאינטרנט הוא למעשה תוכן כפול!

בואו נסתכל על כמה מהדרכים הנפוצות ביותר שיוצרות תוכן כפול ללא כוונה:

1. וריאציות של כתובות אתרים

פרמטרים של כתובות אתרים, כגון מעקב אחר קליקים וקוד של אנאליטיקס לדוגמה, יכולים לגרום לבעיות תוכן כפולות.
זו יכולה להיות בעיה שנגרמת לא רק מהפרמטרים עצמם, אלא גם מהסדר בו מופיעים הפרמטרים בכתובת האתר עצמה.

לדוגמה:

www.widgets.com/blue-widgets?c… הוא שכפול של www.widgets.com/blue-widgets?c…&cat=3″ class=”redactor-autoparser-object”>

www.widgets.com/blue-widgets הוא שכפול של www.widgets.com/blue-widgets?cat=3&color=blue

באופן דומה, מזהים כמו Session ID הם יוצרי תוכן משוכפל מוכרים.
זה קורה כאשר לכל משתמש שמבקר באתר מוקצה מזהה הפעלה אחר המאוחסן בכתובת האתר.

תוכן כפול הסבר

גרסאות תוכן ידידותיות להדפסה יכולות גם לגרום לבעיות תוכן כפול כאשר מספר גרסאות של הדפים נכנסות לאינדקס.

השיעור כאן הוא פשוט: כשאפשר, הימנעו מהוספת פרמטרים של כתובות אתרים או גרסאות חלופיות של כתובות אתרים
(המידע שיש בהם בדרך כלל יכול לעבור באופן יעיל יותר דרך סקריפטים).

2. דפי WWW אל מול דפים שאינם-WWW ודפי HTTP אל מול דפי HTTPS

אם לאתר שלך יש גרסאות נפרדות בכתובת:www.site.com וכתובת נוספת של: site.com (עם ובלי קידומת ״ www ״) ואותו תוכן חי בשתי הגרסאות, יצרת למעשה כפילויות של כל אחד מאותם עמודים.
כך גם באתרים המקיימים גרסאות בכתובת http: // וגם ב-https://.
אם שתי הגרסאות של הדף חיות וגלויות למנועי חיפוש, אתה עלול להיתקל בבעיית תוכן משוכפל.

3. תוכן מועתק

אנשים המפרסמים מחדש את תוכן הבלוג שלך באתרים שלהם דרך תוכנות Scrape עשויים להיות מקור מוכר יותר לתוכן כפול.
אך קיימת בעיה נפוצה גם עבור אתרי מסחר אלקטרוני: המידע של המוצרים.
אם אתרים רבים ושונים מוכרים את אותם פריטים, וכולם משתמשים בתיאורי היצרן של אותם פריטים, תוכן זהה מתגלה פתאום במספר מיקומים ברחבי האינטרנט.

כיצד לתקן בעיות תוכן כפול

תיקון בעיות תוכן משוכפל מסתכם באותו רעיון פשוט: אנחנו צריכים להודיע למנועי החיפוש מי מהכפילויות מציגה את ״התוכן הנכון״ אל מול מי ״הכפולה״.

בכל פעם שניתן למצוא תוכן באתר במספר כתובות אתרים, יש להוסיף אותו למנועי חיפוש.
בוא נעבור על שלוש הדרכים העיקריות לעשות זאת: באמצעות הפניה מחדש של 301 לכתובת האתר הנכונה, שימוש בתכונה rel=canonical, או שימוש בכלי הטיפול בפרמטרים במסוף החיפוש של Google (Google Search Console).

הפניה מחדש של 301 Redirect

במקרים רבים, הדרך הטובה ביותר להילחם בתכנים משוכפלים היא להגדיר הפניה מחדש של 301 מדף “כפילות” לדף התוכן המקורי.

כאשר מספר דפים עם פוטנציאל דירוג טוב משולבים לעמוד בודד, הם לא רק מפסיקים להתחרות זה בזה הם גם יוצרים איתות רלוונטיות ופופולריות חזקה יותר בסך הכל – שנאמר, השלם גדול מסך חלקיו! זה ישפיע לטובה על יכולתו של הדף “הנכון” לקבל דירוג טוב.

הפניות 301

קנוניקל – rel=canonical

אפשרות נוספת להתמודדות עם תוכן כפול היא להשתמש בתכונה rel = canonical.
זה אומר למנועי חיפוש שיש להתייחס לדף נתון כאילו מדובר בעותק של כתובת URL שצוינה,
וכל הקישורים, מדדי התוכן ״וכוח הדירוג״ שמנועי החיפוש מחילים על דף זה צריכים למעשה לזקוף לזכות כתובת האתר שצוינה.

התכונה הזו היא חלק מהראש של קוד ה-HTML של האתר ונראה כך:

פורמט כללי:

<head>…[other code that might be in your document’s HTML head]…<link href=”URL OF ORIGINAL PAGE” rel=”canonical” />…[other code that might be in your document’s HTML head]…</head>

יש להוסיף את התכונה rel = canonical ל-head של קוד ה-HTML של כל גרסה כפולה של דף, כאשר החלק “URL OF ORIGINAL PAGE” שלמעלה מחליף קישור לדף המקורי (הקנוני).
(וודאו שאתם שומרים על סימני הציטוטים.) התכונה עוברת בערך אותה כמות של link equity (דירוג כוח) כמו הפניה מחדש של 301, ומכיוון שהיא מיושמת ברמת העמוד (במקום השרת), לרוב לוקח פחות זמן פיתוח עד ליישום.

להלן דוגמה כיצד נראית תכונת קנוניקל בפעולה:

כאן אפשר לראות ש-Buzzfeed משתמשים בתכונות rel = canonical כדי לפתור בעיות שנובעות מהשימוש שלהם בפרמטרים של URL (במקרה זה, מעקב הקלקות).
למרות שדף זה נגיש בשתי כתובות אתרים, התכונה rel = canonical מבטיחה שכל מדדי הקישור והתוכן מוענקים לדף המקורי.

מטא רובוט – Meta Robots Noindex

תגית מטא אחת שיכולה להיות שימושית באופן בלתי ניתן לערעור בהתעסקות אל מול תוכן כפול היא תגית המטא רובוט (meta robots) בשימוש הערכים: “noindex, follow.”.

נפוץ בשם Meta Noindex, ומכונה טכנית content = noindex, follow, התגית מטא הזו ניתנת להוספה בראש ה-HTML של כל עמוד בודד שצריך להחריג מהאינדקס של מנועי החיפוש.

פורמט כללי:

<head>…[other code that might be in your document’s HTML head]…<meta name=”robots” content=”noindex,follow”>…[other code that might be in your document’s HTML head]…</head>

תגית המטא-רובוטים מאפשרת למנועי חיפוש לסרוק את הקישורים בדף אך מונעת מהם לכלול קישורים אלה במדדים שלהם.
זה חשוב שעדיין ניתן לסרוק את הדף המשוכפל, למרות שאנחנו מציינים לגוגל לא להוסיף אותו לאינדקס, מכיוון שגוגל מזהירה במפורש מפני הגבלת הגישה לסריקה לתוכן כפול באתרי האינטרנט שלכם.
(מנועי חיפוש רוצים לראות את הכל למקרה שביצעת שגיאה בקוד שלך. זה מאפשר להם לבצע “שיפוט” [ככל הנראה אוטומטי] במצבים מעורפלים מבחינת תוכן ושגיאות).

השימוש במטא רובוטים הוא פיתרון טוב במיוחד לבעיות תוכן משוכפלות שקשורות לעימוד אתר האינטרנט שלכם.

טיפול בדומיין ופרמטרים מועדפים במסוף החיפוש של גוגל

קונסולת החיפוש של גוגל מאפשרת לך להגדיר את הדומיין המועדף של האתר שלך (כלומר – http://yoursite.com במקום http://www.yoursite.com) ולציין אם Googlebot צריכה לסרוק פרמטרים שונים של כתובות אתרים באופן שונה (טיפול בפרמטרים).

בהתאם למבנה ה-URL שלכם והגורם לבעיות התוכן המשוכפל, הגדרת הטיפול בדומיין המועדף עליכם או הטיפול בפרמטרים (או שניהם!) עשויה לספק פיתרון.

החיסרון העיקרי בשימוש בטיפול בפרמטרים כשיטה העיקרית שלכם להתמודדות עם תוכן כפול הוא שהשינויים עובדים רק עבור Google.
כללים שיושמו באמצעות מסוף החיפוש של גוגל לא ישפיעו על האופן שבו הסורקים של מנועי חיפוש אחרים מפרשים את האתר שלך; תצטרך להשתמש בכלי מנהלי האתרים עבור מנועי חיפוש אחרים בנוסף להתאמת ההגדרות ב- Search Console.

שיטות נוספות להתמודדות עם תוכן כפול

  1. שמרו על עקביות בשימוש בקישורים פנימיים דרך אתר אינטרנט.
    לדוגמה, אם מנהל אתר קובע שהגרסה הקנונית של תחום היא www.example.com/, כל הקישורים הפנימיים צריכים לעבור אל http://www.example.co … ולא אל –http://com / pa ..(שימו לב להיעדר ה-www).
  1. כאשר מבצעים סינדיקציה של תוכן, וודאו שאתר הסינדיקציה מוסיף קישור לתוכן המקורי ולא וריאציה בכתובת האתר.
  1. כדי להוסיף אמצעי הגנה נוסף מפני Scrapers של תוכן הגונבים ניקוד SEO מהתוכן שלכם, חכם להוסיף קישור rel=canonical להפניה עצמית לעמודים הקיימים שלכם.
    זוהי תכונה קנונית שמצביעה על כתובת האתר שהיא כבר נמצאת בה, והנקודה היא לסכל את המאמצים של אותן תוכנות אשר גונבות ומשכפלות את התוכן.

קישור הפניה עצמית = rel = canonical: כתובת האתר שצוינה בתג rel = canonical זהה לכתובת האתר הנוכחית של העמוד.

אמנם לא כל ה Scrapers יעבירו את קוד ה- HTML המלא של חומר המקור שלהם, אך חלקם יעשו זאת.
עבור אלה שכן, התג rel = canonical של ההתייחסות העצמית שדיברתי עליה הרגע יבטיח כי גרסת האתר שלך תקבל קרדיט כתוכן “המקורי”.