מהו קובץ robots.txt?

Robots.txt הוא קובץ טקסט שמנהלי אתרים יוצרים בכדי להורות לסורקי האינטרנט (לבוטים של מנועי חיפוש) כיצד לסרוק דפים באתר שלהם.

קובץ robots.txt הוא חלק מפרוטוקול אי הכללת הרובוטים (REP), קבוצה של תקני רשת המסדירים את האופן בו רובוטים בוחנים את האתר, מקבלים גישה לתוכן ולאינדוקס ומציגים תוכן זה למשתמשים.

ה-REP כולל גם הנחיות כמו תגיות מטא-רובוטים, כמו גם הוראות בנושא ספריות משנה, עמוד משנה או הנחיות כלליות לאתר כולו ברמת ההתייחסות של מנועי חיפוש לקישורים ולתוכן (כגון ״follow״ או “nofollow״).

בפועל, קבצי robots.txt מציינים אם סוכני משתמש מסוימים (בוטים של סריקה באינטרנט) יכולים או לא יכולים לסרוק חלקים מאתר אינטרנט.
הוראות סריקה אלה מוגדרות על ידי “אי-אישור” (disallowing) או “מתן-אישור” (allowing) kהתנהגות של סוכני משתמש מסוימים (או כולם).

פורמט בסיסי:

User-agent: [user-agent name] Disallow: [URL string not to be crawled]

יחד, שתי שורות אלה נחשבות לקובץ robots.txt שלם – אם כי קובץ רובוטים אחד יכול להכיל מספר שורות של סוכני משתמש והנחיות (כלומר מתן אישור, אי-אישור, דחיית סריקה וכו׳).

בתוך קובץ robots.txt, כל קבוצה של הנחיות-סוכן משתמש מופיעה כסט נפרד ומופרדת על ידי מעבר שורה:

פקודות בקובץ robots.txt

בקובץ robots.txt עם הנחיות לבוטים מרובים, כל אי-אישור או איסור כלל חל רק על סוכני המשתמש שצוינו באותו מערך המופרד בין שורות.
אם הקובץ מכיל כלל החל על יותר מסוכן משתמש אחד, בוט סורק ישים לב ויעקוב אחר ההוראות אך ורק של קבוצת ההוראות הספציפית ביותר.

הנה דוגמה:

הסבר מעמיק על קובץ רובוטוס

הבוטים הסורקים: Msnbot, discobot ו-slurp זקוקים כולם לציון שם סוכן המשתמש שלהם באופן ספציפי, כך שסוכני המשתמש האלה ישימו לב רק להוראות בחלקים שלהם בקובץ ה-robots.txt.
סוכני המשתמש האחרים יפעלו לפי ההוראות בקבוצת סוכן המשתמש: *group.

דוגמאות לקבצי robots.txt

להלן מספר דוגמאות ל-robots בפעולה באתר www.example.com:

הכתובת של קובץ ה-robotx.txt: www.example.com/robots.txt

כדי לחסום את כל הסורקים ברשת מכל התוכן:

User-agent: * Disallow: /

השימוש בתחביר זה בקובץ robots.txt יאמר לכל סורקי האינטרנט שלא לסרוק דפים באתר www.example.com כולל דף הבית.

כדי לאפשר לכל סורקי האינטרנט גישה לכל התוכן:

User-agent: * Disallow:

השימוש בתחביר זה בקובץ robots.txt אומר לסורקי אתרים לסרוק את כל העמודים באתר כולל דף הבית.

חסימת סורק אינטרנט ספציפי מתיקיה ספציפית:

User-agent: Googlebot Disallow: /example-subfolder/

תחביר זה מורה רק לסורק של גוגל (שם סוכן משתמש Googlebot) שלא לסרוק דפים המכילים את מחרוזת ה-URL:www.example.com/example-subfolder/.

חסימת סורק אינטרנט ספציפי מדף אינטרנט ספציפי:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

תחביר זה אומר רק לסורק של בינג (שם סוכן משתמש Bing) להימנע מסריקת הדף הספציפי בכתובת www.example.com/example-subfolder/blocked-page.html.

איך robots.txt עובד?

למנועי חיפוש שני עבודות עיקריות:

  1. סריקת האינטרנט כדי לגלות תוכן;
  2. יצירת אינדקס לתוכן כך שניתן יהיה להציג אותו למחפשים במנועי החיפוש.

כדי לסרוק אתרים, מנועי חיפוש עוקבים אחר קישורים כדי להגיע מאתר לאתר – בסופו של דבר, הם ״זוחלים״ (מכן שמם, crawlers) על פני מיליארדי קישורים ואתרים רבים.
התנהגות זחילה זו מכונה לעיתים גם ״ spidering״.

לאחר הגעתו לאתר אך לפני הסריקה שלו, סורק החיפוש יחפש קובץ robots.txt.
אם הוא מוצא אחד, הסורק יקרא תחילה את הקובץ לפני שימשיך בדף.
מכיוון שקובץ robots.txt מכיל מידע על האופן בו מנוע החיפוש צריך לזחול, המידע שנמצא שם ינחה את המשך פעולת הסריקה שלו באתר.
אם קובץ robots.txt אינו מכיל הנחיות המונעות את פעילות סוכן המשתמש (או אם אין באתר קובץ robots.txt), הוא ימשיך לסרוק מידע אחר באתר.

דברים נוספים שפשוט חייבים לדעת על robots.txt:

(אני ארחיב על זה יותר גם בהמשך)

  • כדי להימצא, יש להציב קובץ txt בספרייה הראשית של אתר.
  • txt הוא קובץ תלוי צורת כתיבה – יש להקפיד על אותיות גדולות וקטנות.
  • סוכני משתמש (בוטים) מסוימים עשויים לבחור להתעלם מקובץ txt.
    זה נפוץ במיוחד אצל סורקים כמו רובוטים ותוכנות זדוניות או מאתרי כתובות דוא”ל.
  • קובץ txt זמין לציבור: פשוט הוסף /robots.txt לסוף כל תחום שורש כדי לראות את הוראות האתר (אם באתר קיים בכלל קובץ שכזה!).
    משמעות הדבר היא שכל אחד יכול לראות אילו דפים אתם רוצים, או לא רוצה שייסרקו.
    לכן – אל תשתמשו בהם כדי להסתיר מידע על משתמשים פרטיים.
  • כל תת-דומיין (subdomain דרך root domain) משתמש בקבצי txt נפרדים.
    פירוש הדבר הוא ש-blog.example.com ו-example.com זקוקים שניהם לקבצי robots.txt משלהם.
  • כדאי ומומלץ לציין את המיקום של כל מפות האתר הקשורות לדומיין בתחתית קובץ txt. הנה דוגמה:

מפות אתר בקובץ Robots.txt

Robots.txt: תחביר טכני

ניתן לחשוב על תחביר Robots.txt כ״שפה״ של קבצי robots.txt.
ישנם חמישה מונחים נפוצים שסביר להניח שנתקלתם בהם בקובץ רובוטים. הם כוללים:

  • סוכן משתמש (User-agent): סורק האינטרנט הספציפי שאליו אתה נותן הוראות סריקה (בדרך כלל מנוע חיפוש).
    כאן תוכל למצוא רשימה של מרבית סוכני המשתמשים.
  • אי-מתן אישור (Disallowing): הפקודה מנחה את הבוט שלא לסרוק כתובת URL מסוימת.
    רק שורה אחת של אי-מתן אישור מותרת לכל כתובת אתר.
  • אפשר (Allow – ישים רק ל-Googlebot): הפקודה אומרת לבוא של גוגל שהוא יכול לגשת לדף או לתיקיית משנה למרות שדף האם שלה עשויים להיות חסום לגישה.
  • עיכוב סריקה (Crawl-delay): כמה שניות סורק צריך להמתין לפני טעינה וסריקת תוכן העמוד.
    שימו לב ש-Googlebot לא מאשר פקודה זו, אך ניתן להגדיר את קצב הסריקה במסוף החיפוש של גוגל.
  • מפת אתר (sitemap): משמש כדי לקרוא את המיקום של כל מפת האתר (או אתרים) של XML המשויכים לכתובת אתר זו.
    שימו לב, פקודה זו נתמכת רק על ידי Google, Ask, Bing ו-Yahoo.

התאמת תבנית

כשמדובר בכתובות האתרים לחסימה או הרשאה בפועל, קבצי robots.txt יכולים להיות מורכבים למדי.
הסיבה לכך היא שהם מאפשרים שימוש בהתאמת דפוסים (pattern-matching) בכדי לכסות מגוון של אפשרויות URL.
גוגל ובינג שניהם מכבדים שני ביטויים רגילים שניתן להשתמש בהם כדי לזהות דפים או תיקיות משנה שברמת ה-SEO מנהל האתר מעוניין שלא לכלול.
שתי התווים הללו הם הכוכבית (*) וסימן הדולר ($).

  • * הוא תו כללי המייצג כל רצף של תווים
  • $ תואם בסוף כתובת האתר

גוגל מציעה רשימה נהדרת של התאמות תבניות ותחביר ודוגמאות להתאמת לדפוסים כאן.

היכן robots.txt מופיע באתר?

בכל פעם שהם מגיעים לאתר, מנועי חיפוש ורובוטים אחרים הסורקים באינטרנט (כמו הסורק של פייסבוק Facebot) יודעים לחפש קובץ robots.txt. אך עם זאת, הם יחפשו רק את הקובץ במקום ספציפי אחד: הספרייה הראשית (בדרך כלל דומיין השורש או דף הבית שלך).
אם סוכן משתמש מבקר בכתובת: www.example.com/robots.txt ולא מוצא שם קובץ רובוטים, הוא יניח שהאתר אינו מכיל אותו וימשיך בסריקת כל הדברים בדף (ואולי אפילו באתר כולו).
גם אם דף robots.txt היה קיים בכתובת לדוגמה: example.com/index/robots.txt או example.com/homepage/robots.txt – הוא לא יתגלה על ידי סוכני משתמשים והאתר יסרק כאילו אין בו קובץ רובוטים בכלל.

כדי להבטיח שקובץ robots.txt יימצא, כללו אותו תמיד בספריה הראשית או בדומיין השורש שלכם.

למה צריך robots.txt?

קבצי Robots.txt שולטים בגישת הסורק לאזורים מסוימים באתר שלך.
למרות שקיימת הסכנה שתמנעו בטעות, נניח, מ-Googlebot לסרוק את האתר כולו (!!) ישנם כמה מצבים שבהם קובץ robots.txt יכול להיות שימושי מאוד.

המקרים הנפוצים ביותר הם:

  • מניעת הופעת תוכן משוכפל ב-SERP (שימו לב שלעתים קרובות שימוש בתגית מטא רובוטים היא בחירה טובה יותר)
  • שמירה על חלקים שלמים באתר פרטיים (למשל, בעבור אנשי צוות בלבד)
  • מניעת הצגה של תוצאות חיפוש פנימיות ב-SERP ציבורי
  • ציון מיקום של מפות אתר(ים)
  • מניעת אינדוקס של מנועי חיפוש לקבצים מסוימים באתר (תמונות, קבצי PDF וכו׳)
  • ציון השהיית סריקה על מנת למנוע עומס יתר על השרתים כאשר הסורקים טוענים פיסות תוכן מרובות בבת אחת

אם אין אזורים באתר אליהם ברצונך לשלוט על גישת סוכן משתמש, ייתכן שלא תזדקק לקובץ robots.txt כלל.

איך בודקים אם יש לך קובץ robots.txt?

פשוט הקלידו את דומיין השורש שלכם, ואז הוסיפו /robots.txt לסוף כתובת האתר. לדוגמה, קובץ הרובוטים של Moz ממוקם בכתובת moz.com/robots.txt.

אם לא מופיע שום עמוד txt, אז אין לכם כרגע קובץ robots פעיל.

כיצד ליצור קובץ robots?

אם גילית שאין לך קובץ robots או שאתה רוצה לשנות את שלך, יצירת קובץ זה תהליך פשוט.
מאמר זה מגוגל עובר על תהליך יצירת קבצי robots, וכלי זה מאפשר לך לבדוק אם הקובץ שלך מוגדר כהלכה.

שיטות עבודה מומלצות ל-SEO

  • וודאו שאתם לא חוסמים תוכן או קטעים באתר שאתם רוצים שיסרקו.
  • קישורים בדפים שנחסמו על ידי txt לא יבוקרו. המשמעות היא
    1.) אלא אם כן הם מקושרים מדפים אחרים הנגישים למנועי חיפוש (כלומר, דפים שלא חסומים באמצעות תגיות מטא, הנחיות או robots.txt), המשאבים המקושרים לא ייסרקו וייתכן שאינם באינדקס.
    2.) לא ניתן להעביר equity של קישור מהדף החסום ליעד הקישור.
    אם יש לך דפים אליהם אתה מעוניין שיועבר ה-equity, השתמש במנגנון חסימה אחר שאינו robots.txt.
  • אל תשתמשו ב-txt כדי לחסום נתונים רגישים (כמו פרטים אישיים של משתמשים) בתוצאות SERP.
    הסיבה לכך היא שמכיוון שדפים אחרים עשויים לקשר ישירות לדף המכיל מידע פרטי (ובכך לעקוף את הוראות robots בדומיין השורש או בדף הבית שלך), הוא עשוי עדיין לקבל אינדקס.
    אם ברצונך לחסום את הדף שלך מתוצאות חיפוש, השתמש בשיטה אחרת כמו הגנת סיסמה או הנחיית מטא של noindex.
  • בחלק ממנועי החיפוש יש סוכני משתמשים מרובים.
    לדוגמה, גוגל משתמשת ב-Googlebot לחיפוש אורגני וב-Googlebot-Image לחיפוש תמונות.
    רוב סוכני המשתמש מאותו מנוע חיפוש פועלים לפי אותם הכללים, כך שאין צורך לציין הנחיות עבור כל אחד ממספר הסורקים של מנוע החיפוש, אך היכולת לעשות זאת מאפשרת לכם לכוונן את אופן הסריקה של תוכן האתר שלכם באופן ספציפי ומדויק יותר.
  • מנוע חיפוש יטמון את תוכן txt ב-cache, אך בדרך כלל מעדכן את תוכן ה-cache לפחות פעם ביום.
    אם תשנה את הקובץ וברצונך לעדכן אותו במהירות רבה יותר ממה שקורה, תוכל לשלוח את כתובת ה-robots ישירות לגוגל.

תגית מטא רובוטים מול x-robots ו-robots.txt – מה עדיף?

כל כך הרבה רובוטים! מה ההבדל בין שלושת סוגי הוראות הרובוט האלה? ראשית, robots.txt הוא קובץ טקסט בפועל, ואילו תגיות מטא רובוטים ו-x-robots הם הנחיות מטא.
מעבר למה שהם למעשה, השלושה משרתים פונקציות שונות.
robots.txt מכתיב התנהגות סריקה באתר או בספריה, ואילו מטא רובוטים ו-x-robots יכולים להכתיב התנהגות אינדקס ברמת הדף (או אלמנט בעמוד).