Robots.txt – מה זה הקובץ הזה ואיך נשתמש?

הבסיס לאינדוקס מעולה לאתר שלך טמון בשימוש נכון בקבצי robots.txt - להלן כל מה שצריך לדעת כדי לוודא שמנועי החיפוש סורקים את האתר שלך בצורה הכי מדויקת שאפשר

תוכן עניינים

מהו קובץ robots.txt?

Robots.txt הוא קובץ טקסט שמנהלי אתרים יוצרים בכדי להורות לסורקי האינטרנט (לבוטים של מנועי חיפוש) כיצד לסרוק דפים באתר שלהם.

קובץ robots.txt הוא חלק מפרוטוקול אי הכללת הרובוטים (REP), קבוצה של תקני רשת המסדירים את האופן בו רובוטים בוחנים את האתר, מקבלים גישה לתוכן ולאינדוקס ומציגים תוכן זה למשתמשים.

ה-REP כולל גם הנחיות כמו תגיות מטא-רובוטים, כמו גם הוראות בנושא ספריות משנה, עמוד משנה או הנחיות כלליות לאתר כולו ברמת ההתייחסות של מנועי חיפוש לקישורים ולתוכן (כגון ״follow״ או “nofollow״).

בפועל, קבצי robots.txt מציינים אם סוכני משתמש מסוימים (בוטים של סריקה באינטרנט) יכולים או לא יכולים לסרוק חלקים מאתר אינטרנט.
הוראות סריקה אלה מוגדרות על ידי "אי-אישור" (disallowing) או "מתן-אישור" (allowing) kהתנהגות של סוכני משתמש מסוימים (או כולם).

פורמט בסיסי:

User-agent: [user-agent name] Disallow: [URL string not to be crawled]

יחד, שתי שורות אלה נחשבות לקובץ robots.txt שלם – אם כי קובץ רובוטים אחד יכול להכיל מספר שורות של סוכני משתמש והנחיות (כלומר מתן אישור, אי-אישור, דחיית סריקה וכו׳).

בתוך קובץ robots.txt, כל קבוצה של הנחיות-סוכן משתמש מופיעה כסט נפרד ומופרדת על ידי מעבר שורה:

בקובץ robots.txt עם הנחיות לבוטים מרובים, כל אי-אישור או איסור כלל חל רק על סוכני המשתמש שצוינו באותו מערך המופרד בין שורות.
אם הקובץ מכיל כלל החל על יותר מסוכן משתמש אחד, בוט סורק ישים לב ויעקוב אחר ההוראות אך ורק של קבוצת ההוראות הספציפית ביותר.

הנה דוגמה:

הבוטים הסורקים: Msnbot, discobot ו-slurp זקוקים כולם לציון שם סוכן המשתמש שלהם באופן ספציפי, כך שסוכני המשתמש האלה ישימו לב רק להוראות בחלקים שלהם בקובץ ה-robots.txt.
סוכני המשתמש האחרים יפעלו לפי ההוראות בקבוצת סוכן המשתמש: *group.

דוגמאות לקבצי robots.txt

להלן מספר דוגמאות ל-robots בפעולה באתר www.example.com:

הכתובת של קובץ ה-robotx.txt: www.example.com/robots.txt

כדי לחסום את כל הסורקים ברשת מכל התוכן:

User-agent: * Disallow: /

השימוש בתחביר זה בקובץ robots.txt יאמר לכל סורקי האינטרנט שלא לסרוק דפים באתר www.example.com כולל דף הבית.

כדי לאפשר לכל סורקי האינטרנט גישה לכל התוכן:

User-agent: * Disallow:

השימוש בתחביר זה בקובץ robots.txt אומר לסורקי אתרים לסרוק את כל העמודים באתר כולל דף הבית.

חסימת סורק אינטרנט ספציפי מתיקיה ספציפית:

User-agent: Googlebot Disallow: /example-subfolder/

תחביר זה מורה רק לסורק של גוגל (שם סוכן משתמש Googlebot) שלא לסרוק דפים המכילים את מחרוזת ה-URL:www.example.com/example-subfolder/.

חסימת סורק אינטרנט ספציפי מדף אינטרנט ספציפי:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

תחביר זה אומר רק לסורק של בינג (שם סוכן משתמש Bing) להימנע מסריקת הדף הספציפי בכתובת www.example.com/example-subfolder/blocked-page.html.

איך robots.txt עובד?

למנועי חיפוש שני עבודות עיקריות:

  1. סריקת האינטרנט כדי לגלות תוכן;
  2. יצירת אינדקס לתוכן כך שניתן יהיה להציג אותו למחפשים במנועי החיפוש.

כדי לסרוק אתרים, מנועי חיפוש עוקבים אחר קישורים כדי להגיע מאתר לאתר – בסופו של דבר, הם ״זוחלים״ (מכן שמם, crawlers) על פני מיליארדי קישורים ואתרים רבים.
התנהגות זחילה זו מכונה לעיתים גם ״ spidering״.

לאחר הגעתו לאתר אך לפני הסריקה שלו, סורק החיפוש יחפש קובץ robots.txt.
אם הוא מוצא אחד, הסורק יקרא תחילה את הקובץ לפני שימשיך בדף.
מכיוון שקובץ robots.txt מכיל מידע על האופן בו מנוע החיפוש צריך לזחול, המידע שנמצא שם ינחה את המשך פעולת הסריקה שלו באתר.
אם קובץ robots.txt אינו מכיל הנחיות המונעות את פעילות סוכן המשתמש (או אם אין באתר קובץ robots.txt), הוא ימשיך לסרוק מידע אחר באתר.

דברים נוספים שפשוט חייבים לדעת על robots.txt:

(אני ארחיב על זה יותר גם בהמשך)

  • כדי להימצא, יש להציב קובץ txt בספרייה הראשית של אתר.
  • txt הוא קובץ תלוי צורת כתיבה – יש להקפיד על אותיות גדולות וקטנות.
  • סוכני משתמש (בוטים) מסוימים עשויים לבחור להתעלם מקובץ txt.
    זה נפוץ במיוחד אצל סורקים כמו רובוטים ותוכנות זדוניות או מאתרי כתובות דוא"ל.
  • קובץ txt זמין לציבור: פשוט הוסף /robots.txt לסוף כל תחום שורש כדי לראות את הוראות האתר (אם באתר קיים בכלל קובץ שכזה!).
    משמעות הדבר היא שכל אחד יכול לראות אילו דפים אתם רוצים, או לא רוצה שייסרקו.
    לכן – אל תשתמשו בהם כדי להסתיר מידע על משתמשים פרטיים.
  • כל תת-דומיין (subdomain דרך root domain) משתמש בקבצי txt נפרדים.
    פירוש הדבר הוא ש-blog.example.com ו-example.com זקוקים שניהם לקבצי robots.txt משלהם.
  • כדאי ומומלץ לציין את המיקום של כל מפות האתר הקשורות לדומיין בתחתית קובץ txt. הנה דוגמה:

Robots.txt: תחביר טכני

ניתן לחשוב על תחביר Robots.txt כ״שפה״ של קבצי robots.txt.
ישנם חמישה מונחים נפוצים שסביר להניח שנתקלתם בהם בקובץ רובוטים. הם כוללים:

  • סוכן משתמש (User-agent): סורק האינטרנט הספציפי שאליו אתה נותן הוראות סריקה (בדרך כלל מנוע חיפוש).
    כאן תוכל למצוא רשימה של מרבית סוכני המשתמשים.
  • אי-מתן אישור (Disallowing): הפקודה מנחה את הבוט שלא לסרוק כתובת URL מסוימת.
    רק שורה אחת של אי-מתן אישור מותרת לכל כתובת אתר.
  • אפשר (Allow – ישים רק ל-Googlebot): הפקודה אומרת לבוא של גוגל שהוא יכול לגשת לדף או לתיקיית משנה למרות שדף האם שלה עשויים להיות חסום לגישה.
  • עיכוב סריקה (Crawl-delay): כמה שניות סורק צריך להמתין לפני טעינה וסריקת תוכן העמוד.
    שימו לב ש-Googlebot לא מאשר פקודה זו, אך ניתן להגדיר את קצב הסריקה במסוף החיפוש של גוגל.
  • מפת אתר (sitemap): משמש כדי לקרוא את המיקום של כל מפת האתר (או אתרים) של XML המשויכים לכתובת אתר זו.
    שימו לב, פקודה זו נתמכת רק על ידי Google, Ask, Bing ו-Yahoo.

התאמת תבנית

כשמדובר בכתובות האתרים לחסימה או הרשאה בפועל, קבצי robots.txt יכולים להיות מורכבים למדי.
הסיבה לכך היא שהם מאפשרים שימוש בהתאמת דפוסים (pattern-matching) בכדי לכסות מגוון של אפשרויות URL.
גוגל ובינג שניהם מכבדים שני ביטויים רגילים שניתן להשתמש בהם כדי לזהות דפים או תיקיות משנה שברמת ה-SEO מנהל האתר מעוניין שלא לכלול.
שתי התווים הללו הם הכוכבית (*) וסימן הדולר ($).

  • * הוא תו כללי המייצג כל רצף של תווים
  • $ תואם בסוף כתובת האתר

גוגל מציעה רשימה נהדרת של התאמות תבניות ותחביר ודוגמאות להתאמת לדפוסים כאן.

היכן robots.txt מופיע באתר?

בכל פעם שהם מגיעים לאתר, מנועי חיפוש ורובוטים אחרים הסורקים באינטרנט (כמו הסורק של פייסבוק Facebot) יודעים לחפש קובץ robots.txt. אך עם זאת, הם יחפשו רק את הקובץ במקום ספציפי אחד: הספרייה הראשית (בדרך כלל דומיין השורש או דף הבית שלך).
אם סוכן משתמש מבקר בכתובת: www.example.com/robots.txt ולא מוצא שם קובץ רובוטים, הוא יניח שהאתר אינו מכיל אותו וימשיך בסריקת כל הדברים בדף (ואולי אפילו באתר כולו).
גם אם דף robots.txt היה קיים בכתובת לדוגמה: example.com/index/robots.txt או example.com/homepage/robots.txt – הוא לא יתגלה על ידי סוכני משתמשים והאתר יסרק כאילו אין בו קובץ רובוטים בכלל.

כדי להבטיח שקובץ robots.txt יימצא, כללו אותו תמיד בספריה הראשית או בדומיין השורש שלכם.

למה צריך robots.txt?

קבצי Robots.txt שולטים בגישת הסורק לאזורים מסוימים באתר שלך.
למרות שקיימת הסכנה שתמנעו בטעות, נניח, מ-Googlebot לסרוק את האתר כולו (!!) ישנם כמה מצבים שבהם קובץ robots.txt יכול להיות שימושי מאוד.

המקרים הנפוצים ביותר הם:

  • מניעת הופעת תוכן משוכפל ב-SERP (שימו לב שלעתים קרובות שימוש בתגית מטא רובוטים היא בחירה טובה יותר)
  • שמירה על חלקים שלמים באתר פרטיים (למשל, בעבור אנשי צוות בלבד)
  • מניעת הצגה של תוצאות חיפוש פנימיות ב-SERP ציבורי
  • ציון מיקום של מפות אתר(ים)
  • מניעת אינדוקס של מנועי חיפוש לקבצים מסוימים באתר (תמונות, קבצי PDF וכו׳)
  • ציון השהיית סריקה על מנת למנוע עומס יתר על השרתים כאשר הסורקים טוענים פיסות תוכן מרובות בבת אחת

אם אין אזורים באתר אליהם ברצונך לשלוט על גישת סוכן משתמש, ייתכן שלא תזדקק לקובץ robots.txt כלל.

איך בודקים אם יש לך קובץ robots.txt?

פשוט הקלידו את דומיין השורש שלכם, ואז הוסיפו /robots.txt לסוף כתובת האתר. לדוגמה, קובץ הרובוטים של Moz ממוקם בכתובת moz.com/robots.txt.

אם לא מופיע שום עמוד txt, אז אין לכם כרגע קובץ robots פעיל.

כיצד ליצור קובץ robots?

אם גילית שאין לך קובץ robots או שאתה רוצה לשנות את שלך, יצירת קובץ זה תהליך פשוט.
מאמר זה מגוגל עובר על תהליך יצירת קבצי robots, וכלי זה מאפשר לך לבדוק אם הקובץ שלך מוגדר כהלכה.

שיטות עבודה מומלצות ל-SEO

  • וודאו שאתם לא חוסמים תוכן או קטעים באתר שאתם רוצים שיסרקו.
  • קישורים בדפים שנחסמו על ידי txt לא יבוקרו. המשמעות היא
    1.) אלא אם כן הם מקושרים מדפים אחרים הנגישים למנועי חיפוש (כלומר, דפים שלא חסומים באמצעות תגיות מטא, הנחיות או robots.txt), המשאבים המקושרים לא ייסרקו וייתכן שאינם באינדקס.
    2.) לא ניתן להעביר equity של קישור מהדף החסום ליעד הקישור.
    אם יש לך דפים אליהם אתה מעוניין שיועבר ה-equity, השתמש במנגנון חסימה אחר שאינו robots.txt.
  • אל תשתמשו ב-txt כדי לחסום נתונים רגישים (כמו פרטים אישיים של משתמשים) בתוצאות SERP.
    הסיבה לכך היא שמכיוון שדפים אחרים עשויים לקשר ישירות לדף המכיל מידע פרטי (ובכך לעקוף את הוראות robots בדומיין השורש או בדף הבית שלך), הוא עשוי עדיין לקבל אינדקס.
    אם ברצונך לחסום את הדף שלך מתוצאות חיפוש, השתמש בשיטה אחרת כמו הגנת סיסמה או הנחיית מטא של noindex.
  • בחלק ממנועי החיפוש יש סוכני משתמשים מרובים.
    לדוגמה, גוגל משתמשת ב-Googlebot לחיפוש אורגני וב-Googlebot-Image לחיפוש תמונות.
    רוב סוכני המשתמש מאותו מנוע חיפוש פועלים לפי אותם הכללים, כך שאין צורך לציין הנחיות עבור כל אחד ממספר הסורקים של מנוע החיפוש, אך היכולת לעשות זאת מאפשרת לכם לכוונן את אופן הסריקה של תוכן האתר שלכם באופן ספציפי ומדויק יותר.
  • מנוע חיפוש יטמון את תוכן txt ב-cache, אך בדרך כלל מעדכן את תוכן ה-cache לפחות פעם ביום.
    אם תשנה את הקובץ וברצונך לעדכן אותו במהירות רבה יותר ממה שקורה, תוכל לשלוח את כתובת ה-robots ישירות לגוגל.

תגית מטא רובוטים מול x-robots ו-robots.txt – מה עדיף?

כל כך הרבה רובוטים! מה ההבדל בין שלושת סוגי הוראות הרובוט האלה? ראשית, robots.txt הוא קובץ טקסט בפועל, ואילו תגיות מטא רובוטים ו-x-robots הם הנחיות מטא.
מעבר למה שהם למעשה, השלושה משרתים פונקציות שונות.
robots.txt מכתיב התנהגות סריקה באתר או בספריה, ואילו מטא רובוטים ו-x-robots יכולים להכתיב התנהגות אינדקס ברמת הדף (או אלמנט בעמוד).

ידע הוא כוח.

כאן המקום ליהנות ממידע שימושי שיעזור לכם לעשות סדר בכל ה-do’s and don’ts הדינמיים של הג’ונגל הדיגיטלי, שמשתנה כל הזמן. הבלוג מלא במידע שימושי שהכינו לכם המומחים שלנו, קחו אותו

קידום אתרי וורדפרס

בעלי אתר וורדפרס כזה או אחר? אצלנו בבונובו, תוכלו ליהנות ממגוון רחב של שירותים מקצועיים המיועדים למטרות קידום אתרי וורדפרס בדרך היעילה, המהירה והנכונה ביותר.

קראו עוד

גוגל אנליטיקס 4 – המדריך המלא שיעשה לכם סדר.

בחודש אוקטובר 2020, חברת גוגל הכריזה באופן רשמי על השקת גוגל אנליטיקס 4 – הגרסה החדשה והמשופרת של יוניברסל אנליטיקס. גרסה זו מבוססת על מערכת App + Web property אותה חשפה גוגל באמצע שנת 2019, והיא משלבת בתוכה מגוון רחב של הרחבות ושיפורים בהשוואה לגרסה הקודמת. החל מיולי 2023, הגרסא ה"ישנה" של גוגל אנליטיקס (היוניברסל) תרד מהאוויר וגוגל אנליטיקס 4 יהיה ברירת המחדל. אז על מנת להבין מהם השיפורים והיכולות של גוגל אנליטיקס דור 4, "נצלול" לרגע למושגי יסוד בסיסיים וננסה להבין מה זה גוגל אנליטיקס בכלל.

קראו עוד

כל מה שצריך לדעת על On-site SEO ו-Off-site SEO

בעולם השיווק הדיגיטלי, SEO הוא הנשק הסודי שלך להצלחה באינטרנט. זוהי האומנות של אופטימיזציה של תוכן האינטרנט שלך כך שיוצג בגאון בתוצאות החיפוש ויכה הדים בדיוק איפה שהקהל שלך נמצא. אם נצלול לעומקה של תורת ה-SEO נמצא שכל אלמנט באתר שלנו, ממילות מפתח ועד חווית משתמש, מכילים את המפתח להעלאת ביצועי האתר שלך, וכדאי לנו להתעסק, להעמיק ולהחכים בתחום.

קראו עוד
מחקר מילות מפתח

מחקר מילות מפתח: המדריך המקיף למחקר מילות מפתח

בעוד ש-SEO מוצג לעתים קרובות כרשת מורכבת של פעולות טכניות ואלגוריתמים המשתנים ללא הרף, אנחנו כאן כדי לפשט זאת. במאמר זה ננווט במבוך של קידום מילות המפתח, ובסופו של דבר לא רק תהיה לכם הבנה ברורה של הנושא אלא גם ידע מעשי כדי לשפר את הנראות של האתר שלכם, ולהתחיל לטפס במדרגות הקידום והדירוג. 

קראו עוד
קישורים חיצוניים

מה זה קישורים חיצוניים (Backlinks) ולמה צריך אותם?

הרשת בנויה מאינספור דפים שמקושרים, לפעמים, אחד לשני ומובילים זה לזה. אבל מה שאנחנו לא תמיד מבינים הוא שהקישורים האלה הם הרבה יותר מסימני דרך, הם כלים שיכולים לסייע לכם לקדם את האתר שלכם בצורה שלא ניתנת לשיעור. איך בדיוק? תנו לנו להסביר לכם. 

קראו עוד
כאן לכל שאלה
היי 👋
אנחנו פה לעזור