דמיינו לעצמכם, השנה היא 1994 והאינטרנט בדיוק מתחיל לתפוס תאוצה בעולם. גם תחום בניית האתרים הופך לנגיש הרבה יותר ואתרים רבים ומגוונים עולים לאויר, כולם עם אותה מטרה – שיגיעו אליהם וימצאו אותם. מנועי החיפוש מתאמצים לסרוק את כמויות התוכן והעמודים החדשים שעולים ברחבי האינטרנט בכל יום אבל מתקשים מאד לעמוד בקצב ולסרוק את כולם (וגם מאז הקצב רק עולה).
אז, בדיוק לפני 25 שנים בתאריך ה-3 ליולי, הגיע בחור הולנדי חביב בשם מרטין קוסטר, מהנדס תוכנה שהקים בעצמו מנוע חיפוש בשם Aliweb שנחשב למנוע החיפוש הראשון באינטרנט. אותו בחור חביב שהיה בעצם מחלוצי עולם החיפוש באינטרנט החליט שקצה נפשו בעומסים ובמשאבים שדורשים כל העמודים החדשים, וניסח פרוטוקול חדש כדי ליצור סטנדרט שיקל על כל מנהלי האתרים שרוצים שהעמודים החשובים להם באתר יסרקו.
בעזרת הפרוטוקול החדש כל מנהל אתר יוכל למנוע מעמודים לא חשובים או כאלה שהוא לא מעוניין שמנועי חיפוש יגשו אליהם מכל סיבה אחרת להיסרק ולאפשר למנוע החיפוש להשתמש במשאבי הסריקה שלו לטובת העמודים החשובים ביותר.
כך נולד לו לעולם קובץ ה-robots.txt
מזל טוב!
via GIPHY
אז בואו נבין רגע קצת יותר לעומק את הקובץ, את המהות, ואת המשמעות
מהם Robots – מי אלו הרובוטים האלה שהקובץ הזה מדבר עליהם?
רובוטים, בוטים, קרולרים (Crawler) או אפילו עכבישים הם בעצם שירותים אוטומטיים שסורקים אתרים. באופן כללי לכל מנוע חיפוש יש כלי כזה שכל התפקיד שלו בעולם הוא לרוץ על גבי האינטרנט מ-URL ל-URL ופשוט לסרוק אותן. ככה מנועי החיפוש מגלים תכנים חדשים ברשת ושינויים לתכנים שכבר היו קיימים בה באופן אוטומטי (כלומר בלי “עידוד” שלנו כמו הגשת מפת אתר).
בוטים לדוגמה – Googlebot, Bingbot, msnbot, Googlebot-Image
מהו קובץ ה-Robots?
קובץ הרובוטס עצמו הוא קובץ טקסט רגיל (TXT) שבנוי בדרך מסוימת מאד ובמבנה קבוע, המתאים ומוסכם לקריאה ע”י הקרולרים של מנועי החיפוש השונים – מה שאומר שפה פשוטה מאד, ומבנה מדויק. הקובץ נקרא גם לפעמים “קובץ חריגות לבוטים”, ונוצר במקור בעיקר תודות להסכמות עקרוניות בין מנועי החיפוש למנהלי האתרים על כך שישנם מקומות שחסימת גישה אליהם היא לגיטימית, כמו שאמרנו – בעיקר כדי לחסוך משאבי סריקה ומיקוד הסריקה בעמודים חשובים.
חשוב לזכור שהקובץ מהווה המלצה בלבד למנועי החיפוש, לא חסימה אבטחתית מסוג כלשהו, ושגם אם עמוד כלשהו אינו מורשה לסריקה בקובץ עדיין יכול להיות שמנועי החיפוש יגיעו אליו מקישור חיצוני או מקור אחר.
בגדול – אומר לבוטים של מנועי החיפוש להיכן יש להם גישה באתר ולהיכן אין.
כאמור, הבוטים מדלגים להם מ-URL ל-URL בין האתרים וכך סורקים את הרשת.
לפני שהם עוברים מ-URL ל-URL הם עוצרים לרגע בקובץ שלנו ובודקים אם יש להם גישה לשם.
אם יש להם גישה הם יסרקו את ה-URL שמצאו וימשיכו הלאה, אם אין להם גישה אז הם לא יסרקו את ה-URL שאליו הגיעו וימשיכו ל-URL הבא.
בעד
תקציב סריקה (זחילה) – מכיוון שהעולם רווי באתרי אינטרנט, עמודי אינטרנט ותכנים משלל נושאים וצורות, המשאבים הדרושים ממנועי החיפוש להמשיך לסרוק ולהגיע לכל העמודים האלה ולעמוד בקצב ההתחדשות והעליה שלהם הם מאד מאד גדולים.
לכן, לכל אתר יש “מכסת זחילה” הקובעת כמה עמודים יסרקו ע”י הקרולרים באתר שלכם, מה שנקרא גם תקציב זחילה. ע”י חסימת תיקיות לא רלוונטיות באתר לסריקת הבוטים אתם בעצם מונעים “בזבוז” של התקציב ומעודדים אותם להמשיך הלאה ולסרוק את העמודים שאתם כן רוצים שהם יסרקו תחת המכסה הזו.
נגד
תוצאות חיפוש חסומות – אנחנו אמנם יכולים להגיד למנועי החיפוש אילו עמודים לא לסרוק, אבל אנחנו לא יכולים לומר להם אילו עמודים להראות בתוצאות החיפוש. במידה וישנו עמוד שחסום בקובץ ה-Robots אבל מנוע החיפוש מחליט שהוא רוצה להציג אותו בתוצאות החיפוש לביטוי כלשהו זה יראה כך –
לכן, מומלץ להקדים תרופה למכה ולודא ש-
אז כמו שאמרנו, קובץ ה-Robots הוא קובץ טקסט פשוט, שנועד לסמן לסורקים של מנועי החיפוש למיניהם להיכן אין צורך שיכנסו באתרים ואיפה נמצאת מפת האתר שלהם, שיכולה לספק להם רשימה מסודרת של העמודים הרלוונטיים באתר. ככזה, רוב הקובץ מכיל פשוט התייחסות לגבי הבוט שהוא מדבר עליו\אליו (User Agent), ותיקיות החסומות לגישה.
כל קובץ צריך להתחיל בהצהרת ה-User Agent הרלוונטי (*/Googlebot/Bingbot וכד’), ואחריה הפקדים (Allow/Disallow/Sitemap) והתיקיות החסומות לו.
לדוגמה:
User-agent: googlebot
Disallow: /photo/
Sitemap: https://www.site.com/sitemap-index.xml
חלק ממנהלי האתרים משתמשים בקובץ כדי לנסות ולתקשר בצורה מתקדמת יותר עם הבוטים, והכניסו פקדים שלא נתמכים רשמית כמו Host ו-Crawl Delay כדי להגדיל את השליטה על הסריקה (אם מה שלא עובד לא פוגע בך – למה לא לנסות את הכל?)
קודם כל מעולה שהבנתם, לא היה לנו ספק!
ועכשיו לעניינינו – גוגל הודיעו שלשום שלאחר שנים רבות של כוונות לעשות את זה, הוחלט לכבוד יום הולדת ה-25 לקובץ שהחל מה-1 לספטמבר השנה הסטנדרט שהציע מרטין מיודענו יהפוך לסטנדרט הרשמי לקובץ, והם יפסיקו לתמוך בכל מיני פקדים מיוחדים שמנהלי אתרים משתמשים בהם ואינם חלק מאותו סטנדרט, בעיקר ב-NoIndex ו-NoFollow
אז איך בנוי עכשיו הקובץ, מה השתנה?
כלום.
מבנה הקובץ תמיד היה קבוע ודרש סדר ו-Syntax מסוים. כאן אין שום שינוי.
את שניים מהפקדים שגוגל מתייחסים אליהם – Crawl Delay ו-Host – הזכרנו תחת סעיף מבנה הקובץ, שמוכרים ע”י Bing, Yandex ו-Yahoo! אבל גוגל אינו מכיר בהם.
גוגל פשוט ימשיכו לא להכיר בהם, אבל עכשיו באופן רשמי.
שני הפקדים האחרים הם פקדי Meta ומעולם לא נועדו להיות בתוך הקובץ, אלא ב-HTML של עמודי האתר עצמם (אם אנחנו רוצים שמנועי חיפוש לא יסרקו אותם).
גם כאן גוגל פשוט הופכים את הנושא לרשמי, מונעים אי אלו אי-הבנות, ואומרים למנהלי האתרים להשתמש בפקדים השונים במקומם הנכון והראוי.
אופס, יש את הדברים האלה ב-Robots.txt של האתר שלי, מה לעשות?
via GIPHY
אל דאגה, במידה ואתם משתמשים באחד מהפקדים האלה כל מה שאתם צריכים לעשות הוא – להסיר אותו משם. במקרה הטוב הוא לא מועיל, החל מספטמבר הוא יכול גם להזיק לכם.
אם תרצו בכל זאת לחסום לאינדוקס את אותם עמודים שהיו חסומים בקובץ יש לכם כמה אלטרנטיבות:
לסיכום
אין באמת חדש תחת השמש עם ההודעה האחרונה של גוגל, מדובר סך הכל בהפיכת פרוטוקול מוסכם לרשמי. עם זאת, כמו בכל דבר שגוגל “מיישר קו” לגביו, זה לא מופרך לצפות בהמשך הדרך גם שיהיו בעיות למי שלא מתיישר עם אותו קו. אז אם במקרה אתם יודעים שאצלכם באתר קיים שימוש בפקדים לא תקינים, אם אתם חושבים שלא מספיק מהעמודים החשובים שלכם באתר נסרקים ומופיעים בגוגל, או אם אתם פשוט מרגישים שהאתר שלכם לא ממצה את הפוטנציאל שלו בחיפוש – דברו איתנו, נשמח לבדוק את האתר שלכם