איך סורקים אתר שחוסם בוטים

אם בעבר שרתים היו מזהים בוטים וחוסמים סריקת אתר עבור כלים שסורקים מהר מדי את האתר והיינו פותרים את זה בקלות ככה – היום יש לא מעט אתרים ושרתים שהשתכללו וכבר לא מסתפקים בבדיקת מהירות (כי היי – הצלחנו לעבור את זה בקלות עם מעט סבלנות) ועושים בדיקת קוקיז.

מה זה אומר?

באופן די גורף – בוטים (שאינם גוגל או שלא שייכים לגוף רציני) לא שומרים קוקיז ופשוט נכנסים לאתר ומנסים להתחיל לסרוק. אבל אז בא אתר שנמאס לו מכל מני טפילים שמעמיסים לו על השרת – ומעוניין שרק בוטים תקינים (קרי: גוגל, בינג ודומיהם) וגולשים אמיתיים יוכלו לגשת אליו ועושה מספר בדיקות:

  1. האם הUser Agent שהבוט משתמש בו – תואם לIP המוצהר. כלומר – אם הבוט טוען שהוא googleBot אכן מגיע ממינסוטה ומשתמש ברשימת הIP המוצהרת של גוגל (את הרשימות אפשר למצוא פה או בחיפוש בגוגל)
  2. האם הביקור באתר הוא ברמת המהירות הסבירה (כלומר אין מצב גולש רגיל יהיה ב10 עמודים בחצי שניה ויעבור לכל עמודי האתר)
  3. האם השעון של המחשב ממנו מגיע הבוט – מכוון לשעה הנכונה (פרט שרוב הגופים שמריצים בוטים שוכחים לעשות)
  4. האם הדפדפן שבו משתמש הבוט – מקבל קוקיז.

אם התשובה לאחד הסעיפים הללו שלילית – הגלישה תחסם.

אז את סעיף 1 – קל מאוד לטפל. מצהירים שאנחנו Chrome או FireFox ואז אנחנו דפדפן רגיל שלא מתחזה לאף אחד. גם את סעיף 2 אפשר בקלות לטפל על ידי האטת מהירות הסריקה. סעיף 3 – מובן מאליו.

אבל מה עם הסעיף הרביעי? הרי הצפרדע שלנו היא דפדפן שלא מקבל קוקיז. נכון שאפשר לבקש שהיא תשמור קוקיז בסריקה – אבל זה קורה רק אחרי התחלת הסריקה ולא לפני. ובעצם הכניסה הראשונית שלנו לאתר לא מקבלת קוקיז ומיד אנחנו נחסמים.

אז מה שצריך לעשות – זה פשוט להכנס לאתר עם הצפרדע לפני הסריקה.

איך עושים את זה?

  1. הולכים ל Configuration -> authentication
  2. בוחרים בטאב Form Based.
  3. לוחצים על ADD
  4. מכניסים את כתובת האתר. הדומיין. ללא עמודים נוספים. כלומר https://www.domain.com.
  5. לוחצים OK
  6. יפתח דפדפן ובו אמור להופיע עמוד הבית של האתר שאתם רוצים לסרוק. לא נפתח? אתם חסומים על השרת כי כנראה ניסיתם לסרוק את האתר יותר מדי פעמים בדרך שגויה. חכו כמה ימים או השתמשו בVPN. עובד? לחצו OK.
  7. אתם תחזרו למסך הקודם ותראו שמופיעות בו שורות חדשות שלא היו קודם. זה אומר שהצלחתם וקיבלתם את הקוקיז.
  8. לחצו OK
  9. סרקו את האתר.
  10. האתר אמור להסרק בצורה תקנית.

זהו. סיימתם.

שוב – חשוב בסריקות האלו גם להאט קצב ולהיות מuser agent רגיל ומוכר.

כדאי לקפץ גם...

איך לסרוק אתרי E commerce בצורה היעילה ביותר עם סקרימינג פרוג?

סריקת אתרי חנויות יכולה להיות מאוד מאוד מתסכלת. גם אם האתר בנוי כמו שצריך מבחינת …

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.