רציתי להוסיף הסבר קטן לגבי תהליך הסריקה של אתרים.
מנועי החיפוש משתמשים בזחלן/עכביש (crawler/spider) שסורק את האתרים באינטרנט. העכביש הוא מעין דפדפן פרימיטיבי שסורק את האתר ברמת הטקסט, מנתח אותו ומקטלג אותו, ואז בהתאם לנוסחה של מנוע החיפוש הספציפי קובע את דירוג העמוד עבור מילים וביטויים המופיעים בעמוד. מכיוון שהוא כמו דפדפן פרימיטיבי אז לעכביש יש בעיות באינדוקס עמודים דינמיים (עמודי פלאש למיניהם), עמודים הבנויים ממסגרות (frames), עמודים שדורשים אישור, או עמודים אחרים היוצרים מגבלה בסיסית.
אחרי שהעכביש מסיים לאנדקס עמוד הוא ממשיך בסריקה דרך הקישורים היוצאים מהעמוד, כך הוא סורק גם את שאר עמודי האתר ואת האתרים אליהם העמוד מקשר. אם יש באתר קישורי ג’אווה, ajax, או קישורים אחרים הכתובים בשפה דינמית, מנוע החיפוש לא יזהה אותם ולא ימשיך לאנדקס את העמודים בהמשך לקישורים אלה - מגבלה זאת מונעת ממנוע החיפוש לאנדקס את האתר כמו שצריך. כדי לפתור את זה ניתן להוסיף לעמודי האתר קישור למפת אתר (מומלץ לעשות זאת גם בלי קשר), למרות שעדיף להפוך את הקישורים האלה לפשוטים וגלויים עבור מנוע החיפוש כדי לא לפגוע במבנה הקישורים הפנימי באתר.
תדירות הסריקה משתנה מאתר לאתר בהתאם לתדירות השינויים באתר ובהתאם למספר הקישורים שמובילים לאתר. ככל שיש יותר קישורים המובילים לאתר העכביש יבקר בו יותר פעמים (זאת רק אחת הסיבות לחשיבות כמות גדולה של קישורים נכנסים לאתר). יש אתרים אותם העכביש סורק מידי דקה, ויש אתרים שהעכביש מבקר בהם פעם בשבוע (ניתן לראות את ביקורי העכביש בנתוני הסטטיסטיקה של האתר).
ניתן להטיל הגבלות על עכבישים של מנועי החיפוש בשתי דרכים:
1. תגיות HTML בקוד האתר שאומרות לעכביש האם לאנדקס או לא (index/noindex) את העמוד המסויים ואם להמשיך או לא (follow/nofollow) אחרי הקישורים היוצאים מהעמוד.
2. קובץ robots.txt זהו קובץ טקסט שיושב על השרת ושם ניתן להכניס הוראות שונות לעכביש ולבקש ממנו לסרוק/לא לסרוק ספריות, סוגי קבצים, עמודים ועוד. במידה ולא קיים קובץ כזה, העכביש יסרוק את כל האתר בהתאם למגבלות שנקבעו בתגיות הHTML .
הרעיון הבסיסי בקידום אתרים הוא לחשוב כמו מנוע החיפוש ולבנות אתר בהתאם. כמובן שנוחות וידידותיות לגולש הם עקרונות חשובים מאד בבניית אתר ובקידומו, אבל מתברר שבדרך כלל אתרים ידידותיים למנועי חיפוש הם גם ידידותיים ונוחים לגולשים.
פוסטים נוספים בנושא
No userהגיבו על הפוסט
הוסף תגובה