ما هي زواحف الويب (Web Crawlers)؟

لكي يظهر موقعك في نتائج البحث، تستخدم جوجل (بالإضافة إلى محركات بحث أخرى مثل بينج، ياندكس، بايدو، نافير، ياهو أو دك دك جو) زواحف الويب لتصفح الموقع واكتشاف المواقع وصفحات الويب الخاصة بها.

تختلف حصص السوق لكل محرك بحث حسب كل دولة.

في هذا الدليل نغطي جوجل، وهو أكبر محرك بحث في معظم الدول. مع ذلك، قد ترغب في التحقق من محركات البحث الأخرى وإرشاداتها، خاصة إذا كان عملاؤك المستهدفون في الصين، روسيا، اليابان أو كوريا الجنوبية.

بينما توجد بعض الاختلافات عندما يتعلق الأمر بالتصنيف (Ranking) والعرض (Rendering)، فإن معظم محركات البحث تعمل بطريقة متشابهة جدًا فيما يخص الزحف (Crawling) والفهرسة (Indexing).

زواحف الويب هي نوع من الروبوتات (Bots) تحاكي المستخدمين وتتنقل عبر الروابط الموجودة على المواقع لفهرسة الصفحات. تعرّف زواحف الويب نفسها باستخدام وكلاء المستخدم (User-Agents) المخصصة. لدى جوجل عدة زواحف ويب، ولكن الأكثر استخدامًا هي Googlebot Desktop و Googlebot Smartphone.

كيف يعمل Googlebot؟

مخطط تدفق Googlebot

الرحلة التي يقوم بها Googlebot لفهرسة صفحات الويب

نظرة عامة على العملية يمكن أن تكون كالتالي:

  • العثور على عناوين URL: تجمع جوجل عناوين URL من مصادر عديدة، بما في ذلك Google Search Console، الروابط بين المواقع، أو خرائط الموقع XML.
  • إضافة إلى قائمة الزحف: تضاف هذه العناوين إلى قائمة الزحف (Crawl Queue) لمعالجتها من قبل Googlebot. عادة ما تبقى العناوين في قائمة الزحف لثوانٍ، ولكن قد تصل إلى بضعة أيام حسب الحالة، خاصة إذا كانت الصفحات تحتاج إلى عرض، فهرسة، أو - إذا كان العنوان مفهرسًا بالفعل - تحديث. ثم تدخل الصفحات إلى قائمة العرض (Render Queue).
  • طلب HTTP: يقوم الزاحف بطلب HTTP للحصول على الرؤوس ويتصرف وفقًا لرمز الحالة الذي يتم إرجاعه:
    • 200: يقوم بالزحف وتحليل HTML.
    • 30X: يتبع عمليات إعادة التوجيه.
    • 40X: يسجل الخطأ ولا يقوم بتحميل HTML.
    • 50X: قد يعود لاحقًا للتحقق مما إذا كان رمز الحالة قد تغير.
  • قائمة العرض: تقوم الخدمات والمكونات المختلفة لنظام البحث بمعالجة HTML وتحليل المحتوى. إذا كانت الصفحة تحتوي على محتوى يعتمد على جافاسكريبت من جانب العميل، فقد تضاف العناوين إلى قائمة العرض. قائمة العرض أكثر تكلفة لجوجل حيث تحتاج إلى استخدام المزيد من الموارد لعرض جافاسكريبت، وبالتالي فإن العناوين المعروضة تمثل نسبة أصغر من إجمالي الصفحات على الإنترنت. قد لا تمتلك بعض محركات البحث الأخرى نفس القدرة على العرض مثل جوجل، وهنا يمكن أن يساعدك Next.js في استراتيجية العرض الخاصة بك.
  • جاهز للفهرسة: إذا تم استيفاء جميع المعايير، فقد تكون الصفحات مؤهلة للفهرسة وعرضها في نتائج البحث.

في الأقسام القليلة القادمة، سنتعمق في كل من المكونات الرئيسية لعمليات نظام البحث: الزحف والفهرسة، والعرض والتصنيف.

قراءة إضافية