يناير 21, 2019

دليل سريع للزحف داخل شبكة الإنترنت

يريد عادل اقتناء سيارة مستعملة ولديه ميزانية محددة في ذهنه، حيث يجب أن يكون العمر الافتراضي للسيارة ثلاثة أعوام، وينبغي أن تكون قد قيدت لأقل من 40 ألف كيلومتر، ويجب أيضًا أن تستمر في السير لمدة خمسة أعوام مقبلة، كما يحتاج إلى بعض الميزات الضرورية مثل تكييف الهواء، والمقاعد الجلدية إلخ. من البديهي أن تكشف عملية بحث في شبكة الإنترنت عن عدد كبير من المواقع الإلكترونية التي تعرض قوائم بالسيارات المعروضة للبيع، وفي حين أن عادل وجد نفسه أمام كمية هائلة من الخيارات المتنوعة، فهو غير قادر على التفكير واتخاذ قرار بشكل متّسق. كما أنه يرى على الشبكة العنكبوتية قوائم بأسعار مختلفة لسيارات متشابهة، بما يدعوه للتساؤل عن إمكانية وجود وسيلة أكثر بساطةً وأكثر كفاءةً يمكنه من خلالها اتخاذ قرار صائب.

 

لكي نكون أكثر تحديدًا، هل من الممكن “الزحف” داخل الشبكة العنكبوتية ومقارنة البيانات واتخاذ قرار سليم؟

لحُسن حظه، كان عادل يعرف كيف يشق طريقه في مجال البرمجة، وبإمكانه كتابة برنامج “أفعواني” للتمكن من “الزحف داخل الشبكة” والذي يقوم تلقائيًا بتجميع صفحات المواقع الإلكترونية انطلاقًا من عنوان محدّد وبعض الشروط (المكان والفئة إلخ). كما يمكنه “الزحف داخل الشبكة” باستخدام “نمط” مُكوّن مُسبقًا يأخذ في الحسبان بنية لغة ترميز النص التشعبي التي تستخدم في إنشاء وتصميم صفحات ومواقع الويب (HTML) والخاصة بالصفحات المُعتزم الزحف داخلها، ومن ثمّ استرداد البيانات ذات الصلة في قاعدة بيانات لغرض التحكم فيها.

 

بإمكان الزحف داخل الشبكة القائمة على حزمة من البرامج مفتوحة المصدر (“سكرابي”، و”كولا”، و”بيوتيفول سوب”، وميكانيكال سوب”، وباي بيستر”) زيارة مواقع إلكترونية واستخراج بيانات من كلّ منها حتى يصل إلى أقصى عمق. كما بإمكانه الحصول على الخصائص والمزايا المُستهدفة من عملية البحث مثل عام تصنيع السيارة، وعدد الكيلومترات التي سارتها، ولونها، وثمنها إلخ، يقوم فيما بعد بعملية “كشط” للحصول على البنية الكاملة للموقع.

 

يريد عادل الحصول على إجابات للأسئلة التالية:

  • أية علامة تجارية ينبغي عليه البحث عنها؟
  • أي لون ينبغي أن يختاره؟
  • هل يبرر السعر قيمة السيارة؟

 

تبينت له التفاصيل التالية من خلال نتيجة عملية الزحف التي قام بها، كما تبين له أن أغلبية الناس يختارون السيارات السوداء أو البيضاء اللون.

 

 

كما استمر في تجميع السيارات وفقًا لعوامل السعر، والكيلومترات، واللون.

 

 

وعمد عادل في النهاية إلى تجميع السيارات على أساس القيمة الكيلومترية المنخفضة والسعر وخاصية اللون. كما يمكنه المُضي قُدُمًا وتحديد مؤشر “القبول” من خلال إضافة المزيد من الخاصيات والميزات، مثل كفاءة استهلاك الوقود، والتاريخ الجيّد، والقيمة عند إعادة البيع. ويمكنه الآن أن يصل في النهاية إلى قائمة قصيرة تضم السيارات التي تُلبّي خط مقبوليته وتساعده في اتخاذ قرار مُستنير.

يُعدّ ما سبق عبارةً عن عرض بسيط لقوة عملية الزحف داخل شبكة الإنترنت والمواقع الإلكترونية وتجميع البيانات والتحليلات التي يمكن إنجازها باستخدام أدوات مفتوحة المصدر مع بيانات مُتاحة في النطاق العام.

 

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *