ما هي البيانات الضخمة Big Data ؟

البيانات الضخمة Big Data
البيانات الضخمة Big Data

جيل جديد من الحوسبة تقوده البيانات الضخمة Big Data، والتي تلقى انتشارا واسعا في مجال سوق عمل تقنية المعلومات والتي قد تغير عملية نقل البيانان بأنواعها وتسهل عملية البحث عنها.

 

ويطلق مصطلح Big Data على مجموعة من حزم البيانات الضخمة جدا والمعقدة والتي يصعب التعامل معها بواسطة نظم إدارة قواعد البيانات (DBMS)  التقليدية من ناحية التخزين، البحث، التمثيل، والتحليل.



ويمكن شرح مصطلح Big Data بأنه بيانات متعددة الأنواع والمصادر بحجم يصل إلى المئات من التيرابايت أو حتى البيتابايت أو حتى أكثر للحزمة الواحدة من البيانات! ، للبيانات الضخمة أهمية عالية فهي تقدم ميزة تنافسية عالية للشركات إذا استطاعت الاستفادة منها ومعالجتها لأنها تقدم فهما أعمق لعملائها ومتطلباتهم ويساعد ذلك على اتخاذ القرارات المناسبة و الملائمة داخل الشركة بطريقة أكثر فعالية و ذلك بناء على المعلومات المستخرجة من قواعد بيانات العملاء وبالتالي زيادة الكفاءة والربح وتقليل الخسائر.


خصائص البيانات الضخمة:


الحجم Volume:
و هي حجم البيانات المستخرجة من مصدر ما، وهو ما يحدد قيمة وإمكانات البيانات لكي تصنف من ضمن البيانات الضخمة؛ و قد يكون الخاصية الأكثر أهمية في تحليل البيانات الضخمة .
كما أن وصفها بالضخمة لا يحدد كمية معينة؛ بل يقاس عادة بالبيتا بايت او بالإكسا بايت، ومع حلول العام 2020 سيحتوى الفضاء الإلكتروني على ما يقرب من 40.000 ميتابايت من البيانات الجاهزة للتحليل واستخلاص المعلومات؛ ويقدر أن %90 من البيانات الموجودة في العالم اليوم قد استحدثت خلال السنتين الأخيرتين، بواسطة أجهزة وعلى أيدي بشر ساهم كلاهما في تزايد البيانات.

 

التنوع Variety:

و يقصد بها تنوع البيانات المستخرجة، والتي تساعد المستخدمين سواء كانوا باحثين أو محللين على اختيار البيانات المناسبة لمجال بحثهم و تتضمن بيانات مهيكلة في قواعد بيانات و بيانات غير مهيكلة تأتي من طابعها غير الممنهج، مثل: الصور ومقاطع وتسجيلات الصوت وأشرطة الفيديو والرسائل القصيرة وسجلات المكالمات وبيانات الخرائط (GPS) وغيرها ؛  وتتطلب وقتاً وجهداً لتهيئتها في شكل مناسب للتجهيز والتحليل.

 

السرعة Velocity:

و يقصد بها سرعة إنتاج واستخراج البيانات لتغطية الطلب عليها؛ حيث تعتبر السرعة عنصراً حاسماً في اتخاذ القرار بناء على هذه البيانات، وهو الوقت الذي نستغرقه من لحظة وصول هذه البيانات إلى لحظة الخروج بالقرار بناء عليها. 


سابقا كانت الشركات تستخدم لمعالجة مجموعة صغيرة من البيانات المخزنة في صورة بيانات مهيكلة في قواعد بيانات عملية تسمى بالـ" Batch Process" حيث كان يتم تحليل كل مجموعة بيانات واحدة تلو الأخرى في انتظار وصول النتائج، مع الازدياد الضخم في حجم البيانات وسرعة تواترها أصبحت الحاجة أكثر إلحاحا إلى نظام يضمن سرعة فائقة في تحليل البيانات الضخمة في الوقت اللحظي "Real Time" أو سرعة تقارب الوقت اللحظي ، أدت تلك الحاجة إلى ابتكار تقنيات وحلول مثل Apache و SAP HANA و Hadoop وغيرها الكثير.


مصادر البيانات الضخمة:
المصادر الناشئة عن إدارة أحد البرامج، سواء كان برنامجا حكوميا أو غير حكومي، كالسجلات الطبية الإلكترونية وزيارات المستشفيات وسجلات التأمين والسجلات المصرفية وبنوك الطعام.


المصادر التجارية أو ذات الصلة بالمعاملات، الناشئة عن معاملات بين كيانين، على سبيل المثال معاملات البطاقات الائتمانية والمعاملات التي تجرى عن طريق الإنترنت بوسائل منها الأجهزة المحمولة.


مصادر شبكات أجهزة الاستشعار، على سبيل المثال، التصوير بالأقمار الصناعية، وأجهزة استشعار الطرق، وأجهزة استشعار المناخ، مصادر أجهزة التتبع، على سبيل المثال تتبع البيانات المستمدة من الهواتف المحمولة والنظام العالمي لتحديد المواقع.
مصادر البيانات السلوكية، على سبيل المثال، مرات البحث على الإنترنت عن منتج أو خدمة ما أو أي نوع آخر من المعلومات، ومرات مشاهدة إحدى الصفحات على الإنترنت.


مصادر البيانات المتعلقة بالآراء، على سبيل المثال، التعليقات على وسائط التواصل الاجتماعي.