ما هي البيانات الضخمة

ما هي البيانات الضخمة

أعتقد أنه خلال الثلاثة أعوام السابقة قد سمعت عن البيانات الضخمة كثيرًا، تفتح التلفاز فتجد المذيع يتحدث عن البيانات الضخمة، تمسك بهاتفك وتتصفح الفيسبوك فتقرأ أخبار كثيرة عن البيانات الضخمة، تود الاسترخاء فتبحث عن شيء مسلي على اليوتيوب لتجد أن هناك العشرات من المقاطع عن البيانات الضخمة!

حسنًا لقد جاء الوقت الذي ستصادف فيه البيانات الضخمة وجهاً لوجه، ولكن هذه المرة على موقع الرابحون.

البيانات الضخمة Big Data في كل مكان

إذا ما حاولت أن تفهم ما هي البيانات الضخمة أو البيج داتا، فعلى الأغلب سوف تظن أنها درب من دروب الخيال العلمي، أو على الأقل أنها حلمًا بعيد المنال ربما يراه أحفاد أحفادك.

ولكن عزيزي القارئ هذا ليس صحيحًا، فأنت الآن تعيش في خضم الثورة الصناعية الرابعة التي ستغير كل شيء، وهي الثورة المعلوماتية.

الداتا أو البيانات التي تُعد اليوم البترول الجديد، تساهم يوميًا في تغيير حياتنا سواء للأسوأ أو للأفضل، لكن هذه البيانات بالتحديد بيانات من؟

إنها بياناتك أنت، وبياناتي أنا، وبيانات كل الأشخاص الذين تعرفهم في حياتك أو لا تعرفهم، هي سجلك الطبي وقائمة إعجاباتك على الفيسبوك، والوقت الذي تنشط فيه على اليوتيوب، وسجل عمليات الشراء الخاصة بحسابك البنكي.

Big Data أو البيانات الضخمة هي كل هذا وأكثر، فتخيل أن كل شيء تفعله مسجل في مكان ما، كل موقف مررت به، كل تقرير طبي وكل دواء أخذته، درجاتك في المرحلة الجامعية، وحتى سجلك الجغرافي والمطاعم التي تتردد عليها كثيرًا.

وحتى بيانات الحمية الغذائية والتمارين الخاصة بك التي تحاول بها إزالة الدهون التي اكتسبتها من تلك المطاعم، كل هذا وأكثر عزيزي القارئ هو ما يسمى بالبيانات الضخمة.

ولكن إذا أردت تعريف أكثر أكاديمية للبيانات الضخمة فمن الممكن تعريفها على أنها: المجموعات الكبيرة من البيانات التي تتضمن الكثير من المعلومات والصور والأرقام والتسجيلات التي تكون معقدة، ومن الصعب تحليلها باستخدام وسيلة أو أداة محددة.

وهي تُصنف على أنها ضخمة، فمن المستحيل أن تكون متوافرة في أجهزتنا العادية، بل تكون مخزنة تخزينًا سحابيًا (تعريفي أفضل أليس كذلك؟).

المصطلح نفسه Big Data أو بالعربية البيانات الضخمة يعود إلى تسعينات القرن العشرين، حيث قام عالم الحاسوب جون ماشي بإطلاقه على البيانات الضخمة المعقدة التي لا يمكن للأدوات العادية احتوائها ولا التعامل معها، وتخيل أن هذا كان في التسعينات إذا كيف هي الأوضاع اليوم؟

ما مدي ضخامة البيانات الضخمة؟

أنا أعرف أن هذا السؤال في ذهنك وتريد طرحه، ولكنك فقط خائف أن يكون سؤالً غبيًا. لا تقلق عزيزي القارئ فهذا السؤال ليس غبيًا على الإطلاق، بل على النقيض هو سؤال بالغ الذكاء، ولكن الإجابة عليه حتمًا سوف تفاجئك، لأن الأرقام التي نحن بصدد الحديث عنها تفوق أي قدرة بشرية على تخيلها لا التعامل معها حتى.

تخيل معي أن البيانات قد وصلت في العام 2020 إلى حوالي 44 زيتابايت، وإذا لم تتخيل ما هو الزيتابايت، فكل واحدة منها تساوي 1024 أكسابايت، والأكسابايت نفسها تساوي 1024 بيتابايت، والبيتابايت -أعلم أنك تعبت، ولكن أكمل معي- تساوي 1024 تيرابايت-وهذا مصطلح تعرفه جيدًا- والبيتابايت كما تعلم تساوي 1024 جيجابايت.

أي أنه إذا كان لديك وحدة تخزين في حاسوبك تبلغ 1 تيرا بايت، فإن مقدار البيانات في العالم كله في العام 2020 حوالي 47 مليار وحدة تخزين من التي تملكها، لعلك تقول إن هذا الرقم كبير للغاية، ولكن ما المشكلة بشأنه؟ حسنًا هناك الكثير من المشاكل في الحقيقة بشأنه.

فكما تتذكر من مقالي الآخر على الرابحون ما هو علم البيانات Data Science، فإن البيانات في العام 2019 كانت 29 زيتابايت فقط (30 ألف أكسابايت)، أي أن البيانات تضاعفت في عام واحد بنسبة 150%، وهذه حقًا كمية مهولة من البيانات.

وإذا لم يكن هذا كافيًا بالنسبة لك فلقد كان هذا العدد في العام 2015 حوالي 7.7 زيتابايت، أي أن في 5 أعوام زادت البيانات زيادة مقدارها 571%، والمرعب أكثر أن في العام 2005 كانت البيانات حوالي 130 أكسابايت (0.12 زيتابايت)، أي أن في 15 عامًا فقط زادت البيانات حوالي 35.000% نعم الرقم صحيح خمسة وثلاثون ألف في المئة.

وبحسب تقرير شركة البيانات الدولية IDC؛ فإن مقدار البيانات في العالم في العام 2025 أي بعد أربع سنوات فقط سوف يصل إلى 175 زيتابايت، وهكذا ستظل البيانات الخاصة بالبشر تتضاعف وتتضاعف بوتيرة أكثر تسارعًا.

من أين تأتي البيانات الضخمة؟

بكل الاختصار الممكن؛ فإن هذه البيانات تأتي منا نحن البشر، ولكن كيف؟ كل ما تفعله على شبكة الإنترنت يخزن ويغذي هذه الموجة الهائلة من البيانات الضخمة، كل شيء حرفيًا بداية من استخدامك لتطبيقات التواصل الاجتماعية، وحتى سجلاتك البنكية، وسجلك الطبي، وتحركاتك، وكل شيء من الممكن لك أن تتخيله.

وإياك أن تستهون بهذا المقدار من البيانات الضخمة، فهي مهولة للغاية، فمثلًا في اليوم الواحد:

  • يتم ارسال 320 مليار رسالة إلكترونية.
  • يتم نشر 500 مليون تغريدة على تويتر.
  • يتم رفع 350 مليون صورة على فيسبوك.
  • يتم مشاهدة الفيديوهات على فيسبوك بما يعادل 100 مليون ساعة.
  • يتم إرسال 65 مليار رسالة على تطبيق المراسلة واتساب.
  • تتم مشاركة 95 مليار فيديو وصورة على تطبيق انستغرام.
  • تكون هناك 5 مليار عملية بحث منهم 3.5 مليار على محرك البحث جوجل.

وهذه الأرقام الكبيرة المتعلقة بالبيانات الضخمة، والتي لا يمكن تخيلها تزداد كل يوم وكل ثانية مع زيادة عدد الأشخاص الذين يستخدمون الإنترنت، هذا بالإضافة إلى ارتباط الأشياء الأخرى في حياتنا بالإنترنت، فعلى سبيل المثال إنترنت الأشياء أو IOT سوف يساهم في مضاعفة هذه الأرقام.

كما أن جزء كبير من البيانات الضخمة سوف يأتي في المستقبل من الأنظمة الصحية المرتبطة به، و السيارات ذاتية القيادة والأتمتة والروبوتات التي سوف تحتل كل جانب من جوانب حياتنا، والتي سوف تعتمد بشكل مطلق على البيج داتا.

وبسبب ميوعة مصطلح البيانات الضخمة، فإن الباحثون قد اتفقوا على خمس صفات أو خواص أساسية للبيانات الضخمة Big data، والتي أسموها مبادئ الخمسة V، وهي:

  1. الحجم Volume: وهي التي تتعلق بالحجم الكبير من البيج داتا التي ننتجها في كل لحظة.
  2. السرعة Velocity: وهي سرعة إنتاج هذه البيج داتا ومشاركتها؛ سواء إذا كانت تتعلق بوسائل التواصل الاجتماعي أو نتائج الأبحاث العلمية.
  3. التنوع Variety: وهي الأشكال التي تكون بها البيج داتا ولا تتعلق بكونها نصية أو مرئية، بل بطبيعة البيانات نفسها من حيث كونها مُرتبة Structured أو غير مُرتبة Unstructured.
  4. المصداقية Veracity: وهي دقة هذه البيانات، والدرجة التي يمكننا من خلالها الوثوق في هذه البيانات، وهذه الخاصية تظهر بشكل كبير في البيانات والسجلات الطبية.
  5. القيمة Value: وهذه النقطة التي سنناقشها الآن، وهي المتعلقة بتأُثير هذه البيج داتا على حياتنا وجميع جوانبها.

البيانات الضخمة التي تغير شكل حياتنا

لعلك الآن عزيزي القارئ تود أن تعرف كيف تؤثر البيانات الضخمة على حياتك وواقعك، ولكن كلمة تؤثر ليست دقيقة في هذا السياق، بل الأدق تغير، فالبيانات الضخمة تشكل عالم جديد مختلف من حيث؛ الطب، والمعاملات البنكية، والوظائف والنقل، والمواصلات، والتعليم، وكل شيء آخر.

ربما كانت القوة هي الأهم في عصور ما، وربما في عصور أخرى كانت الثروة هي الأهم، ولكن في عصرنا الحالي المعلومات هي الأهم، فهي المادة الخام للقوة والثروة، ولذا عزيزي القارئ أثناء قراءتك لهذا المقال أنت تزداد غنى وقوة.

حياتنا اليومية والبيانات الضخمة

سأبدأ عزيزي القارئ بالأمثلة التي تلامسها بشكل مباشر يوميًا في حياتك، فعلى سبيل المثال الإعلانات التي تشاهدها على فيسبوك يوميًا ليست عشوائية، بل هي موجهة إليك…

ليس فقط بسبب سنك أو منطقتك الجغرافية، بل ومن أجل الصفحات التي تتابعها وعاداتك الشرائية، والساعات التي تكون نشطًا فيها على فيسبوك، والتفاصيل الدقيقة الأخرى لك ولأصدقائك والمشاهير الذين تتابعهم.

أظنك تقول إنني أضخم المواضيع، ولكن هذه المعلومات التي لدى فيسبوك عنك وعني تساهم في تغيير العالم -للأسوء أو الأفضل-….

ففي انتخابات الولايات المتحدة السابقة بين ترامب وهيلاري كلينتون؛ قد ساهمت هذه البيانات بشكل كبير في فوز ترامب الذي دفع الملايين لشركات تحليلات البيانات لكي تظهر له التقارير والنصائح، وقد كان ما أراد، وقلبت هذه البيانات الموازيين لصالحه.

ونتفليكس كذلك تستخدم البيانات الخاصة بك من تفضيلاتك، وأوقات متابعتك لها، ومدة جلسات المشاهدة الخاصة بك من أجل جعلك تدمن المسلسلات والأفلام التي تقدمها.

فعلى سبيل المثال نتفليكس لديها العديد من بوسترات الأعمال التي تظهرها للمشاهدين حسب بياناتهم، فهي تختار البوستر الذي سيجذب كل متابع حسب تفضيلاته وسجل مشاهدته.

أما عن أمازون ويوتيوب وسبوتيفاي؛ فهم جميعًا يستخدمون بياناتك المختلفة من أجل فهمك والتعرف على ذوقك لتقديم التوصيات والترشيحات المناسبة لك: المنتجات في حالة أمازون، ومقاطع الفيديو في حالة يوتيوب، والأغاني في حالة سبوتيفاي.

وما هذا الذي ذكرته سوى غيض من فيض، فالأمثلة تكاد لا تعد ولا تحصى والتفكير فيها قد يجعلنا -أو جعلنا بالفعل- نشك في إذا ما كانت اختياراتنا تنبع حقًا من إرادتنا الحرة أم من تحكم الخوارزميات المختلفة بنا.

وهذه النقطة بالتحديد قد تسببت في جدل كبير في السنوات الماضية، والعديد من النزاعات القانونية بين المنظمات الحقوقية وشركات التقنية الكبرى.

الطب والبيانات الضخمة

البيانات الضخمة قد ساهمت للغاية في تطوير المنظومة الطبية حتى الآن، وهذا لأنها سهلت علينا اتخاذ القرارات في الأمور المستعصية كالتشخيص وبروتوكولات العلاج.

كما أنها أيضًا قد سهلت أيضًا في استدراك الحالات الخطرة؛ كما يحدث كثيرًا اليوم مع مرتدين ساعات اليد الذكية التي تقيس معدل نبضات القلب وضغط الدم.

ومن أبرز إسهامات البيانات الضخمة في الطب هي تحسينها لعملية التشخيص خاصة لمرض السرطان:

حيث أن وجود قواعد بيانات عملاقة عليها صور الأشعة الخاصة بمرضى السرطان أو المشتبه أن يكون لديهم السرطان قد ساهم في توفير البيانات اللازمة لتدريب الذكاء الاصطناعي على تشخيص السرطان، والآن الذكاء الاصطناعي أفضل بنسب كبيرة في تشخيص السرطان من الخبير البشري ومهارته تزداد كل لحظة.

كما أن البيانات الضخمة ساعدت في اكتشاف العلاجات وبروتوكولات العلاج بأكثر من طريقة، فمن ناحية قد يحدث أن يظهر لنا الذكاء الاصطناعي المعتمد عليها أن الدواء الذي نستخدمه في معالجة المرض (س) فعال في معالجة المرض (ص)، وذلك من خلال تحليل بيانات المرضى الذين لديهم المرض (س) والمرض (ص) ويتناولون هذا الدواء.

وهذا بجانب كون البيج داتا والذكاء الاصطناعي حسنوا من الطرق التي نستطيع من خلالها اكتشاف المركبات الدوائية الجديدة، وهذا قد ظهر جليًا في جائحة الكورونا، بجانب أنهم أيضًا يساعدوننا في مجال الطب الشخصي الذي يعتمد على البيانات الجينية من أجل تحديد أفضل علاج يناسب المرضى.

وهذا ليس كل شيء فهناك الكثير من الفوائد الأخرى التي لم نكن لنتوصل إليها بدون البيانات الضخمة، ومنها على سبيل المثال لا الحصر: التحكم في المخاطر والأمراض، التنبيه الفوري في الحالات الطارئة، تحسين سلاسل إمدادات الأدوية، توفير تحليل تنبؤي أكثر دقة لما سيؤول عليه حالة المرضى، تقليل الأخطاء الطبية والجراحية.

الأمان والبيانات الضخمة

ربما هذه أيضًا واحدة من الجوانب الهامة التي ساعدتنا فيه البيانات الضخمة كثيرًا، ولكن كل يوم يمر، ومع كل تقدم تحرزه البيانات الضخمة فإننا نصير نسبيًا أكثر أمانًا، ولا أقصد فقط الجانب المتعلق بالحوادث -حيث تكشف البيانات الضخمة عن احتمالات الحوادث أو المشاكل الكبيرة وتخبرنا قبلها-، ولا أقصد أنها تساعدنا على تنظيم الطرقات، لا، ليس هذا فقط.

فالبيانات الضخمة قد ساهمت في بزوغ اختراع مذهل في عالمنا إلا وهو السيارات ذاتية القيادة، تلك السيارات التي ليس لها مزاج سيء ولا ميول انتحارية، ولا حتى ترسل الرسائل الإلكترونية خلال القيادة، والتي ساهمت في انخفاض معدلات الحوادث في البلدان التي يتم استخدامها فيها، والتي من المتوقع أن تقضي في المستقبل على حوادث الطريق نهائيًا.

وليس هذا فقط فالبيانات الضخمة أيضًا تساعد على حل الجرائم حتى التي حدثت قبل سنوات عديدة، ولعلك تسمع عن حل جريمة حدثت منذ عقود من خلال مقارنة حمض نووي كان بحوزة الشرطة بقاعدة الأحماض النووية القومية، والعكس أيضًا إذ أن البيانات الضخمة قد ساهمت في تبرئة شخص بعد 20 عامًا قضاها في السجن لجرم لم يرتكبه.

والأمر عزيزي القارئ يتجاوز هذا؛ إذ أن من المتوقع أن تستطيع البيانات الضخمة في السنوات القادمة التنبؤ بوقوع الجريمة قبل حدوثها إذا ما توفر لديها كم البيانات المطلوب لهذا، ويمكنها أيضًا أن تساعد في توقع ارتكاب المساجين السابقين الجرائم بعد إطلاق سراحهم بجانب عشرات الأمور الأخرى التي تعد لنا اليوم خيالًا علميًا.

احذر؛ فقد تسرق البيانات الضخمة وظيفتك

لقد أريتك الجوانب الإيجابية من ثورة البيانات، ولكن مهلك لا شيء جيد بنسبة 100%، فالثورة الصناعية الرابعة مثل أي ثورة أخرى تتسبب في العديد من التغييرات المؤذية على البشر، فعلى سبيل المثال في الثورة الصناعية الثالثة فقد مئات الآلاف من البشر وظائفهم، وهذا للأسف سيحدث أيضًا في الثورة الصناعية الرابعة.

فالكثير من الوظائف ستقوم بها الآلات والأكواد البرمجية، فكل الوظائف التي تحتاج لخطوات وطرق منظمة -وهي معظم الوظائف تقريبًا- سوف يقوم بها الذكاء الاصطناعي، وهناك وظائف ستندثر بشكل كامل، هذا بغض النظر عن أن 50% من وظائف اليوم ستشغلها الآلات والذكاء الاصطناعي القائم على البيانات الضخمة في خلال 10 سنوات فقط.

وهذا الأمر بالتحديد يشغل بال الحكومات حاليًا، لأنه على الرغم من كون البيانات الضخمة والذكاء الاصطناعي سوف يقومان بخلق فرص عمل، ولكن هذا الرقم ضئيل أمام فرص العمل التي ستقضي عليها، وإذا كنت خائف عزيزي القارئ فهناك موقع يسمى WILL ROBOTS TAKE MY JOB يخبرك بإحصائيات عن ما إذا كان سيتم استبدالك.

وهناك العديد من الوظائف التي تأثرت في وقتنا هذا ببوادر الثورة الصناعية الرابعة، مثل سائقي العربات، والمدققين اللغويين، والمحاسبين ومدخلي البيانات، ولذا احرص عزيزي القارئ على متابعة مقالاتنا في موقع الرابحون، لأنها ستكون ملاذك من هذه الكارثة التي ستقضي على الكثير من الوظائف في السنوات القليلة القادمة.

مخاطر تجلبها لنا البيانات الضخمة

وإذا كان خطر فقدانك لوظيفتك ليس كافيًا، فهناك العديد من المشاكل الأخرى التي علينا القلق بشأنها، فمثلًا من ناحية الخصوصية؛ فمن المحتمل أن تقوم البيانات الضخمة بالقضاء على كل خصوصية ممكنة، وهذا بسبب كون كل شيء نفعله مسجل لديها بداية من الطعام الذي نطلبه، وحتى وصفاتنا الطبية وحساباتنا البنكية، وهو ما سيجعلنا مقيدين للغاية.

وهناك أيضًا خطر تأثير البيانات الضخمة على حرية الإرادة، فهذا الزخم من البيانات سوف يجعل مقدمي الخدمات والشركات الكبرى تتحكم بك بما تعرفه عنك، وأن توجهك أما لشراء منتجاتها أو إدمانها من خلال الجلوس لفترات طويلة أمامها، أو الأسوء أن تؤثر على قرارتك الهامة مثل صوتك الانتخابي أو انطباعك حول نفسك وثقتك بذاتك.

أما على المدى القريب فهناك مشكلة التحيز Bias، إما ناحية الأقليات العرقية والدينية أو التحيز الجنسي نحو الآناث، فإذا أعطيت الخوارزميات بيانات منحازة من البيانات الضخمة ستكون قراراتها وحكمها وترشيحاتها منحازة، مما سيؤثر بالسلب على المجتمع.

وقد يسبب هذا أضرار خطيرة خصوصًا إذا كانت في المجالات الجنائية وتوقع حدوث الجريمة، حيث إن خوارزميات توقع حدوث الجريمة تنحاز ضد الفئات السوداء أو الفقراء من المواطنين.

وللأسباب التي ذكرناها بالأعلى؛ فإن هناك دول كثيرة تقوم بإصدار قوانين من أجل حماية مواطنيها وبياناتهم وعلى رأسهم الاتحاد الأوروبي وبريطانيا اللتان أصدرتا الـ GDPR، أو ما يعرف بـ النظام الأوروبي العام لحماية البيانات التي يقوم بردع الشركات من استغلال البيانات الضخمة بشكل خاطئ وتنظم هذه العملية.

وفي النهاية كان يجب أن أؤكد أن المستقبل شيء غامض، وأن كل ما نعرفه يتبدل ويتغير أحيانًا للنقيض في لحظات، وربما يكون هناك الكثير من الكلام حول البيانات الضخمة والذكاء الاصطناعي والروبوتات إذا ما كانت جيدة كليًا أو سيئة كليًا.

ولكنه كأي شيء أخر لديها جوانب جيدة وجوانب سيئة، وعلينا أن نعمل جاهدين على تغذية الجوانب الجيدة، والحد من الجوانب السيئة.