تصنيف البيانات
نظام تصنيف البيانات جيد التخطيط يجعل من السهل العثور على البيانات الأساسية واسترجاعها. يمكن أن يكون هذا ذا أهمية خاصة لإدارة المخاطر والاكتشاف القانوني والامتثال التنظيمي...
تصنيف البيانات هو عملية تنظيم البيانات في فئات تسهل استرجاعها وفرزها وتخزينها للاستخدام المستقبلي.
نظام تصنيف البيانات جيد التخطيط يجعل من السهل العثور على البيانات الأساسية واسترجاعها. يمكن أن يكون هذا ذا أهمية خاصة لإدارة المخاطر والاكتشاف القانوني والامتثال التنظيمي.
يجب أن تحدد الإجراءات والمبادئ التوجيهية المكتوبة لسياسات تصنيف البيانات الفئات والمعايير التي ستستخدمها المنظمة لتصنيف البيانات. كما أنها تحدد أدوار ومسؤوليات الموظفين داخل المنظمة فيما يتعلق بالإشراف على البيانات.
بمجرد إنشاء مخطط تصنيف البيانات ، يجب تحديد معايير الأمان التي تحدد ممارسات المعالجة المناسبة لكل فئة. يجب أيضًا معالجة معايير التخزين التي تحدد متطلبات دورة حياة البيانات.
ما هو الغرض من تصنيف البيانات؟
يساعد التصنيف المنهجي للبيانات المؤسسات على معالجة وتعقب وتحليل الأجزاء الفردية من البيانات. غالبًا ما يكون لمحترفي البيانات هدف محدد عند تصنيف البيانات. يؤثر الهدف على النهج الذي يتبعونه ومستويات التصنيف التي يستخدمونها.
تتضمن بعض أهداف العمل الشائعة لهذه المشاريع ما يلي:
السرية. يحمي نظام التصنيف البيانات الحساسة للغاية ، مثل معلومات التعريف الشخصية للعملاء (PII) ، بما في ذلك أرقام بطاقات الائتمان وأرقام الضمان الاجتماعي وأنواع البيانات الأخرى المعرضة للخطر. يساعد إنشاء نظام تصنيف المؤسسة على التركيز على متطلبات سياسة السرية والأمن ، مثل أذونات المستخدم والتشفير.
تكامل البيانات. سيتطلب النظام الذي يركز على تكامل البيانات مزيدًا من التخزين وأذونات المستخدم وقنوات الوصول المناسبة.
توافر البيانات. تسهل معالجة وضمان أمن المعلومات وسلامتها معرفة البيانات التي يمكن مشاركتها مع مستخدمين محددين.
لماذا تصنيف البيانات مهم
يعد تصنيف البيانات جزءًا مهمًا من إدارة دورة حياة البيانات التي تحدد الفئة القياسية أو تجميع كائن البيانات الذي ينتمي إليه. بمجرد الفرز ، يمكن أن يساعد تصنيف البيانات في ضمان التزام المؤسسة بإرشادات معالجة البيانات الخاصة بها ولوائح الامتثال المحلية والولائية والفيدرالية ، مثل قانون التأمين الصحي لقابلية النقل والمساءلة ، أو HIPAA. غالبًا ما تقوم الشركات في الصناعات شديدة التنظيم بتنفيذ عمليات تصنيف البيانات أو تدفقات العمل للمساعدة في تدقيق الامتثال وعمليات اكتشاف البيانات.
يستخدم تصنيف البيانات لتصنيف البيانات المهيكلة ، ولكنه مهم بشكل خاص للحصول على أقصى استفادة من البيانات غير المنظمة. يساعد تصنيف البيانات أيضًا في تحديد النسخ المكررة من البيانات. يساهم التخلص من البيانات الزائدة عن الحاجة في الاستخدام الفعال للتخزين ويزيد من إجراءات أمان البيانات.
خطوات تصنيف البيانات الشائعة
ليست كل البيانات بحاجة إلى التصنيف. في بعض الحالات ، يعد إتلاف البيانات هو المسار الحكيم للعمل. يعد فهم سبب الحاجة إلى تصنيف البيانات جزءًا مهمًا من العملية.
تشمل الخطوات المتبعة في تطوير مجموعة شاملة من السياسات للتحكم في البيانات ما يلي:
تجميع المعلومات. في بداية مشروع تصنيف البيانات ، يجب على المؤسسات تحديد وفحص البيانات التي يجب تصنيفها أو إعادة تصنيفها. من المهم معرفة مكان وجودها ، ومدى قيمتها ، وعدد النسخ الموجودة ومن يمكنه الوصول إليها.
تطوير إطار عمل. يتعاون علماء البيانات وأصحاب المصلحة الآخرون لتطوير إطار عمل يتم من خلاله تنظيم البيانات. يقومون بتعيين بيانات وصفية أو علامات أخرى للمعلومات. يمكّن هذا النهج الآلات والبرامج من فرز البيانات على الفور في مجموعات وفئات مختلفة. يمكن استخدام أي شيء من نوع الملف إلى وحدات الأحرف إلى حجم حزم البيانات لفرز المعلومات في فئات قابلة للبحث والفرز.
تطبيق المعايير. يجب على الشركات التأكد من أن إستراتيجية تصنيف البيانات الخاصة بها تتوافق مع ممارسات حماية البيانات الداخلية ومعالجتها وتعكس معايير الصناعة وتوقعات العملاء. قد يكون الكشف غير المصرح به عن معلومات حساسة خرقًا للبروتوكول وجريمة في بعض البلدان. لفرض البروتوكولات المناسبة والحماية من انتهاكات البيانات ، يجب تصنيف البيانات المحمية وفرزها وفقًا لطبيعة حساسيتها.
معالجة البيانات. تتطلب هذه الخطوة تقييم قاعدة البيانات وتحديد البيانات وفرزها وفقًا للإطار المعمول به.
أنواع تصنيف البيانات
تشمل فئات تصنيف البيانات القياسية ما يلي:
معلومات عامة. عادةً ما يتم الاحتفاظ بالبيانات في هذه الفئة من قبل مؤسسات الدولة وتخضع للإفصاح عن البيانات العامة كجزء من قوانين معينة.
معلومات سرية. قد يكون لهذه البيانات قيود قانونية حول طريقة التعامل معها ، أو قد تكون هناك عواقب أخرى حول الطريقة التي يتم بها التعامل مع البيانات السرية.
معلومات حساسة. هذه البيانات هي أي معلومات يتم تخزينها أو معالجتها من قبل الدولة أو المؤسسات الأخرى التي لديها متطلبات ترخيص وقواعد أخرى حول استخدامها.
معلومات شخصية. بشكل عام ، المعلومات الشخصية أو معلومات تحديد الهوية الشخصية محمية بموجب القانون ، ويجب التعامل معها باتباع بروتوكولات معينة. في بعض الأحيان توجد فجوات بين المتطلبات الأخلاقية والحماية التشريعية المعاصرة لاستخدامها.
في برمجة الكمبيوتر ، يعد تحليل الملفات طريقة لتقسيم حزم البيانات إلى حزم فرعية أصغر يسهل نقلها ومعالجتها وتصنيفها وفرزها. تحدد أنماط التحليل المختلفة كيفية دمج النظام للمعلومات. على سبيل المثال ، يتم تقسيم التواريخ حسب اليوم أو الشهر أو السنة ، ويمكن فصل الكلمات بمسافات.
تتضمن بعض الأساليب القياسية لتصنيف البيانات باستخدام التحليل ما يلي:
فترات زمنية يدوية. باستخدام الفواصل الزمنية اليدوية ، يمر الشخص عبر مجموعة البيانات بأكملها ويدخل فواصل الفصل من خلال ملاحظة المكان الأكثر منطقية. يعد هذا نظامًا جيدًا لمجموعات البيانات الأصغر ، ولكنه قد يكون مشكلة بالنسبة لمجموعات أكبر من المعلومات.
فترات محددة. تحدد الفواصل الزمنية المحددة عددًا من الأحرف لتضمينها في حزمة. على سبيل المثال ، قد يتم تقسيم المعلومات إلى حزم أصغر كل ثلاث وحدات.
فترات متساوية. تقسم الفواصل الزمنية المتساوية مجموعة بيانات إلى عدد محدد من المجموعات ، مع توزيع كمية البيانات بالتساوي على المجموعات.
الكميات. يتضمن استخدام الكميات تحديد عدد من قيم البيانات المسموح بها لكل نوع فئة.
فواصل طبيعية. يحدد البرنامج مكان حدوث تغييرات كبيرة في البيانات من تلقاء نفسه ويستخدم هذه المؤشرات كطريقة لتحديد مكان تقسيم البيانات.
فترات هندسية. بالنسبة للفترات الهندسية ، يُسمح بنفس عدد الوحدات لكل فئة فئة.
فترات الانحراف المعياري. يتم تحديد الانحراف المعياري لإدخال البيانات من خلال مدى اختلاف سماتها عن القاعدة. توجد قيم رقمية محددة لإظهار انحرافات كل إدخال.
نطاقات مخصصة. يقوم المستخدمون بإنشاء وتعيين نطاقات مخصصة. يمكنهم تغييرها في أي وقت.
الأدوات المستخدمة لتصنيف البيانات
يتم استخدام أدوات مختلفة في تصنيف البيانات ، بما في ذلك قواعد البيانات وبرامج ذكاء الأعمال (BI) وأنظمة إدارة البيانات القياسية. تتضمن بعض أمثلة برامج BI المستخدمة لتصنيف البيانات Databox و Google Data Studio و SAP Lumira و Vise.
بشكل عام ، التعبير العادي هو معادلة تستخدم لسحب البيانات التي تناسب فئة معينة بسرعة ، مما يسهل تصنيف جميع المعلومات التي تقع ضمن تلك المعلمات المحددة.
فوائد تصنيف البيانات
يساعد استخدام تصنيف البيانات المؤسسات في الحفاظ على سرية بياناتها وسهولة الوصول إليها وسلامتها.
بالنسبة للبيانات غير المهيكلة على وجه الخصوص ، يقلل تصنيف البيانات من ضعف المعلومات الحساسة. على سبيل المثال ، من المتوقع أن يلتزم التجار والشركات الأخرى التي تقبل بطاقات الائتمان الرئيسية بتصنيف البيانات والمعايير الأخرى لمعايير أمان البيانات الخاصة بصناعة بطاقات الدفع. PCI DSS عبارة عن مجموعة من 12 متطلب أمان تهدف إلى حماية المعلومات المالية للعملاء.
يحفظ التصنيف أيضًا الشركات من دفع تكاليف تخزين البيانات الباهظة. يعد تخزين كميات هائلة من البيانات غير المنظمة أمرًا مكلفًا وقد يمثل مسؤولية
اللائحة العامة لحماية البيانات GDPR
اللائحة العامة لحماية البيانات في الاتحاد الأوروبي (GDPR) هي مجموعة من الإرشادات الدولية التي تم إنشاؤها لمساعدة الشركات والمؤسسات في التعامل مع البيانات السرية والحساسة بعناية واحترام. وهي تتألف من سبعة مبادئ إرشادية: الإنصاف ، والنطاق المحدود ، والبيانات المصغرة ، والدقة ، وقيود التخزين ، والحقوق ، والنزاهة. هناك عقوبات صارمة لعدم الامتثال لهذه المعايير في بعض البلدان.
يعد تنفيذ التصنيف المنهجي للبيانات أمرًا ضروريًا للامتثال للعديد من أجزاء القانون العام لحماية البيانات (GDPR). يتطلب من المؤسسات تعيين مستويات مراقبة أمنية محددة للبيانات لمنع الكشف غير المصرح به. يساعد تصنيف البيانات فرق أمن البيانات على تحديد البيانات التي تتطلب إخفاء الهوية أو التشفير.
جانب آخر من القانون العام لحماية البيانات (GDPR) يتطلب تصنيفًا فعالًا للبيانات وهو أنه يمنح الأفراد الحق في الوصول إلى بياناتهم الشخصية وتغييرها وحذفها. يسمح تصنيف البيانات للشركات باسترداد هذه البيانات بسرعة وتلبية الطلب المحدد للشخص.
أمثلة على تصنيف البيانات
يمكن تطبيق عدد من قوائم الفئات المختلفة على المعلومات الموجودة في النظام. تُعرف قوائم المؤهلات هذه أيضًا باسم مخططات تصنيف البيانات. على سبيل المثال ، قد تتضمن إحدى طرق تصنيف فئات الحساسية فئات مثل الاستخدام السري والسري والاستخدام التجاري فقط والعامة.
قد تستخدم المنظمة أيضًا نظامًا يصنف المعلومات بناءً على نوع الصفات التي تتعمق فيها. قد يبحث في نوع معلومات المحتوى التي تدخل في الملفات ، ويبحث عن خصائص معينة. على سبيل المثال ، يفحص التصنيف المستند إلى السياق التطبيقات والمستخدمين والموقع الجغرافي ومعلومات المنشئ. يعتمد تصنيف المستخدم على ما يختاره المستخدم النهائي للإنشاء والتعديل والمراجعة.
إعادة تصنيف البيانات
كجزء من الحفاظ على عملية للحفاظ على كفاءة أنظمة تصنيف البيانات قدر الإمكان ، من المهم أن تقوم المنظمة باستمرار بتحديث أنظمة التصنيف التي تستخدمها. يجب إعادة تعيين قيم ونطاقات ومخرجات هذه الأنظمة لتحقيق أهداف تصنيف المنظمة بشكل أكثر فعالية.
انحدار البيانات مقابل خوارزميات تصنيف البيانات
كل من خوارزميات الانحدار والتصنيف هي أنماط قياسية لإدارة البيانات. عندما يتعلق الأمر بتنظيم البيانات ، فإن أكبر الاختلافات بين خوارزميات الانحدار والتصنيف هي نوع المخرجات المتوقعة.
غالبًا ما تجد الأنظمة التي تنتج مجموعة واحدة من النتائج المحتملة ضمن نطاق محدود أن خوارزميات التصنيف مثالية. عندما تكون نتائج الخوارزمية مستمرة ، مثل إخراج الوقت أو الطول ، يكون استخدام خوارزمية الانحدار أو خوارزمية الانحدار الخطي أكثر كفاءة.