حجم والسرعة، ومتنوعة: فهم ثلاثة V من البيانات الكبيرة

نحن ممارسو الفنون التكنولوجية لديهم ميل لاستخدام المصطلحات المتخصصة. هذا ليس غير عادي. وكان معظم النقابات والكهنوت والمهن أسلوب خاص بهم من التواصل، سواء للراحة أو لإرساء الإحساس بالحصرية. في التكنولوجيا، ونحن أيضا تميل إلى إرفاق الطنانة الطنانة بسيطة جدا للمواضيع المعقدة جدا، ومن ثم نتوقع بقية العالم للذهاب على طول للركوب.

المزيد عن البيانات الكبيرة

سوسيال إنتيربريس؛ لينكيدين تكشف النقاب عن منصة جديدة للتدوين؛ تحليلات البيانات الكبيرة؛ هل هذا هو عصر أولاب كبيرة؟؛ تحليلات البيانات الكبيرة؛ يهدف داتاروبوت لأتمتة الفاكهة منخفضة شنقا من علوم البيانات؛ تحليلات البيانات الكبيرة؛ مؤسس مابر جون شرودر يتنحى، كو ليحل محل

يتم طرح تكنولوجيا استخراج البيانات في دائرة الضوء بفضل حكاية 11.5 مليون ملف.

خذ، على سبيل المثال، فريق علامة “سحابة” و “بيانات كبيرة”. مصطلح “سحابة” جاء لأن مهندسين النظم المستخدمة لرسم مخططات الشبكة لشبكات المنطقة المحلية. بين الشبكات المحلية، كنا رسم سحابة مثل الخليط يعني أن تشير إلى حد كبير، “الأشياء غير محددة في ما بين.” وبطبيعة الحال، أصبح الإنترنت الأشياء غير محددة في نهاية المطاف في ما بين، وأصبحت سحابة الغيمة.

لأمي وأبي وجانيس في المحاسبة، “الغيمة” يعني المكان الذي يمكنك تخزين الصور الخاصة بك وغيرها من الاشياء. كثير من الناس لا يعرفون حقا أن “سحابة” هو الاختزال، وحقيقة السحابة هو نمو مراكز البيانات الضخمة التي لا يمكن تصورها تقريبا التي تحمل كميات هائلة من المعلومات.

البيانات الكبيرة هي واحدة أخرى من تلك الكلمات الاختزال، ولكن هذا هو واحد أن جانيس في المحاسبة وجاك في التسويق وبوب على متن حقا لا تحتاج إلى فهم. ليس فقط يمكن للبيانات الكبيرة الإجابة على أسئلة كبيرة وفتح أبواب جديدة أمام الفرصة، منافسيك يستخدمون البيانات الكبيرة لميزة تنافسية خاصة بهم.

وهذا، بالطبع، يطرح السؤال: ما هي البيانات الكبيرة؟ الجواب، مثل معظم في التكنولوجيا، يعتمد على وجهة نظرك. وهنا طريقة جيدة للتفكير في ذلك. البيانات الكبيرة هي بيانات كبيرة جدا لإدارة البيانات التقليدية للتعامل معها. كبير، بطبيعة الحال، هو أيضا ذاتي. هذا هو السبب في أننا سوف تصف ذلك وفقا لثلاثة ناقلات: حجم، والسرعة، ومتنوعة – ثلاثة مقابل.

حجم هو V الأكثر المرتبطة مع البيانات الكبيرة لأنه، حسنا، يمكن أن يكون حجم كبير. ما نتحدث عنه هنا هو كميات من البيانات التي تصل إلى أبعاد غير مفهومة تقريبا.

الفيسبوك، على سبيل المثال، مخازن الصور. هذا البيان لا يبدأ في تحير العقل حتى تبدأ في إدراك أن الفيسبوك لديها المزيد من المستخدمين من الصين لديها الناس. كل من هؤلاء المستخدمين قد تخزين الكثير من الصور. الفيسبوك هو تخزين ما يقرب من 250 مليار الصور.

هل يمكنك أن تتخيل؟ بشكل جاد. إنطلق. محاولة لف رأسك حوالي 250 مليار الصور.

لذلك، في عالم البيانات الكبيرة، عندما نبدأ الحديث عن حجم، ونحن نتحدث عن كميات كبيرة بجنون من البيانات. وبينما نمضي قدما، سيكون لدينا المزيد والمزيد من المجموعات الضخمة. على سبيل المثال، كما نضيف أجهزة الاستشعار متصلة إلى حد كبير كل شيء، كل تلك البيانات القياس عن بعد سوف تضيف ما يصل.

أو النظر في عالمنا الجديد من التطبيقات المتصلة. الجميع يحمل الهاتف الذكي. دعونا ننظر في مثال بسيط، تأليف لائحة التطبيق. يعمل المزيد والمزيد من الموردين على إدارة بيانات التطبيقات في السحاب، حتى يتمكن المستخدمون من الوصول إلى قوائم مهامهم عبر الأجهزة. منذ العديد من التطبيقات استخدام نموذج فريميوم، حيث يتم استخدام نسخة مجانية كزعيم الخسارة لنسخة متميزة، القائمون على التطبيقات القائمة على ادارة العلاقات مع تميل إلى أن يكون هناك الكثير من البيانات لتخزينها.

تودويست، على سبيل المثال (مدير المهام التي أستخدمها) لديها ما يقرب من 10 مليون تثبيت نشط، وفقا لالروبوت اللعب. هذا لا يحسب كل عمليات التثبيت على الويب ودائرة الرقابة الداخلية. كل من هؤلاء المستخدمين لديه قوائم من البنود – وجميع تلك البيانات تحتاج إلى تخزين. تودويست هو بالتأكيد ليس مقياس الفيسبوك، لكنها لا تزال تخزن بشكل كبير أكثر من البيانات تقريبا أي تطبيق لم حتى قبل عقد من الزمان.

ثم، بطبيعة الحال، هناك كل مجموعات المشاريع الداخلية للبيانات، بدءا من صناعة الطاقة إلى الرعاية الصحية للأمن القومي. وتولد جميع هذه الصناعات كميات هائلة من البيانات وتستحوذ عليها.

هذا هو ناقلات الصوت.

تذكر لدينا الفيسبوك المثال؟ 250 مليار الصور قد تبدو مثل الكثير. ولكن إذا كنت تريد عقلك في مهب، والنظر في هذا: الفيسبوك للمستخدمين تحميل أكثر من 900 مليون صورة يوميا. يوم. وبذلك يبدو أن 250 مليار عدد من العام الماضي مثل انخفاض في دلو في بضعة أشهر.

السرعة هي مقياس لمدى سرعة البيانات القادمة. الفيسبوك لديها للتعامل مع تسونامي من الصور كل يوم. يجب أن تستوعب كل شيء، معالجته، ملف، وبطريقة ما، في وقت لاحق، تكون قادرة على استرداد ذلك.

إليك مثال آخر. لنفترض أنك تدير حملة رئاسية وتريد أن تعرف كيف يشعر الناس “هناك” حول مرشحك الآن. كيف قد تفعلها؟ طريقة واحدة هي ترخيص بعض البيانات تويتر من غنيب (التي حصل عليها مؤخرا تويتر) للاستيلاء على تيار مستمر من تويت، وإخضاعها لتحليل المشاعر.

في حين تحولت البيانات الكبيرة إلى أكثر من مصطلح التسويق من التكنولوجيا، فإنه لا يزال لديه إمكانات هائلة غير مستغلة. ولكن، قضية واحدة كبيرة يجب أن تحل أولا.

وغالبا ما تسمى هذه التغذية من بيانات تويتر “فيريهوس” لأنه يتم إنتاج الكثير من البيانات (في شكل تويت)، فإنه يشعر وكأنه يجري في نهاية الأعمال من فيريهوس.

وفيما يلي مثال آخر للسرعة: تحليل الرزم للأمن السيبراني. ترسل الإنترنت كمية هائلة من المعلومات في جميع أنحاء العالم كل ثانية. بالنسبة لفريق تكنولوجيا المعلومات في المؤسسة، فإن جزءا من هذا الفيضان يجب أن يسافر من خلال الجدران النارية إلى شبكة الشركات.

لسوء الحظ، نظرا لارتفاع الهجمات الإلكترونية، والجرائم الإلكترونية، والتسلل الإلكتروني، يمكن إخفاء الحمولات الشريرة في تدفق البيانات التي تمر عبر جدار الحماية. ولمنع التوصل إلى حل توفيقي، يجب إجراء تحليل وتحليل لتدفق البيانات عن حالات الشذوذ وأنماط السلوك التي تمثل إشارات حمراء. هذا هو الحصول على أكثر صعوبة كما يتم حماية المزيد والمزيد من البيانات باستخدام التشفير. في نفس الوقت، والأشرار يختبئون حمولات البرمجيات الخبيثة داخل الحزم المشفرة.

أو أخذ بيانات الاستشعار. وكلما انفجر إنترنت الأشياء، ستكون أجهزة الاستشعار الأكثر اتصالا في العالم، حيث تنقل بتات صغيرة من البيانات بمعدل ثابت تقريبا. مع زيادة عدد الوحدات، وكذلك تدفق.

هذا تدفق البيانات هو ناقلات السرعة.

ربما كنت قد لاحظت أنني تحدثت عن الصور، وبيانات الاستشعار، تويت، والحزم المشفرة، وهلم جرا. كل من هذه مختلفة جدا عن بعضها البعض. هذه البيانات ليست الصفوف والأعمدة القديمة وانضمام قاعدة البيانات من آبائنا. انها مختلفة جدا من تطبيق إلى التطبيق، والكثير من ذلك هو غير منظم. وهذا يعني أنه لا يتناسب بسهولة مع الحقول على جدول بيانات أو تطبيق قاعدة بيانات.

خذ، على سبيل المثال، رسائل البريد الإلكتروني. قد تتطلب عملية الاكتشاف القانوني فرز الآلاف إلى الملايين من رسائل البريد الإلكتروني في مجموعة. لن تكون واحدة من تلك الرسائل تماما مثل آخر. وسوف تتكون كل واحد من عنوان البريد الإلكتروني للمرسل، وجهة، بالإضافة إلى الطابع الزمني. سيكون لكل رسالة نص مكتوب بخط الإنسان وربما مرفقات.

الصور ومقاطع الفيديو والتسجيلات الصوتية ورسائل البريد الإلكتروني والوثائق والكتب والعروض وتويت وشرائط تخطيط القلب كلها البيانات، لكنها عموما غير منظم، ومتنوعة بشكل لا يصدق.

كل هذا التنوع البيانات يشكل ناقلات متنوعة من البيانات الكبيرة.

وسوف تأخذ مكتبة من الكتب لوصف جميع الأساليب المختلفة التي يستخدمها الممارسين البيانات الكبيرة لمعالجة ثلاثة مقابل. في الوقت الحالي، على الرغم من ذلك، يجب أن تكون الوجبات الجاهزة الكبيرة الخاصة بك هي: بمجرد بدء الحديث عن البيانات من حيث المصطلحات التي تتجاوز الدلاء الأساسية، بمجرد أن تبدأ الحديث عن الكميات الملحمية، تدفق مجنون، وتشكيلة واسعة، كنت تتحدث عن البيانات الكبيرة.

وهناك فكر أخير: هناك الآن طرق لتفحص كل تلك الجنون واستخلاص الأفكار التي يمكن تطبيقها على حل المشاكل، والأنماط المميزين، وتحديد الفرص. وتسمى هذه العملية تحليلات، وهذا هو السبب، عندما تسمع البيانات الكبيرة التي نوقشت، كنت كثيرا ما تسمع مصطلح تحليلات تطبيقها في نفس الجملة.

يصف الثلاثة فس البيانات التي سيتم تحليلها. يعد أناليتيكش عملية استخلاص القيمة من تلك البيانات. وإذا ما أخذنا معا، فهناك إمكانية لإلقاء نظرة مدهشة أو مراقبة مثيرة للقلق. مثل كل قوة كبيرة أخرى، البيانات الكبيرة تأتي مع وعد كبير ومسؤولية كبيرة.

بالمناسبة، أنا أفعل المزيد من التحديثات على تويتر والفيسبوك من أي وقت مضى. تأكد من اتباع لي على تويتر فيDavidGewirtz وفي الفيسبوك في Facebook.com/DavidGewirtz.

ينكدين يكشف النقاب عن منصة جديدة للتدوين

هل هذا هو عمر أولاب الكبير؟

يهدف داتاروبوت لأتمتة الفاكهة منخفضة شنقا من علم البيانات

مؤسس مابر جون شرودر يتنحى، كو ليحل محل

الصوت

● السرعة

تشكيلة

إدارة الثلاث مرات

Refluso Acido