الوعد المبالغ فيه لمنجم التعدين غير المتصل


طلب الحائز على جائزة نوبل ، ريتشارد فاينمان ، من طلابه في معهد كالتيك أن يحسبوا احتمال أن تكون السيارة الأولى في موقف السيارات ، إذا سار خارج الفصل الدراسي ، تحمل لوحة ترخيص محددة ، على سبيل المثال 6ZNA74. وبافتراض أن كل رقم ورسالة متساويتين ومحددتين بشكل مستقل ، فقد قدر الطلاب أن يكون الاحتمال أقل من 1 في 17 مليون. عندما انتهى الطلاب من حساباتهم ، كشف Feynman أن الاحتمال الصحيح كان 1: لقد رأى لوحة الترخيص هذه في طريقه إلى الفصل. شيء مستبعد للغاية ليس من المستبعد على الإطلاق إذا كان قد حدث بالفعل.

إن فخ فاينمان – وهو نهب البيانات عن الأنماط دون أي فكرة مسبقة عما يبحث عنه المرء – هو كعب أخيل من الدراسات المستندة إلى استخراج البيانات. العثور على شيء غير عادي أو مفاجئ بعد حدوثه بالفعل ليس غير عادي ولا مفاجئ. من المؤكد أن الأنماط موجودة ، ومن المحتمل أن تكون مضللة أو سخيفة أو أسوأ من ذلك.

في كتابه الأكثر مبيعا في عام 2001 من جيد إلى رائعقارن جيم كولينز 11 شركة تفوقت على سوق الأوراق المالية بشكل عام خلال الأربعين سنة الماضية إلى 11 شركة لم تكن تملكها. وحدد خمسة سمات مميزة تشترك فيها الشركات الناجحة. "لم نبدأ هذا المشروع بنظرية نختبرها أو نثبتها" ، يتباهى كولينز. "سعينا لبناء نظرية من الألف إلى الياء ، مستمدة مباشرة من الأدلة."

صعد إلى فخ فاينمان. عندما ننظر إلى الوراء في الوقت المناسب في أي مجموعة من الشركات ، أفضلها أو أسوأها ، يمكننا دائمًا العثور على بعض الخصائص المشتركة ، لذا فإن العثور عليها لا يثبت شيئًا على الإطلاق. بعد نشر من جيد إلى رائعكان أداء أسهم كولينز الـ 11 الرائعة متواضعا بشكل واضح: فقد حققت خمسة أسهم أداء أفضل من سوق الأوراق المالية بشكل عام ، في حين أن أداء ستة أسهم كان أسوأ.

في عام 2011 ، أنشأت Google برنامجًا استخباراتيًا اصطناعيًا يسمى Google Flu والذي استخدم طلبات البحث للتنبؤ بتفشي الأنفلونزا. نظر برنامج Google لتعدين البيانات إلى 50 مليون استفسار بحث وحدد 45 سؤالًا كانت الأكثر ارتباطًا مع حالات الإصابة بالأنفلونزا. إنه مثال آخر على مصيدة استخراج البيانات: ستحدد الدراسة الصحيحة الكلمات الرئيسية مقدمًا. بعد إصدار تقريرها ، بالغت قناة Google Flu في عدد حالات الإصابة بالأنفلونزا خلال 100 من الـ 108 أسابيع التالية ، بمتوسط ​​يبلغ 100 بالمائة تقريبًا. لم تعد إنفلونزا Google تصدر تنبؤات بالإنفلونزا.

يعتقد أحد مسوقين الإنترنت أنه يمكن أن يعزز عائداته عن طريق تغيير لون صفحة الويب الزرقاء التقليدية إلى لون مختلف. بعد عدة أسابيع من الاختبارات ، وجدت الشركة نتيجة ذات دلالة إحصائية: على ما يبدو أن إنجلترا تحب البط البري. وبالنظر إلى عدة ألوان بديلة بالنسبة إلى مائة بلد أو نحو ذلك ، فقد ضمنوا أنهم سيجدون زيادة في العائدات لبعض الألوان في بعض البلدان ، لكن لم يكن لديهم أي فكرة في وقت مبكر عما إذا كان البيع سيبيع أكثر في إنجلترا. وكما اتضح ، عندما تغير لون صفحة الويب في إنجلترا إلى اللون الأخضر ، انخفضت الأرباح.

تتضمن تجربة علم الأعصاب القياسية إظهار متطوع في جهاز التصوير بالرنين المغناطيسي عدة صور وطرح أسئلة حول الصور. القياسات صاخبة ، التقاط الإشارات المغناطيسية من البيئة ومن الاختلافات في كثافة الأنسجة الدهنية في أجزاء مختلفة من الدماغ. في بعض الأحيان يفتقدون نشاط الدماغ. في بعض الأحيان يقترحون نشاطًا لا يوجد فيه شيء.

استخدم أحد طلاب الدراسات العليا في دارتموث جهاز التصوير بالرنين المغناطيسي لدراسة نشاط دماغ سمك السلمون حيث تم عرض الصور الفوتوغرافية عليه وطرح الأسئلة عليه. لم يكن الشيء الأكثر إثارة للاهتمام في الدراسة هو دراسة سمك السلمون ، بل أن سمك السلمون قد مات. نعم ، تم وضع سمك السلمون الميت الذي تم شراؤه في السوق المحلية في جهاز التصوير بالرنين المغناطيسي ، وتم اكتشاف بعض الأنماط. كانت هناك أنماط حتمية – وكانت بلا معنى دائمًا.

في عام 2018 ، قام أستاذ الاقتصاد في جامعة ييل وطلاب الدراسات العليا بحساب العلاقات المتبادلة بين التغيرات اليومية في أسعار البيتكوين ومئات المتغيرات المالية الأخرى. ووجدوا أن أسعار البيتكوين ترتبط ارتباطًا إيجابيًا بعوائد الأسهم في السلع الاستهلاكية وصناعات الرعاية الصحية ، وأنها ترتبط ارتباطًا سلبيًا بعوائد الأسهم في المنتجات المصنّعة وصناعات تعدين المعادن. قال البروفيسور: "نحن لا نقدم أي تفسيرات" ، "نحن فقط نوثق هذا السلوك". وبعبارة أخرى ، قد ينظرون أيضًا إلى ارتباطات أسعار البيتكوين بمئات من قوائم أرقام الهواتف ، وأفادوا بأعلى الارتباطات.

ألف مدير مختبر الأغذية والماركة بجامعة كورنيل (أو شارك في تأليفه) أكثر من 200 ورقة استعرضها الأقران وكتب كتابين شهيرين ، تم ترجمتها إلى أكثر من 25 لغة.

في تدوينة عام 2016 بعنوان "The Grad Student Who Never Said No" ، كتب عن طالب دكتوراه حصل على البيانات التي تم جمعها في بوفيه إيطالي كامل.

ظهرت مراسلات بالبريد الإلكتروني حيث نصح فيها الأستاذ طالب الدراسات العليا بفصل المتناولين إلى "ذكور وإناث وضيوف وجبة الغداء ورواد عشاء وأشخاص جالسين بمفردهم وأشخاص يأكلون مع مجموعات من 2 أشخاص يتناولون الطعام في مجموعات من 2 شخصًا أو أشخاص يأمرون بتناول الكحول والأشخاص الذين يطلبون مشروبات غازية ، والناس الذين يجلسون بالقرب من البوفيه ، والناس الذين يجلسون في أماكن بعيدة ، وهلم جرا … "ثم يمكن أن تنظر إلى الطرق المختلفة التي قد تختلف بها هذه المجموعات الفرعية:" # قطعة من البيتزا ، # رحلات ، مستوى ملء من طبق ، هل حصلوا على الحلوى ، هل طلبوا مشروبًا ، وما إلى ذلك … "

وخلصت إلى أنه ينبغي عليها "العمل بجد ، والضغط على بعض الدماء من هذه الصخرة". من خلال عدم قول لا ، فإن الطالب حصل على أربع أوراق (تُعرف الآن باسم "أوراق البيتزا") التي نشرت مع أستاذ كورنيل كأحد المؤلفين المشتركين. ذكرت الصحيفة الأكثر شهرة أن الرجال يأكلون البيتزا بنسبة 93 في المائة عندما يأكلون مع النساء. لم ينته جيدا. في سبتمبر 2018 ، خلصت لجنة هيئة التدريس في جامعة كورنيل إلى أنه "ارتكب سوء سلوك أكاديمي في بحثه". واستقال ، بدأ سريانه في شهر يونيو التالي.

يبدأ البحث الجيد بفكرة واضحة عن ما يبحث عنه المرء ويتوقع العثور عليه. يبحث عن البيانات فقط يبحث عن الأنماط ويجد حتما بعض.

أصبحت المشكلة متوطنة في الوقت الحاضر لأن أجهزة الكمبيوتر القوية جيدة للغاية في نهب البيانات الضخمة. وجد عمال المناجم ارتباطات بين كلمات تويتر أو استعلامات بحث Google والنشاط الإجرامي والنوبات القلبية وأسعار الأسهم ونتائج الانتخابات وأسعار البيتكوين ومباريات كرة القدم. قد تعتقد أنني أقدم هذه الأمثلة. انا لست.

هناك ارتباطات أقوى مع أرقام عشوائية بحتة. من البيانات الكبيرة Hubris أن تعتقد أن الارتباطات المنبثقة بالبيانات يجب أن تكون ذات معنى. إن العثور على نمط غير معتاد في البيانات الضخمة ليس مقنعًا (أو مفيدًا) أكثر من العثور على لوحة ترخيص غير عادية خارج فصول Feynman.

WIRED الرأي ينشر أجزاء كتبها المساهمين الخارجيين ويمثل مجموعة واسعة من وجهات النظر. قراءة المزيد من الآراء هنا. قم بتقديم مقالة رأي على العنوان التالي:@wired.com


المزيد من القصص العظيمة