يتنبأ نموذج التعلم الآلي المأخوذ من أكبر مجموعة بيانات أمريكية لـ COVID-19 بخطورة المرض

يتنبأ نموذج التعلم الآلي المأخوذ من أكبر مجموعة بيانات أمريكية لـ COVID-19 بخطورة المرض

بدأ المستودع المركزي للسجلات الصحية لـ COVID-19 الذي تم إنشاؤه العام الماضي في إظهار النتائج ، بدءًا بورقة بحثية جديدة نُشرت اليوم. يعد المستودع أكبر مجموعة من سجلات COVID-19 حتى الآن ، وقد تم بناؤه بواسطة فريق من الباحثين وخبراء البيانات العام الماضي للمساعدة في فهم COVID-19.

الدراسة المنشورة في المجلة شبكة JAMA مفتوحة، بحث في عوامل الخطر للحالات الشديدة من COVID-19 وتتبع تطور المرض بمرور الوقت. المؤلفون صممت نماذج التعلم الآلي للتنبؤ بالمرضى المقيمين في المستشفى الذين سيصابون بمرض حاد بناءً على المعلومات التي تم جمعها في يومهم الأول في المستشفى.

إن استخدام قاعدة البيانات المركزية ، المسماة بـ National COVID Cohort Collaborative Data Enclave ، أو N3C ، يعني أن فريق البحث كان قادرًا على تضمين مئات الآلاف من سجلات المرضى في تحليله. استخدمت الدراسة بيانات من 34 مركزًا طبيًا وضمت أكثر من مليون بالغ – 174،568 ممن ثبتت إصابتهم بـ COVID-19 و 1،133،848 الذين جاءت نتيجة اختبارهم سلبية. ويشمل سجلات تمتد من يناير 2020 إلى ديسمبر 2020.

يُظهر التحليل كيف تغير علاج COVID-19 على مدار عام 2020 ، حيث جرب الأطباء علاجات جديدة واكتسبوا المزيد من الخبرة مع هذه الحالة. انخفضت النسبة المئوية للمرضى الذين عولجوا بعقار هيدروكسي كلوروكوين المضاد للملاريا ، والذي روج له الرئيس السابق دونالد ترامب قبل أن يثبت عدم فعاليته ، إلى الصفر تقريبًا بحلول مايو 2020. ارتفع استخدام الستيرويد ديكساميثازون في يونيو ، بعد الدراسات أظهر أنه يمكن أن يحسن معدلات البقاء على قيد الحياة.

كما أكدت أن معدلات البقاء على قيد الحياة لمرضى COVID-19 قد تحسنت على مدار عام 2020. في مارس وأبريل ، توفي 16 بالمائة من الأشخاص الذين دخلوا المستشفى بسبب COVID-19. في سبتمبر وأكتوبر ، انخفض ذلك إلى أقل من 9 في المائة.

كان الأشخاص الذين لديهم معدلات ضربات قلب أعلى ومعدلات تنفس ودرجات حرارة أعلى عند وصولهم إلى المستشفى أكثر عرضة للحاجة إلى تدخلات جذرية مثل التهوية. هم أيضا أكثر عرضة للموت. كما تم ربط عدد خلايا الدم البيضاء غير الطبيعي والالتهابات وحموضة الدم ووظائف الكلى بالحالات الأكثر خطورة. قام فريق البحث ببناء نماذج التعلم الآلي باستخدام تلك البيانات وغيرها من نقاط البيانات التي يمكن أن تتنبأ بالمرضى الذين سيصابون بمرض خطير. كتب المؤلفون أنه يمكن استخدام النماذج في النهاية كأساس لأدوات صنع القرار مع اختبارات إضافية.

كان الباحثون يحللون مسار COVID-19 منذ بداية الوباء. تتميز هذه الدراسة بالسحب من مجموعة بيانات كبيرة ومتنوعة – فهي لا تقتصر على مستشفى واحد أو دولة واحدة. غالبًا ما يقتصر الباحثون في الولايات المتحدة على دراسة السجلات الطبية من المرضى في المؤسسات التي يعملون فيها. هذا يعني أن عدد السجلات التي يمكنهم تضمينها في الدراسات يمكن أن يكون محدودًا ، ولا يمكنهم بسهولة التحقق مما إذا كانت استنتاجاتهم ستنطبق في أماكن أخرى.

يتخطى مورد مثل N3C ، الذي يجمع السجلات من عشرات المؤسسات ، تلك القيود. حتى الآن ، تتضمن N3C بيانات من 73 مؤسسة صحية ولديها سجلات لأكثر من مليوني مريض مصاب بفيروس كورونا. يجري حاليًا تنفيذ أكثر من 200 مشروع بحثي باستخدام البيانات ، بما في ذلك الدراسات التي تبحث في عوامل الخطر لإعادة الإصابة بفيروس COVID-19 وتأثير المرض على الحمل. إنها ليست مثالية – من الصعب توحيد المعلومات عبر المستشفيات ، وقد لا تكون هناك بيانات كاملة عن العديد من المرضى.

ومع ذلك ، فإن امتلاك مثل هذه المجموعة الكبيرة من البيانات لا يقدر بثمن. يستخدم الباحثون المورد لإجراء دراسات ربما لم يكونوا قادرين على معالجتها باستخدام موارد مؤسستهم فقط ، كما قالت إيلين هيل ، الخبيرة الاقتصادية الصحية في جامعة روتشستر التي تعمل في أبحاث الحمل ، الحافة الخريف الماضي. قالت: “إنه يجعل من الممكن إلقاء الضوء على أشياء لن نكون قادرين عليها”.