حريق في مركز بيانات أمازون بالإمارات يعطل خدمات Claude وChatGPT وBedrock

أدى حريق في مركز بيانات تابع لشركة – تأثر بالتوترات في الشرق الأوسط – إلى تعطيل عمليات منتجات تكنولوجية رئيسية مثل Claude وChatGPT، والتي تستضيفها خدمات أمازون السحابية (AWS).
تواجه مناطق التوافر المتعددة في الشرق الأوسط (ME-CENTRAL-1 في الإمارات وME-SOUTH-1 في البحرين) اضطرابات شديدة بعد أن تسبب حريق ناجم عن اصطدام أجسام خارجية بمركز بيانات في انقطاع كامل للتيار الكهربائي.
تقول شركة أمازون ويب سيرفيسز إن التعافي سيستغرق بعض الوقت، وقد يمتد لأسابيع بسبب الحاجة لتقييم سلامة البيانات والتخزين بعد الإغلاق المفاجئ والحريق.
لماذا تستغرق عملية استعادة خدمات AWS وقتاً طويلاً؟
أوضح مهندسو AWS أنه في حين أن خدمة Amazon S3 مصممة للبقاء على قيد الحياة في حالة فقدان منطقة واحدة، فإن فشل منطقتين في وقت واحد أدى إلى “معدلات فشل عالية في استيعاب البيانات وإخراجها”.
تنصح AWS عملاءها الآن بنقل بياناتهم وتطبيقاتهم إلى مناطق بديلة بالكامل. وقد شهدت بنى تحتية تقنية رئيسية مثل Claude وChatGPT وAWS Bedrock اضطراباً كبيراً في الشبكة نظراً لاعتمادها الكبير على مجموعات وحدات معالجة الرسومات (GPU) وشبكات واجهة برمجة التطبيقات (API) التي توجه حركة البيانات العالمية عبر مراكز البيانات المتأثرة في الشرق الأوسط.
يعود سبب انقطاع التيار الكهربائي إلى الأضرار المادية التي لحقت بمركز بيانات في منطقة mec1-az2 نتيجة اصطدام أجسام خارجية. وقع الحادث في الأول من مارس حوالي الساعة 4:30 صباحاً، وتسبب في شرارات ونشوب حريق لاحق.
واستجابةً لذلك، أمرت إدارة الإطفاء المحلية بفصل التيار الكهربائي بالكامل عن المنشأة ومولداتها الاحتياطية لإخماد النيران بأمان. لكن عملية إعادة تأهيل المبنى ستستغرق وقتاً أطول بكثير.
وقد صرّحت شركة AWS بأنها تنتظر الحصول على إذن رسمي من مسؤولي الإطفاء لإعادة تشغيل الطاقة الكهربائية. وبمجرد عودة التيار الكهربائي، يتعين على الفرق الفنية إجراء “تقييم دقيق لسلامة البيانات”.
نظراً لأن عملية الإغلاق كانت مفاجئة وتسببت في حريق، فهناك خطر حدوث تلف مادي لأجهزة التخزين. وقد حذرت AWS من أن إصلاح أنظمة التخزين بالكامل سيستغرق وقتاً حتى بعد عودة الاتصال.
أكدت AWS أن العملاء ما زالوا يواجهون زيادة في أخطاء واجهة برمجة تطبيقات EC2 وفشل تشغيل مثيلات الخدمة. من المستحيل حاليًا تشغيل مثيلات جديدة في المناطق المتأثرة، وبينما تستمر المثيلات الموجودة في منطقة mec1-az1 غير المتأثرة بالعمل، إلا أن استقرار المنطقة بشكل عام مُعرّض للخطر.
يؤكد الخبراء أن التعافي الكامل قد يستغرق أسابيع بسبب:
- انتظار إذن السلامة من الدفاع المدني والإطفاء.
- فحص واختبار سلامة أجهزة التخزين والسيرفرات بعد الحريق.
- إعادة مزامنة البيانات عبر المناطق الأخرى بسبب الفشل المتزامن في منطقتين.
- نقل عبء العمليات إلى مناطق بديلة (مثل أوروبا أو آسيا) مع ضغط هائل على الشبكة العالمية.





