Skip to main content
25 Juli 2024
# Topik
Ayo Terhubung

Apa Yang Menyebabkan Kerusakan Besar Crowdstrike-Windows Pada 2024?

25 Juli 2024
 

Microsoft Windows menggerakkan lebih dari satu miliar PC dan jutaan server di seluruh dunia, banyak di antaranya memainkan peran penting di fasilitas yang melayani pelanggan secara langsung. Jadi, apa yang terjadi ketika penyedia perangkat lunak tepercaya mengirimkan pembaruan yang membuat PC tersebut berhenti beroperasi? Pada 19 Juli 2024, kita tahu jawabannya: Kekacauan!

 

DAFTAR ISI

Dalam hal ini, pengembang perangkat lunak tepercaya adalah sebuah perusahaan bernama CrowdStrike Holdings, yang sebelumnya dikenal sebagai firma keamanan yang menganalisis peretasan server milik Komite Nasional Demokrat pada tahun 2016. Itu hanyalah kenangan manis sekarang, karena perusahaan ini akan selamanya dikenal sebagai Perusahaan yang Menyebabkan Pemadaman IT Terbesar di tahun 2024. Masalah ini membuat pesawat terbang berhenti, memutus akses ke beberapa sistem perbankan, mengganggu jaringan kesehatan utama, dan membuat setidaknya satu jaringan berita terhenti.

Microsoft memperkirakan bahwa pembaruan CrowdStrike mempengaruhi 8,5 juta perangkat Windows. Itu adalah persentase kecil dari basis terpasang di seluruh dunia, tetapi seperti yang dicatat oleh David Weston, Wakil Presiden Keamanan Perusahaan dan OS Microsoft, "dampak ekonomi dan sosial yang luas mencerminkan penggunaan CrowdStrike oleh perusahaan yang menjalankan banyak layanan penting." Menurut laporan Reuters, "Lebih dari setengah perusahaan Fortune 500 dan banyak badan pemerintah seperti badan keamanan siber AS, Cybersecurity and Infrastructure Security Agency, menggunakan perangkat lunak perusahaan ini."

Apa yang terjadi?

CrowdStrike, yang menjual perangkat lunak keamanan yang dirancang untuk menjaga sistem tetap aman dari serangan eksternal, mendorong "pembaruan konfigurasi sensor" yang rusak ke jutaan PC di seluruh dunia yang menjalankan perangkat lunak Falcon Sensor mereka. Pembaruan itu, menurut CrowdStrike, adalah "File Saluran" yang berfungsi untuk mengidentifikasi aktivitas berbahaya baru yang diamati oleh penyerang siber.

Meskipun file pembaruan memiliki ekstensi .sys, itu bukanlah driver kernel itu sendiri. File tersebut berkomunikasi dengan komponen lain di sensor Falcon yang berjalan di ruang yang sama dengan kernel Windows, tingkat paling istimewa pada PC Windows, di mana mereka berinteraksi langsung dengan memori dan perangkat keras. CrowdStrike mengatakan kesalahan logika dalam kode itu menyebabkan PC dan server Windows crash dalam hitungan detik setelah mereka booting, menampilkan kesalahan STOP, yang lebih dikenal sebagai Blue Screen of Death (BSOD).

Memperbaiki kerusakan dari cacat seperti ini adalah proses yang sangat melelahkan yang memerlukan reboot manual setiap PC yang terpengaruh ke Windows Recovery Environment dan kemudian menghapus file yang rusak dari PC menggunakan antarmuka baris perintah lama. Jika PC yang bersangkutan memiliki drive sistem yang dilindungi oleh perangkat lunak enkripsi BitLocker Microsoft, seperti hampir semua PC bisnis, perbaikan memerlukan satu langkah tambahan: memasukkan kunci pemulihan BitLocker 48 karakter unik untuk mendapatkan akses ke drive dan menghapus driver CrowdStrike yang rusak.

Jika Anda mengenal seseorang yang pekerjaannya melibatkan pengelolaan PC Windows di jaringan perusahaan yang menggunakan kode CrowdStrike, Anda dapat yakin bahwa mereka sangat sibuk saat ini, dan akan demikian selama beberapa hari mendatang.

Kita pernah mengalami hal serupa sebelumnya

mcaffee shutdown error

Ketika pertama kali mendengar tentang bencana ini sebagian orang mungkin berpikir hal itu terdengar akrab. Di subreddit Sysadmin Reddit, pengguna u/externedguy mengingatkan tentang hal tersebut. Mungkin Anda ingat cerita ini dari 14 tahun yang lalu:

"Pembaharuan McAfee yang rusak menyebabkan kerusakan besar pada PC XP di seluruh dunia."

Oops, mereka melakukannya lagi.

Pada pukul 6 pagi hari ini, McAfee merilis pembaruan untuk definisi antivirusnya bagi pelanggan korporat yang memiliki sedikit masalah. Dan dengan "sedikit masalah," maksud saya adalah jenis yang membuat PC tidak dapat digunakan sampai dukungan teknis datang untuk memperbaiki kerusakan secara manual. Seperti yang saya komentari di Twitter sebelumnya hari ini, saya tidak yakin ada penulis virus yang pernah mengembangkan malware yang mematikan sebanyak mesin secepat yang dilakukan McAfee hari ini.

Dalam kasus itu, McAfee mengirimkan file definisi virus (DAT) yang rusak ke PC yang menjalankan Windows XP. File itu secara salah mendeteksi file sistem Windows yang penting, Svchost.exe, sebagai virus dan menghapusnya. Hasilnya, menurut laporan kontemporer, adalah "sistem yang terkena dampak akan memasuki loop reboot dan kehilangan semua akses jaringan."

Kesamaan antara insiden tahun 2010 itu dan pemadaman CrowdStrike tahun ini sangat luar biasa. Pada intinya adalah pembaruan yang rusak, didorong ke jutaan PC yang menjalankan agen perangkat lunak yang kuat, menyebabkan perangkat yang terpengaruh berhenti bekerja. Pemulihan memerlukan intervensi manual pada setiap perangkat. Ditambah, kode yang rusak itu didorong oleh perusahaan keamanan publik yang sangat berusaha untuk tumbuh dalam pasar yang sangat kompetitif.

Waktu itu sangat tidak menguntungkan bagi McAfee. Intel telah mengumumkan niatnya untuk mengakuisisi McAfee seharga $7,68 miliar pada 19 April 2010. File DAT yang rusak itu dirilis dua hari kemudian, pada 21 April.

Kejadian McAfee tahun 2010 merupakan masalah besar, melumpuhkan perusahaan-perusahaan Fortune 500 (termasuk Intel!) serta universitas dan penempatan pemerintahan/militer di seluruh dunia. Itu membuat 10% dari mesin kasir di rantai supermarket terbesar di Australia offline, memaksa penutupan 14 hingga 18 toko.

Di departemen "Anda Tidak Bisa Membuat Ini", pendiri dan CEO CrowdStrike, George Kurtz, adalah Chief Technology Officer McAfee selama insiden tahun 2010 itu.

Apa yang membuat sekuel 2024 ini jauh lebih buruk adalah bahwa hal ini juga mempengaruhi server berbasis Windows yang berjalan di cloud, di Microsoft Azure dan di AWS. Sama seperti banyak laptop dan PC desktop yang rusak oleh pembaruan yang rusak ini, server berbasis cloud memerlukan intervensi manual yang memakan waktu untuk pemulihan.

Pengujian Kualitas (QA) CrowdStrike Gagal

02 CrowdStrike

Anehnya, ini bukan pertama kalinya CrowdStrike merilis pembaruan sensor Falcon yang rusak tahun ini.

Kurang dari sebulan sebelumnya, menurut laporan dari The Stack, CrowdStrike merilis pembaruan logika deteksi untuk sensor Falcon yang mengekspos bug dalam fitur Memory Scanning sensor. "Hasil dari bug tersebut," tulis CrowdStrike dalam sebuah pemberitahuan kepada pelanggan, "adalah kesalahan logika di CsFalconService yang dapat menyebabkan sensor Falcon untuk Windows menggunakan 100% dari satu inti CPU." Perusahaan kemudian menarik kembali pembaruan tersebut, dan pelanggan dapat melanjutkan operasi normal dengan melakukan reboot.

Saat itu, pakar keamanan komputer Will Thomas mencatat di X/Twitter, "[Ini] hanya menunjukkan betapa pentingnya mengunduh pembaruan baru ke satu mesin untuk mengujinya terlebih dahulu sebelum menggulirkannya ke seluruh armada!"

Dalam insiden tahun 2010 itu, penyebab utamanya ternyata adalah kegagalan total dalam proses QA. Tampaknya jelas bahwa kegagalan QA serupa terjadi di sini. Apakah kedua pembaruan CrowdStrike ini tidak diuji sebelum didorong ke jutaan perangkat?

Sebagian masalah mungkin terletak pada budaya perusahaan yang panjang dalam berbicara keras. Dalam panggilan pendapatan CrowdStrike terbaru, CEO George Kurtz membanggakan kemampuan perusahaan untuk "mengirimkan produk-produk revolusioner dengan kecepatan yang cepat," dengan secara khusus menyasar Microsoft:

"Dan baru-baru ini, menyusul pelanggaran besar lainnya oleh Microsoft dalam temuan Dewan Tinjauan Keamanan Siber CIS, kami menerima gelombang permintaan dari pasar untuk bantuan. Kami memutuskan sudah cukup, ada krisis kepercayaan yang meluas di antara tim keamanan dan TI dalam basis pelanggan keamanan Microsoft.

[...]

Umpan baliknya sangat positif. CISAs sekarang memiliki kemampuan untuk mengurangi risiko monokultur dari hanya menggunakan produk dan layanan cloud Microsoft. Inovasi kami terus berlanjut dengan kecepatan luar biasa, melipatgandakan alasan pasar untuk mengkonsolidasikan pada Falcon. Ribuan organisasi sedang mengkonsolidasikan pada platform Falcon."

Melihat peristiwa baru-baru ini, beberapa pelanggan tersebut mungkin bertanya-tanya apakah "kecepatan luar biasa" itu adalah bagian dari masalah.

Seberapa besar kesalahan yang harus ditanggung Microsoft?

03 CrowdStrike

Tidak mungkin membiarkan Microsoft sepenuhnya lepas dari tanggung jawab. Bagaimanapun, masalah sensor Falcon unik pada PC Windows, seperti yang diingatkan oleh admin di toko yang berfokus pada Linux dan Mac kepada kita.

Sebagian, itu adalah masalah arsitektural. Pengembang aplikasi tingkat sistem untuk Windows, termasuk perangkat lunak keamanan, secara historis mengimplementasikan fitur mereka menggunakan ekstensi kernel dan driver. Seperti yang diilustrasikan contoh ini, kode yang rusak yang berjalan di ruang kernel dapat menyebabkan crash yang tidak dapat dipulihkan, sementara kode yang berjalan di ruang pengguna tidak bisa.

Dulu, itu juga terjadi pada MacOS, tetapi pada tahun 2020, dengan MacOS 11, Apple mengubah arsitektur OS andalannya untuk sangat tidak menganjurkan penggunaan ekstensi kernel. Sebagai gantinya, pengembang didesak untuk menulis ekstensi sistem yang berjalan di ruang pengguna daripada di tingkat kernel. Pada MacOS, CrowdStrike menggunakan Kerangka Keamanan Endpoint Apple dan mengatakan menggunakan desain tersebut, "Falcon mencapai tingkat visibilitas, deteksi, dan perlindungan yang sama secara eksklusif melalui sensor ruang pengguna."

Dapatkah Microsoft melakukan perubahan serupa untuk Windows? Mungkin, tetapi melakukannya pasti akan membawa murka regulator antitrust, terutama di Eropa. Masalah ini sangat akut karena Microsoft memiliki bisnis keamanan perusahaan yang menguntungkan, dan perubahan arsitektural apa pun yang membuat hidup lebih sulit bagi pesaing seperti CrowdStrike akan dianggap tidak bersaing secara adil.

Memang, seorang juru bicara Microsoft mengatakan kepada Wall Street Journal bahwa mereka tidak dapat mengikuti jejak Apple karena masalah antitrust. Menurut laporan WSJ, "Pada tahun 2009, Microsoft setuju untuk memberikan pembuat perangkat lunak keamanan tingkat akses yang sama ke Windows yang dimiliki oleh Microsoft." Masalah ini mungkin terbuka untuk diperdebatkan, tetapi mengingat sejarah Microsoft dengan regulator UE, dapat dimengerti mengapa perusahaan tersebut tidak ingin terlibat dalam argumen tersebut.

Microsoft saat ini menawarkan API untuk Microsoft Defender for Endpoint, tetapi pesaing kemungkinan tidak akan menggunakannya. Mereka lebih suka berargumen bahwa perangkat lunak mereka lebih unggul, dan menggunakan penawaran "inferior" dari Microsoft akan sulit dijelaskan kepada pelanggan.

Namun demikian, insiden ini, yang menyebabkan kerugian bernilai miliaran dolar, harus menjadi panggilan bangun untuk seluruh komunitas IT. Setidaknya, CrowdStrike perlu meningkatkan permainan pengujiannya, dan pelanggan perlu lebih berhati-hati tentang mengizinkan kode semacam ini untuk diterapkan di jaringan mereka tanpa mengujinya sendiri.

 

 

Sumber: Ed Bott (22 Juli 2024)

 

Blog ini didukung oleh pembaca. Kami dapat memperoleh komisi afiliasi ketika Anda membeli melalui tautan di situs web kami. Ikuti kami juga di Google News Publisher untuk mendapatkan notifikasi artikel terbaru. Terima kasih.

 

 

Foto Rizal Consulting
Full-time Freelancer
🗓️ Sejak 2006 💻 Sabtu - Kamis ⏰ 08-17 WIB ☎️ 0813-8229-7207 📧