Mengelola budaya kewaspadaan menjadi salah satu hal terpenting pada sebuah perisahaan berbasis paltform. Kewaspadaan ini sangat penting ditingkatkan terutama dalam menghadapi berbagai insiden.
Ada beberapa tahapan yang bisa diterapkan dalam mengelola sebuah insiden pada suatu platform seperti yang dibagikan tim engineer Tokopedia pada acara START Summit Extension pada 17 Desember 2020 lalu:
- Preparation & Monitoring
Pada tahap ini adalah fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi, tetapi akan sangat berpengaruh terhadap fase berikutnya. Software Engineer Lead – Purchase Platform Tokopedia, Timothy Agustian mengatakan, poin pada fase ini adalah melatih anggota agar mengetahui pengetahuan dasar tentang cara use case yang perlu ditangani.
Poin selanjutnya adalah mengumpulkan dan membuat dokumentasi segala informasi yang berkaitan dengan insiden manajemen agar dapat mudah diakses tim lainnya. Pada poin ketiga, seorang developer harus memonitor platform untuk membantu mengetahui keadaan server ataupun bisnis secara real time sehingga dapat mempersiapkan segala kemungkinan.
- Alerting
Tahap selanjutnya adalah Alerting. Timothy mengatakan tahap ini adalah fase pertama yang dilakukan ketika terjadi suatu insiden. Ketika alarm berbunyi, maka itu merupakan tanda terjadi suatu insiden.
“Insiden yang baik adalah jika alertingnya juga baik, sehingga kita dapat langsung mengetahui saat insiden terjadi dan tidak mengetahuinya dari pihak eksternal atau pengguna, melainkan dapat mengetahuinya terlebih dulu,” kata Timothy dikutip website resmi Tokopedia Minggu (24/1/2021).
Tiga kriteria yang menunjukkan sebuah alarm bekerja dengan baik, yakni Escalated Alert yang bisa mengetahui seberapa bahaya insiden tersebut dan seberapa cepat developer bisa menyelesaikannya.
Kedua, Informative yaitu ketika tim yang bukan bagian dari tim teknologi dapat mengerti tentang situasi yang terjadi dan yang ketiga adalah to the point yang dapat langsung menjelaskan suatu insiden secara tepat dan akurat.
- Triage & Notify
Tahap ini merupakan tahap ketiga melola kewaspadaan. Menurut Engineering Manager – Order & Campaign Tokopedia Danish Jatmiko, tahapan ini menjelaskan tentang apa yang perlu dilakukan saat sebuah insiden datang.
Danish mengatakan, hal pertama yang perlu dilakukan adalah tidak panik dan mengendalikan serta mengatur situasi yang sedang terjadi. Selanjutnya membaca situasi dan kondisi sistem agar dapat mengenali insiden yang terjadi.
“Sebagai contoh, ketika traffic sedang mengalami down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau servis lainnya. Dengan Alerting & Monitoring, kita dapat langsung mengetahui penyebabnya serta bagaimana kita dapat mengatasi hal tersebut,” jelas Danis.
- Post-Mortem Investigation and Resolution
Software Engineer Lead – Order Tokopedia Viriya Saddha Pannindriya menjelaskan, yang harus dilakukan pada tahap ini adalah mencari tahu lebih dalam dan detail mengenai penyebab dari insiden yang terjadi.
Seorang developer harus terus menggali lebih dalam tentang root cause dari sebuah insiden sehingga dapat menentukan solusi jangka panjang sebelum tahap collateral damage.
Setelah itu, developer perlu mencari tahu apa root cause ini membara dampak ke hal yang lainnya atau tidak. Oleh karena itu, penting untuk melihat masalah sampai ke akar agar dapat mengetahui seberapa luas isu yang dihadapi.
“Setelah kita mengetahui core problems dan akar permasalahannya, kita dapat melanjutkan ke tahap berikutnya yakni memastikan agar insiden tersebut tidak terjadi lagi. Melalui Alerting dan Monitoring, kita dapat memperbaiki setiap temuan yang ada dan disesuaikan dengan prosedur dari Alerting dan Monitoring tersebut,” terang Viriya.
Langkah terakhir dalam tahap ini yaitu Documentation. Viriya mengatakan fase ini penting untuk menjaga suatu insiden agar tidak terjadi kembali di kemudian hari. Karena itu, penting untuk membuat dokumentasi sebagai pengalaman.