Làm thế nào để tìm ra KPI quản lý sự cố phù hợp?

April 29, 2022

Hãy tìm ra những gì bạn đang cố gắng học hỏi, sau đó xem xét những chỉ số có thể hữu ích với bạn

Việc thiết lập và theo dõi các chỉ số hiệu suất chính (key performance indicator – KPI) dựa trên dữ liệu phù hợp có thể giúp các nhóm quản lý sự cố giảm thiểu tác động của sự cố và củng cố hoạt động kinh doanh.

Nhưng chính xác thì dữ liệu phù hợp là gì? Đó có thể là một câu hỏi khó. Sự cố rất phức tạp và không có hai sự cố nào hoàn toàn giống nhau, và các KPI của bạn phải phản ánh sự phức tạp này.

Có thể bạn đã quen thuộc với một số chỉ số quản lý sự cố phổ biến như: MTTA (mean time to acknowledge – thời gian ghi nhận trung bình), MTTR (mean time to resolve – thời gian giải quyết trung bình) và tổng số sự cố. Bạn chỉ cần chọn bất kỳ số liệu nào có vẻ phù hợp và chỉ định nó làm KPI của mình.

Nhưng sau đó tất cả những gì bạn còn lại chỉ là một biểu đồ hiển thị cho bạn những gì bạn đã biết: một sự cố đang xảy ra. Bạn có thể học được gì từ dữ liệu đó? Và bạn có thể thực hiện hành động dựa trên nó như thế nào?

Câu trả lời chính là: lật lại suy nghĩ của bạn! Trước tiên, hãy tìm ra những gì bạn đang cố gắng học hỏi và hoàn thành, sau đó xem xét những chỉ số khả dụng nào có thể phục vụ bạn đạt được mục tiêu đó.

Đặt những câu hỏi phù hợp và tìm ra mục tiêu của bạn

Thật tuyệt khi đặt ra và theo dõi KPI, nhưng điều quan trọng bạn cần nhớ chính là: đây không phải mục tiêu cuối cùng. Giống như bước lên cân mỗi ngày sẽ không giúp bạn giảm cân, bạn cần tìm cách thực hiện hành động dựa trên dữ liệu của mình. Nếu không, tất cả những gì bạn làm sẽ chỉ là nhìn chằm chằm vào các con số.

Do đó, mục tiêu của chúng ta là tìm ra các điểm dữ liệu mà cuối cùng ta có thể sử dụng làm đầu vào để tìm hiểu thêm từ các sự cố và trả lời các câu hỏi khó.

Những câu hỏi đó có thể là:

Mọi người gặp sự cố như thế nào?
Làm thế nào để chúng ta có ít sự cố hơn?
Dịch vụ nào gặp sự cố nghiêm trọng?
Những loại điểm yếu nào dẫn đến sự cố?

Hãy nghĩ về những câu hỏi có thể dành cho nhóm và tổ chức cụ thể của bạn, và trở lại làm việc từ đó. Hãy nghĩ đến sản phẩm và khách hàng của bạn. Nếu bạn làm việc cho một ngân hàng, bạn có thể sẽ ưu tiên tính bảo mật và tính toàn vẹn của dữ liệu hơn là tổng thời gian hoạt động, còn khi làm việc trong lĩnh vực thương mại điện tử, bạn có thể ưu tiên việc đảm bảo ít sự cố hơn và tổng thời gian hoạt động. Sau đó, hãy tìm kiếm các điểm dữ liệu có thể làm sáng tỏ những câu hỏi này. Có thể đó là khoảng thời gian giữa các lần xảy ra sự cố, hoặc số lượng dịch vụ bị ảnh hưởng bởi mỗi sự cố. Quá trình này sẽ giúp khám phá các KPI tiềm năng mà bạn có thể chưa bao giờ nghĩ đến.

Xem xét các chỉ số có sẵn

Bây giờ bạn đã hiểu những gì bạn đang cố gắng tìm hiểu, vậy thì bạn có thể bắt đầu xem xét các chỉ số có sẵn để xem những điểm dữ liệu nào có thể xác định KPI của mình.

Đây là một ví dụ: Giả sử mục tiêu của bạn là các sự cố ngắn. Bạn có thể tập hợp nhóm của mình trước bảng trắng và bắt đầu bằng một câu hỏi: Làm thế nào chúng ta có thể giải quyết các sự cố nhanh hơn?

Từ đó, bạn sẽ suy nghĩ về tất cả các cách có thể khiến điều này xảy ra. Một câu trả lời mà bạn có thể tiếp cận là: Hãy đảm bảo rằng người phù hợp đang được gọi. Sau đó, hãy nhìn vào dữ liệu có sẵn. Hãy tự hỏi bản thân, Đâu là chỉ số cho thấy chúng ta có thể đang gọi nhầm người? Một chỉ số khả thi có thể là số lần báo cáo cuộc gọi. Nếu người phản hồi trong cuộc gọi đầu tiên liên tục phải chuyển máy cho những người phản hồi bổ sung, điều đó có thể làm chậm quá trình giải quyết sự cố. Khi đó, KPI của bạn có thể giảm 50%. Tuy nhiên, có một điều cần thận trọng lưu ý, chính là bạn không muốn các kỹ sư làm việc quá mức chỉ để đạt được một số KPI.

Với ý nghĩ đó, chúng ta hãy xem xét một số chỉ số phổ biến nhất mà nhóm đang gọi điện có thể xem xét. Bạn có thể tìm thấy câu trả lời cho các câu hỏi chính của mình tại đây, hoặc bạn có thể muốn tìm hiểu sâu hơn nữa.

Cân bằng nhóm và tình trạng kiệt sức: thời gian và hiệu suất cuộc gọi

Đừng bỏ qua tác động của sự hài lòng của thành viên trong nhóm đối với sự cố và thời gian phục hồi. Ví dụ, khi ai đó phải thực hiện nhiều nhiệm vụ thường trực vì không ai khác quen thuộc với một dịch vụ nhất định, chúng ta nên lưu ý điều này và thực hiện các hành động cần thiết để tránh để họ kiệt sức.

Cảnh báo trên mỗi trạng thái, mức độ ưu tiên, thẻ, nhóm và ngày

“Alerts per” (Cảnh báo trên mỗi) là một lược đồ nhóm được sử dụng trong Opsgenie để sắp xếp các cảnh báo dựa trên các trường hợp khác nhau. Đó là một phương pháp tốt để xác định toil – một thuật ngữ SRE dùng để chỉ loại công việc gắn liền với việc vận hành một dịch vụ sản xuất có xu hướng thủ công, lặp đi lặp lại, có thể tự động hóa, mang tính chiến thuật, không có giá trị lâu dài và quy mô tuyến tính khi dịch vụ phát triển..

Ví dụ, khi bạn xem xét mức độ nghiêm trọng của cảnh báo trên mỗi nguồn, bạn có thể thấy một mẫu xuất hiện cho một loại cảnh báo cụ thể và kết luận rằng hầu hết các cảnh báo có mức độ ưu tiên cao đều đến từ một dịch vụ cụ thể. Bạn có thể thực thi các truy vấn phức tạp hơn như cảnh báo trên mỗi trạng thái hoặc cảnh báo trên mỗi mức độ ưu tiên.

Đừng quên những gì bạn muốn học – và những gì bạn không thể đo lường

Thu thập và hình dung các chỉ số có thể giúp các nhóm đánh giá hiệu suất của chính họ và cải thiện nó. Các nhà quản lý cũng được hưởng lợi từ khả năng hiển thị vào quá trình xử lý sự cố và cách các nhóm đang làm việc.

Nhưng hãy nhớ sử dụng các số liệu này để trả lời các câu hỏi phù hợp. Và đừng quên những gì bạn muốn học hỏi là không dễ dàng đo lường được. Đừng từ bỏ việc học những điều đó chỉ vì câu trả lời không vừa vặn với trang tổng quan hoặc truy vấn SQL.

Và đừng quên nói chuyện với nhau và tiến hành điều tra, phân tích sau sự cố. Kết hợp những thông tin chi tiết này với dữ liệu để có được thêm nhiều thông tin chi tiết. Tất cả các sự cố đều là cơ hội học tập, và chìa khóa của việc học bắt đầu bằng việc đặt ra những câu hỏi phù hợp.

Theo Atlassian