Mất điện, mất mạng, hỏng server thì làm sao chạy tiếp? Kịch bản DR tối thiểu cho SME/FDI
GIẢI PHÁP CNTT

Mất điện, mất mạng, hỏng server thì làm sao chạy tiếp? Kịch bản DR tối thiểu cho SME/FDI

31-03-2026, 9:35 am

CDC Technologies thường thấy nhiều doanh nghiệp có backup nhưng chưa có kịch bản chạy tiếp khi hệ thống gặp sự cố. Đó là lý do DR tối thiểu rất quan trọng.

Mất điện, mất mạng, hỏng server thì làm sao chạy tiếp? Kịch bản DR tối thiểu cho SME/FDI

Với SME và FDI, chỉ cần hệ thống dừng 1–2 giờ là công việc có thể bị ảnh hưởng rõ rệt: đơn hàng treo, kế toán không xuất hóa đơn, kho không lên phiếu, nhân sự không chấm công được, email hoặc Teams bị gián đoạn. Vấn đề là sự cố thường không đi một mình. Mất điện có thể kéo theo mất mạng, server treo, rồi phát sinh lỗi dữ liệu. Vì vậy, doanh nghiệp không nên chỉ hỏi “có backup chưa”, mà cần hỏi thêm: nếu có sự cố, ai xử lý, khôi phục theo thứ tự nào, mất bao lâu và chấp nhận mất tối đa bao nhiêu dữ liệu.

DR tối thiểu là gì? Khác backup ở đâu?

Nói đơn giản, backup là có bản sao dữ liệu để lấy lại khi cần. Còn DR là kế hoạch giúp doanh nghiệp tiếp tục vận hành khi hệ thống bị gián đoạn.

Hiểu dễ hơn:

  • Backup trả lời câu hỏi: có dữ liệu để khôi phục không
  • DR trả lời câu hỏi: khi hệ thống dừng, doanh nghiệp chạy tiếp thế nào

Nhiều nơi có backup nhưng khi sự cố xảy ra lại lúng túng vì không biết phục hồi từ đâu, ai làm, khôi phục xong chạy trên nền nào và bao lâu người dùng mới làm việc lại được.

2 con số phải chốt trước: RTO và RPO

Để xây dựng DR, doanh nghiệp chỉ cần chốt 2 mục tiêu:

RTO: chấp nhận hệ thống ngừng tối đa bao lâu

Ví dụ, ERP ngừng 4 giờ là không chấp nhận được. Đó chính là RTO.

RPO: chấp nhận mất dữ liệu tối đa bao lâu

Ví dụ, doanh nghiệp chấp nhận mất dữ liệu 30 phút gần nhất, nhưng nhiều hơn thì không được. Đó là RPO.

Hai con số này quyết định mức đầu tư phù hợp. Nếu không chốt từ đầu, doanh nghiệp rất dễ rơi vào hai cực đoan: hoặc đầu tư quá tay, hoặc làm cho có.

Kiến Trúc Phục Hồi (DR) Tối Thiểu Cho Doanh Nghiệp

Một bộ DR tối thiểu cần những gì?

Một kịch bản DR tối thiểu thường có 5 phần cơ bản.

Danh sách hệ thống ưu tiên

Doanh nghiệp phải xác định rõ những hệ thống nào bắt buộc phải sống trước. Thường là:

  • ERP, kế toán, hóa đơn
  • File dùng chung
  • Email, chat, meeting
  • Hệ thống đăng nhập
  • Hệ thống sản xuất, MES, SCADA với nhà máy

Không thể đến lúc sự cố mới tranh luận nên cứu cái gì trước.

Nguồn điện tối thiểu để không sập đột ngột

Server, switch, firewallstorage cần có UPS đủ để lưu dữ liệu và tắt an toàn. Nếu mất điện kéo dài, cần có phương án chuyển qua máy phát hoặc shutdown có kiểm soát.

Nền mạng tối thiểu để không đứt một cái là dừng hết

Tối thiểu nên có 2 đường Internet, hoặc 1 đường chính kèm 4G/5G dự phòng. Quan trọng hơn là phải cấu hình failover rõ ràng, để đứt là tự chuyển, không chờ IT thao tác tay.

Backup phải khôi phục được thật

Không chỉ là “có file backup”, mà phải có:

  • Bản sao ở nhiều nơi
  • Tối thiểu 1 bản offsite
  • Bản sao khó bị sửa hoặc xóa
  • Kiểm tra restore định kỳ

Backup khác DR ra sao? Cách đặt mục tiêu khôi phục và kiểm tra định kỳ

Runbook khôi phục

Runbook là tài liệu hướng dẫn sự cố. Cần ghi rõ:

  • Ai có quyền kích hoạt DR
  • Các bước khôi phục theo thứ tự
  • Tài khoản hoặc quyền cần dùng
  • Khi nào được xem là khôi phục xong

Nếu không có runbook, đến lúc sự cố thường sẽ rất rối.

3 kịch bản phổ biến và cách xử lý tối thiểu

Kịch bản 1: Mất điện

Mục tiêu Không làm hỏng dữ liệu và khởi động lại nhanh khi có điện.
Phương án UPS phải đủ thời gian để hệ thống lưu dữ liệu và tắt an toàn. Nếu có máy phát, cần có quy trình chuyển tải rõ ràng và chỉ bật lại khi điện đã ổn định.
Sai lầm phổ biến Có UPS nhưng không có kịch bản shutdown. Kết quả là UPS hết pin thì hệ thống vẫn sập đột ngột như thường.

Kịch bản 2: Mất mạng hoặc Internet chập chờn

Mục tiêu Doanh nghiệp vẫn làm việc nội bộ được và vẫn có đường ra ngoài bằng tuyến dự phòng.
Phương án

Doanh nghiệp nên có 2 đường Internet hoặc 1 đường chính kèm 4G/5G failover. Đồng thời phải tách rõ:

  • Hệ thống nào vẫn chạy được khi chỉ còn LAN nội bộ
  • Hệ thống nào bắt buộc cần Internet
  • Ứng dụng nào phải được ưu tiên khi chạy trên đường dự phòng
Sai lầm phổ biến Có 2 đường mạng nhưng không cấu hình chuyển tự động, hoặc có failover nhưng không ưu tiên ứng dụng quan trọng nên khi sự cố xảy ra, mạng dự phòng vẫn nghẽn.

Kịch bản 3: Hỏng server hoặc storage lỗi

Mục tiêu là khôi phục dịch vụ quan trọng theo thứ tự, không cố kéo tất cả lên cùng lúc.

Có thể chia thành 3 mức:

Mức A: cơ bản nhất

Có backup offsite. Khi server hỏng thì sửa hoặc thay server, sau đó restore dữ liệu rồi chạy lại. Mức này phù hợp khi doanh nghiệp chấp nhận downtime dài.

Mức B: thực tế cho đa số SME/FDI

Có máy dự phòng hoặc hạ tầng đủ để dựng lại nhanh. Có snapshot hoặc bản sao VM theo lịch. Khi sự cố xảy ra, khôi phục theo thứ tự: đăng nhập trước, rồi file hoặc ERP, sau đó mới đến các dịch vụ khác. Đây là mức phù hợp với doanh nghiệp cần chạy lại trong ngày.

Mức C: cao hơn

Có replication gần thời gian thực hoặc site dự phòng. Mức này phù hợp với hệ thống lõi, nhà máy hoặc môi trường gần như không chấp nhận gián đoạn.

Mẫu DR tối thiểu dễ áp dụng cho SME/FDI

Nếu cần bắt đầu đơn giản, doanh nghiệp có thể chốt theo 3 phần:

Bảng ưu tiên dịch vụ

Mỗi dịch vụ ghi rõ:

  • Tên hệ thống
  • RTO mục tiêu
  • RPO mục tiêu
  • Người phụ trách

Bộ tối thiểu về hạ tầng

Bao gồm:

  • Điện: UPS và kịch bản shutdown
  • Mạng: 2 đường Internet và failover
  • Dữ liệu: backup theo nguyên tắc 3-2-1, có offsite
  • Bảo mật: tách quyền backup, hạn chế sửa/xóa, kiểm soát tài khoản quản trị

Runbook kích hoạt DR

Ghi rõ:

  • Khi nào được xem là sự cố nghiêm trọng
  • Ai quyết định kích hoạt DR
  • Khôi phục theo thứ tự nào
  • Thông báo nội bộ ra sao

Vì sao phải kiểm tra định kỳ?

DR không kiểm tra định kỳ thì rất dễ thất bại đúng lúc cần nhất. Lý do rất đơn giản: dữ liệu tăng lên, thời gian restore dài hơn; hệ thống thay đổi, backup có thể thiếu thành phần; tài khoản và mật khẩu đổi, đến lúc cần lại không đăng nhập được; pin UPS chai, đường mạng dự phòng lỗi hoặc license hết hạn.

Tối thiểu doanh nghiệp nên:

  • Kiểm tra hàng tháng: UPS, failover Internet, dung lượng backup
  • Diễn tập hàng quý: restore 1–2 hệ thống quan trọng
  • Rà soát nửa năm: cập nhật lại RTO và RPO theo thực tế vận hành

Giải pháp CNTT trọn gói cho SME – FDI: Tối ưu vận hành, sẵn sàng mở rộng

Kết luận

DR tối thiểu cho SME/FDI không phải là mua thêm thật nhiều thiết bị. Cốt lõi là doanh nghiệp phải chốt rõ RTO, RPO, xác định hệ thống ưu tiên, chuẩn hóa điện, mạng, backup và có runbook rõ ràng để khi sự cố xảy ra vẫn biết cách chạy tiếp.

CDC Technologies có thể đồng hành cùng doanh nghiệp theo hướng thực tế:

  • Khảo sát hệ thống ưu tiên và chốt RTO/RPO theo từng phòng ban
  • Thiết kế kịch bản DR tối thiểu theo đúng ngân sách
  • Triển khai backup offsite, kiểm tra phục hồi định kỳ và runbook vận hành
  • Bàn giao checklist diễn tập, monitoring và quy trình escalation

Liên hệ CDC Technologies để xây dựng kịch bản DR phù hợp, giúp doanh nghiệp giảm downtime và chủ động hơn khi mất điện, mất mạng hoặc hỏng server.

Admin
Thu Hương
Author Tại
Maytinhcdc
Bài viết liên quan
ĐĂNG KÝ TƯ VẤN MIỄN PHÍ
icon tu van