Mất điện, mất mạng, hỏng server thì làm sao chạy tiếp? Kịch bản DR tối thiểu cho SME/FDI
GIẢI PHÁP CNTT

Mất điện, mất mạng, hỏng server thì làm sao chạy tiếp? Kịch bản DR tối thiểu cho SME/FDI

Hôm nay, 8:56 am

Mất điện, mất mạng, hỏng server thì làm sao chạy tiếp? Kịch bản DR tối thiểu cho SME/FDI

Với SME và FDI, chỉ cần hệ thống dừng 1–2 giờ là công việc có thể bị ảnh hưởng rõ rệt: đơn hàng treo, kế toán không xuất hóa đơn, kho không lên phiếu, nhân sự không chấm công được, email hoặc Teams bị gián đoạn. Vấn đề là sự cố thường không đi một mình. Mất điện có thể kéo theo mất mạng, server treo, rồi phát sinh lỗi dữ liệu.

Vì vậy, doanh nghiệp không nên chỉ hỏi “có backup chưa”, mà cần hỏi thêm: nếu có sự cố, ai xử lý, khôi phục theo thứ tự nào, mất bao lâu và chấp nhận mất tối đa bao nhiêu dữ liệu.

CDC Technologies thường thấy nhiều doanh nghiệp có backup nhưng chưa có kịch bản chạy tiếp khi hệ thống gặp sự cố. Đó là lý do DR tối thiểu rất quan trọng.

DR tối thiểu là gì? Khác backup ở đâu?

Nói đơn giản, backup là có bản sao dữ liệu để lấy lại khi cần. Còn DR là kế hoạch giúp doanh nghiệp tiếp tục vận hành khi hệ thống bị gián đoạn.

Hiểu dễ hơn:

  • Backup trả lời câu hỏi: có dữ liệu để khôi phục không
  • DR trả lời câu hỏi: khi hệ thống dừng, doanh nghiệp chạy tiếp thế nào

Nhiều nơi có backup nhưng khi sự cố xảy ra lại lúng túng vì không biết phục hồi từ đâu, ai làm, khôi phục xong chạy trên nền nào và bao lâu người dùng mới làm việc lại được.

2 con số phải chốt trước: RTO và RPO

Để xây dựng DR mà người không chuyên vẫn hiểu, doanh nghiệp chỉ cần chốt 2 mục tiêu:

RTO: chấp nhận hệ thống ngừng tối đa bao lâu?

Ví dụ, ERP ngừng 4 giờ là không chấp nhận được. Đó chính là RTO.

RPO: chấp nhận mất dữ liệu tối đa bao lâu?

Ví dụ, doanh nghiệp chấp nhận mất dữ liệu 30 phút gần nhất, nhưng nhiều hơn thì không được. Đó là RPO.

Hai con số này quyết định mức đầu tư phù hợp. Nếu không chốt từ đầu, doanh nghiệp rất dễ rơi vào hai cực đoan: hoặc đầu tư quá tay, hoặc làm cho có.

Một bộ DR tối thiểu cần những gì?

Một kịch bản DR tối thiểu thường có 5 phần cơ bản.

1. Danh sách hệ thống ưu tiên

Doanh nghiệp phải xác định rõ những hệ thống nào bắt buộc phải sống trước. Thường là:

  • ERP, kế toán, hóa đơn
  • File dùng chung
  • Email, chat, meeting
  • Hệ thống đăng nhập
  • Hệ thống sản xuất, MES, SCADA với nhà máy

Không thể đến lúc sự cố mới tranh luận nên cứu cái gì trước.

2. Nguồn điện tối thiểu để không sập đột ngột

Server, switch, firewall, storage cần có UPS đủ để lưu dữ liệu và tắt an toàn. Nếu mất điện kéo dài, cần có phương án chuyển qua máy phát hoặc shutdown có kiểm soát.

3. Nền mạng tối thiểu để không đứt một cái là dừng hết

Tối thiểu nên có 2 đường Internet, hoặc 1 đường chính kèm 4G/5G dự phòng. Quan trọng hơn là phải cấu hình failover rõ ràng, để đứt là tự chuyển, không chờ IT thao tác tay.

4. Backup phải khôi phục được thật

Không chỉ là “có file backup”, mà phải có:

  • Bản sao ở nhiều nơi
  • Tối thiểu 1 bản offsite
  • Bản sao khó bị sửa hoặc xóa
  • Kiểm tra restore định kỳ

5. Runbook khôi phục

Runbook là tài liệu hướng dẫn sự cố. Cần ghi rõ:

  • Ai có quyền kích hoạt DR
  • Các bước khôi phục theo thứ tự
  • Tài khoản hoặc quyền cần dùng
  • Khi nào được xem là khôi phục xong

Nếu không có runbook, đến lúc sự cố thường sẽ rất rối.

3 kịch bản phổ biến và cách xử lý tối thiểu

Kịch bản 1: Mất điện

Mục tiêu ở đây là không làm hỏng dữ liệu và khởi động lại nhanh khi có điện.

Phương án tối thiểu là UPS phải đủ thời gian để hệ thống lưu dữ liệu và tắt an toàn. Nếu có máy phát, cần có quy trình chuyển tải rõ ràng và chỉ bật lại khi điện đã ổn định.

Sai lầm hay gặp là có UPS nhưng không có kịch bản shutdown. Kết quả là UPS hết pin thì hệ thống vẫn sập đột ngột như thường.

Kịch bản 2: Mất mạng hoặc Internet chập chờn

Mục tiêu là doanh nghiệp vẫn làm việc nội bộ được và vẫn có đường ra ngoài bằng tuyến dự phòng.

Doanh nghiệp nên có 2 đường Internet hoặc 1 đường chính kèm 4G/5G failover. Đồng thời phải tách rõ:

  • Hệ thống nào vẫn chạy được khi chỉ còn LAN nội bộ
  • Hệ thống nào bắt buộc cần Internet
  • Ứng dụng nào phải được ưu tiên khi chạy trên đường dự phòng

Sai lầm phổ biến là có 2 đường mạng nhưng không cấu hình chuyển tự động, hoặc có failover nhưng không ưu tiên ứng dụng quan trọng nên khi sự cố xảy ra, mạng dự phòng vẫn nghẽn.

Kịch bản 3: Hỏng server hoặc storage lỗi

Mục tiêu là khôi phục dịch vụ quan trọng theo thứ tự, không cố kéo tất cả lên cùng lúc.

Có thể chia thành 3 mức:

Mức A: cơ bản nhất

Có backup offsite. Khi server hỏng thì sửa hoặc thay server, sau đó restore dữ liệu rồi chạy lại. Mức này phù hợp khi doanh nghiệp chấp nhận downtime dài.

Mức B: thực tế cho đa số SME/FDI

Có máy dự phòng hoặc hạ tầng đủ để dựng lại nhanh. Có snapshot hoặc bản sao VM theo lịch. Khi sự cố xảy ra, khôi phục theo thứ tự: đăng nhập trước, rồi file hoặc ERP, sau đó mới đến các dịch vụ khác. Đây là mức phù hợp với doanh nghiệp cần chạy lại trong ngày.

Mức C: cao hơn

Có replication gần thời gian thực hoặc site dự phòng. Mức này phù hợp với hệ thống lõi, nhà máy hoặc môi trường gần như không chấp nhận gián đoạn.

Một mẫu DR tối thiểu dễ áp dụng cho SME/FDI

Nếu cần bắt đầu đơn giản, doanh nghiệp có thể chốt theo 3 phần:

Bảng ưu tiên dịch vụ

Mỗi dịch vụ ghi rõ:

  • Tên hệ thống
  • RTO mục tiêu
  • RPO mục tiêu
  • Người phụ trách

Bộ tối thiểu về hạ tầng

Gồm:

  • Điện: UPS và kịch bản shutdown
  • Mạng: 2 đường Internet và failover
  • Dữ liệu: backup theo nguyên tắc 3-2-1, có offsite
  • Bảo mật: tách quyền backup, hạn chế sửa/xóa, kiểm soát tài khoản quản trị

Runbook kích hoạt DR

Ghi rõ:

  • Khi nào được xem là sự cố nghiêm trọng
  • Ai quyết định kích hoạt DR
  • Khôi phục theo thứ tự nào
  • Thông báo nội bộ ra sao

Vì sao phải kiểm tra định kỳ?

DR không kiểm tra định kỳ thì rất dễ thất bại đúng lúc cần nhất.

Lý do rất đơn giản: dữ liệu tăng lên, thời gian restore dài hơn; hệ thống thay đổi, backup có thể thiếu thành phần; tài khoản và mật khẩu đổi, đến lúc cần lại không đăng nhập được; pin UPS chai, đường mạng dự phòng lỗi hoặc license hết hạn.

Tối thiểu doanh nghiệp nên:

  • Kiểm tra hàng tháng: UPS, failover Internet, dung lượng backup
  • Diễn tập hàng quý: restore 1–2 hệ thống quan trọng
  • Rà soát nửa năm: cập nhật lại RTO và RPO theo thực tế vận hành

Kết luận

DR tối thiểu cho SME/FDI không phải là mua thêm thật nhiều thiết bị. Cốt lõi là doanh nghiệp phải chốt rõ RTO, RPO, xác định hệ thống ưu tiên, chuẩn hóa điện, mạng, backup và có runbook rõ ràng để khi sự cố xảy ra vẫn biết cách chạy tiếp.

CDC Technologies có thể đồng hành cùng doanh nghiệp theo hướng thực tế:

  • Khảo sát hệ thống ưu tiên và chốt RTO/RPO theo từng phòng ban
  • Thiết kế kịch bản DR tối thiểu theo đúng ngân sách
  • Triển khai backup offsite, kiểm tra phục hồi định kỳ và runbook vận hành
  • Bàn giao checklist diễn tập, monitoring và quy trình escalation

Liên hệ CDC Technologies để xây dựng kịch bản DR phù hợp, giúp doanh nghiệp giảm downtime và chủ động hơn khi mất điện, mất mạng hoặc hỏng server.

Từ khóa chính: Kịch bản DR tối thiểu cho SME/FDI
Từ khóa phụ: DR là gì, Disaster Recovery cho doanh nghiệp, Mất điện mất mạng hỏng server xử lý, RTO RPO là gì, Backup offsite cho SME, Failover Internet cho văn phòng nhà máy, Runbook khôi phục hệ thống, Kiểm tra phục hồi định kỳ, Kế hoạch liên tục kinh doanh cho FDI


Bài 2: FDI nhà máy: tách mạng văn phòng – sản xuất – khách thế nào để giảm rủi ro?

Meta title: FDI nhà máy: tách mạng văn phòng – sản xuất – khách thế nào để giảm rủi ro?
Meta description: Hướng dẫn doanh nghiệp FDI tách mạng văn phòng, sản xuất và khách theo cách dễ hiểu, giúp giảm lây lan sự cố, kiểm soát truy cập vendor và giữ hệ thống ổn định hơn.

FDI nhà máy: tách mạng văn phòng – sản xuất – khách thế nào để giảm rủi ro?

Trong nhà máy FDI, một lỗi tưởng như rất nhỏ như laptop nhiễm mã độc, Wi-Fi khách lộ mật khẩu hay tài khoản vendor được cấp quyền quá rộng cũng có thể lan sang hệ thống quan trọng hơn nếu mạng không được tách đúng cách.

Khi đã ảnh hưởng tới OT, SCADA hoặc PLC, vấn đề không còn là lỗi máy tính thông thường nữa mà có thể dẫn đến gián đoạn sản xuất, tăng rủi ro vận hành và gây thiệt hại lớn.

Điều đáng nói là nhiều rủi ro không đến từ kỹ thuật quá phức tạp, mà đến từ việc dùng chung một mạng hoặc chỉ “tách cho có”. Đây là lý do nhà máy FDI cần phân tách mạng bài bản hơn.

Vì sao nhà máy FDI bắt buộc phải tách mạng?

Tách mạng không phải để làm hệ thống phức tạp hơn. Mục tiêu là để dễ kiểm soát và an toàn hơn.

Có 3 lợi ích rõ nhất:

Giảm lây lan sự cố

Thiết bị văn phòng và thiết bị sản xuất có vòng đời, cách cập nhật và mức độ chịu rủi ro rất khác nhau. Nếu dùng chung mạng, một sự cố ở khu văn phòng hoàn toàn có thể lan sang khu sản xuất.

Kiểm soát truy cập theo vai trò

Nhân sự văn phòng, kỹ sư vận hành, nhà thầu và khách không thể có cùng mức quyền. Tách mạng giúp doanh nghiệp kiểm soát rõ ai được vào đâu.

Giữ hiệu năng ổn định

Wi-Fi khách, camera, họp trực tuyến, upload dữ liệu lớn nếu không được tách riêng có thể ảnh hưởng đến ERP, MES, SCADA hoặc thoại IP.

Tư duy đúng: chốt zone trước, chia VLAN sau

Nhiều nơi bắt đầu bằng cách tạo VLAN rồi mới nghĩ xem sẽ cho ai đi đâu. Cách này dễ thiếu logic. Cách đúng là phải chốt zone trước, sau đó mới chia mạng và đặt chính sách.

Một mô hình tối thiểu, dễ triển khai thường có 5 vùng:

  • Office Zone: mạng văn phòng
  • Production Zone: mạng sản xuất
  • Guest Zone: mạng khách
  • Industrial DMZ: vùng đệm giữa IT và OT
  • Management Zone: vùng quản trị thiết bị mạng và bảo mật

Sau khi có zone, doanh nghiệp mới xác định luồng nào được phép đi giữa các vùng.

Luồng truy cập nên được kiểm soát thế nào?

Điểm quan trọng không phải là “có VLAN”, mà là chỉ cho đúng luồng cần thiết.

Ví dụ:

  • Office được đi ERP, email, internet theo nhu cầu
  • Office mặc định không đi thẳng vào OT
  • Guest chỉ được ra internet, không vào mạng nội bộ
  • Vendor muốn vào OT phải đi qua jump server ở DMZ, có MFA và giới hạn thời gian

Nói gọn, nguyên tắc tốt nhất là: mặc định chặn, chỉ mở đúng cái cần dùng.

Kiến trúc gợi ý cho nhà máy FDI

1. Mạng khách: tách tuyệt đối

Mạng khách chỉ nên phục vụ internet. Không nên có đường nào quay vào hệ thống nội bộ.

Tối thiểu nên có:

  • SSID riêng
  • VLAN riêng
  • NAT ra internet
  • Chặn toàn bộ truy cập nội bộ
  • Có giới hạn băng thông nếu cần

2. Mạng văn phòng: không nên để một dải duy nhất

Ngay cả mạng văn phòng cũng không nên gom tất cả vào một chỗ. Có thể tách thành các nhóm như:

  • User văn phòng
  • Máy in và thiết bị IoT
  • Camera hoặc hệ thống an ninh
  • Server nội bộ

Nguyên tắc là mọi luồng nhạy cảm phải đi qua firewall hoặc chính sách L3, không để chạy tự do.

3. Mạng sản xuất: ưu tiên ổn định

Mạng OT thường nên tách theo line, khu vực hoặc mức độ quan trọng. Cần hạn chế broadcast, kiểm soát thiết bị lạ cắm vào và siết chặt remote access.

Với môi trường sản xuất, yếu tố ổn định luôn phải được đặt cao hơn sự tiện.

Industrial DMZ là gì và vì sao cần?

Industrial DMZ là vùng đệm giữa IT và OT. Đây là nơi đặt các thành phần trung gian để doanh nghiệp không phải mở kết nối trực tiếp từ văn phòng sang khu sản xuất.

Trong vùng này thường có:

  • Jump server cho truy cập có kiểm soát
  • Historian hoặc bản sao dữ liệu phục vụ báo cáo
  • Máy staging cập nhật
  • Công cụ monitoring hoặc thu log

DMZ chỉ hiệu quả khi đi kèm chính sách chặn mặc định, chỉ mở theo danh sách rõ ràng và có giám sát.

Khi nào cần firewall, khi nào cần NAC?

Firewall hoặc ACL: bắt buộc để kiểm soát luồng

Nếu muốn kiểm soát Office, DMZ, Server, OT đi với nhau thế nào thì firewall hoặc ACL gần như là bắt buộc. Mục tiêu là ít rule nhưng đúng rule, có log và dễ audit.

NAC hoặc 802.1X: cần khi muốn kiểm soát thiết bị lạ

Trong nhà máy, rủi ro phổ biến là:

  • Khách hoặc nhà thầu cắm dây LAN vào cổng nội bộ
  • Thiết bị lạ vào Wi-Fi
  • Máy tạm thời thay thế nhưng không đúng chuẩn

NAC giúp doanh nghiệp quyết định thiết bị nào được vào vùng nào. Nếu chưa đủ nguồn lực triển khai NAC đầy đủ, vẫn nên có biện pháp tối thiểu như khóa cổng không dùng, giới hạn MAC và quy trình cấp cổng tạm có thời hạn.

Quy trình triển khai 6 bước

Bước 1: Vẽ lại bản đồ thiết bị và luồng dữ liệu

Phải biết rõ đang có những nhóm thiết bị nào và ứng dụng nào cần đi qua đâu. Không nên làm theo cảm tính.

Bước 2: Chốt zone và nguyên tắc truy cập

Ví dụ:

  • Văn phòng không vào OT trực tiếp
  • Guest chỉ ra internet
  • Vendor chỉ vào qua DMZ, có log

Bước 3: Thiết kế VLAN, subnet và policy

Mỗi zone tối thiểu nên có subnet riêng. Toàn bộ traffic đi giữa các zone cần đi qua lớp kiểm soát.

Bước 4: Thiết kế DMZ và remote access

Phải chốt mô hình jump server, bật MFA, giới hạn thời gian truy cập, cấp tài khoản theo người và ghi log đầy đủ.

Bước 5: Pilot trước, rollout sau

Nên làm thử ở 1 line sản xuất và 1 khu văn phòng trước. Sau khi đo tác động và chỉnh rule ổn định mới triển khai rộng.

Bước 6: Giám sát và kiểm tra định kỳ

Nếu không kiểm tra định kỳ, hệ thống rất dễ “trôi chuẩn”. Cần theo dõi luồng bất thường, review rule mới, thiết bị mới và diễn tập các tình huống như Wi-Fi khách bị lộ hay máy văn phòng dính mã độc.

Những lỗi phổ biến khiến tách mạng rồi vẫn rủi ro

Một số lỗi rất hay gặp là:

  • Tách VLAN nhưng vẫn cho inter-VLAN tự do
  • Cho vendor vào OT bằng VPN toàn mạng
  • Đặt dịch vụ trung gian sai chỗ
  • Wi-Fi khách dùng chung hạ tầng và cấu hình lỏng
  • Khi có sự cố thì mở rule tạm nhưng quên đóng lại

Những lỗi này khiến hệ thống nhìn như đã tách, nhưng thực tế rủi ro vẫn cao.

Checklist nhanh cho doanh nghiệp

Khi trình ký hoặc thống nhất nội bộ, doanh nghiệp nên chốt rõ:

  • Có phân vùng Office, OT, Guest, DMZ, Management
  • Luồng giữa các vùng theo nguyên tắc chặn mặc định
  • Vendor truy cập qua jump server, có MFA và log
  • Guest tách tuyệt đối, chỉ ra internet
  • Có giám sát và cảnh báo luồng bất thường
  • Có kiểm tra định kỳ và diễn tập tình huống

Kết luận

Tách mạng văn phòng, sản xuất và khách trong nhà máy FDI không phải để làm cho hệ thống rối hơn, mà để giảm khả năng sự cố lan rộng và giúp khôi phục nhanh hơn khi có vấn đề.

Làm đúng theo hướng zone → luồng → policy → DMZ → vận hành sẽ giúp hệ thống vừa an toàn hơn, vừa ổn định hơn, mà không làm chậm sản xuất.

CDC Technologies có thể hỗ trợ doanh nghiệp theo hướng thực tế:

  • Khảo sát hiện trạng và luồng ứng dụng để chốt zone phù hợp
  • Thiết kế phân vùng mạng và DMZ theo mục tiêu giảm rủi ro, dễ audit
  • Triển khai pilot và rollout theo từng khu vực hoặc line
  • Bàn giao runbook, monitoring và checklist kiểm tra định kỳ

Liên hệ CDC Technologies để chuẩn hóa kiến trúc mạng cho nhà máy FDI theo hướng dễ vận hành, dễ kiểm soát và giảm rủi ro lâu dài.

Thẻ:
Admin
Thu Hương
Author Tại
Maytinhcdc
Bài viết liên quan
ĐĂNG KÝ TƯ VẤN MIỄN PHÍ
icon tu van