Bảo mật Mô hình (Model Security) tại Edge

Chống lại Tấn công Xâm nhập Vật lý – Kỹ thuật Mã hoá & Làm mờ Trọng số + Root of Trust phần cứng

1. Bối cảnh & Vấn đề cốt lõi

Trong 5‑10 năm tới, các cụm GPU/ASIC/FPGA tại các nút Edge sẽ đạt mật độ tính toán siêu cao (≥ 10 PFLOPS / cm³) và điện áp hoạt động hạ tới 0.6 V để giảm tiêu thụ. Khi mật độ tăng, rủi ro vật lý – từ tấn công dò mạch, chèn lỗi nhiệt, tới phá hoại bằng laser – trở nên đáng lo ngại hơn hẳn so với môi trường trung tâm dữ liệu (DC).

Mục lục

Mô hình AI được triển khai trên Edge không chỉ mang giá trị kinh doanh (IP, thuật toán tối ưu) mà còn là tài sản chiến lược. Nếu kẻ tấn công có thể truy cập, sao chép hoặc thay đổi trọng số, hậu quả có thể là:

Rò rỉ IP → mất lợi thế cạnh tranh.
Thay đổi trọng số → hành vi mô hình sai lệch, gây nguy hiểm (xe tự lái, y tế).
Đánh cắp dữ liệu đầu vào → vi phạm GDPR, HIPAA.

Do đó, bảo mật mô hình tại Edge phải được thiết kế từ các lớp vật lý (điện, nhiệt, vật liệu) lên giao thức phần mềm.

2. Định nghĩa kỹ thuật chuẩn

Thuật ngữ	Định nghĩa (theo IEEE 802.1AR, NIST SP 800‑193)
Model Confidentiality	Ngăn chặn việc truy cập trái phép vào trọng số, cấu trúc và siêu tham số của mô hình.
Model Integrity	Đảm bảo trọng số không bị thay đổi, giả mạo hoặc chèn lỗi trong quá trình lưu trữ và thực thi.
Root of Trust (RoT)	Thành phần phần cứng không thể thay đổi (TPM, PUF, Secure Enclave) cung cấp khóa bí mật và xác thực khởi tạo.
Physical Attack Vector	Các kênh tấn công khai thác điện, nhiệt, ánh sáng, âm thanh để đọc/ghi dữ liệu hoặc gây lỗi tính toán.
Weight Obfuscation	Kỹ thuật làm mờ cấu trúc trọng số (shuffling, quantization, random masking) để tăng độ khó của reverse engineering.

3. Kiến trúc & Luồng tín hiệu – Từ NVM tới Inference Engine

[Flash/NVM] → (Secure Boot) → [Secure DMA] → [Accelerator Core] → [Inference Pipeline] → [Output]

Secure Boot: ROM chứa hash SHA‑256 của firmware + khóa RoT. Nếu hash không khớp, khởi động bị chặn.
Secure DMA: Dòng dữ liệu trọng số được truyền qua bus AES‑XTS (128‑bit) với key được sinh ra từ PUF nội bộ.
Accelerator Core: ASIC/FPGA có Secure Enclave riêng, nơi trọng số được decrypt ngay trong SRAM bảo vệ (voltage‑guarded).
Inference Pipeline: Các khối tính toán (MAC, activation) hoạt động trong clock‑gating để giảm tiêu thụ khi không dùng.
Output: Kết quả được sign bằng HMAC‑SHA‑256 trước khi gửi ra ngoài, ngăn chặn spoofing.

3.1 Điểm lỗi vật lý (Physical Failure Points)

Điểm	Nguy cơ	Hệ quả	Biện pháp
Laser probing	Đánh cắp SRAM nội bộ	Lộ trọng số	Lớp bảo vệ metal‑insulator‑metal (MIM), optical shielding.
Voltage glitch	Fault injection → bit‑flip	Thay đổi trọng số	Voltage regulator with on‑chip watchdog, EMI filtering.
Thermal runaway	Nhiệt độ > 120 °C → lỗi DRAM/HBM	Mất dữ liệu, tăng BER	Liquid immersion cooling, thermal sensors + dynamic throttling.
Side‑channel (Power Analysis)	Đọc khóa PUF	Rò rỉ key	Randomized clock jitter, noise injection.

4. Kỹ thuật Mã hoá Trọng số

4.1 Mã hoá đối xứng – AES‑XTS

XTS (XEX‑based tweaked-codebook mode with ciphertext stealing) cho phép ngẫu nhiên hoá vị trí (tweak) dựa trên địa chỉ bộ nhớ, giảm khả năng dictionary attack.
Chi phí tính toán: mỗi khối 128‑bit cần 10 rounds → ≈ 20 ns trên ASIC 2 GHz.

4.2 Mã hoá nhẹ – SPECK/Simon

Được tối ưu cho điện áp 0.6 V, độ trễ < 5 ns mỗi vòng, phù hợp cho edge node có TDP < 15 W.
Bảo vệ khóa PUF trong register file bằng masking ngẫu nhiên.

4.3 Mã hoá Homomorphic (Partial)

Chỉ dùng cho phân lớp đầu vào (input encryption) để tránh việc kẻ tấn công thu thập dữ liệu nhạy cảm.
Overhead: 3‑5× thời gian tính toán, do ciphertext expansion. Do vậy chỉ áp dụng cho critical dữ liệu.

5. Làm mờ (Obfuscation) Trọng số

Phương pháp	Cơ chế	Chi phí (latency / power)	Độ khó tấn công
Weight Shuffling	Đảo vị trí các kernel trong bộ nhớ	+ 2 % latency, + 0.5 % power	Trung bình
Quantization + Random Rounding	Giảm bit‑width (8→4 bit) + làm ngẫu nhiên rounding	- 15 % power, + 1 % latency	Cao (kẻ tấn công phải đo lường lại)
Pruning + Masking	Loại bỏ kết nối không quan trọng, thêm mask ngẫu nhiên	- 20 % power, + 3 % latency	Rất cao (cấu trúc mạng bị biến dạng)
Split‑Model (Secret Sharing)	Mô hình chia thành 2‑3 phần, mỗi phần được lưu trên chip khác nhau	+ 5 % latency, + 2 % power	Rất cao (cần đồng thời tấn công nhiều chip)

Lưu ý: Mỗi kỹ thuật làm mờ đều làm tăng nhiệt độ do hoạt động thêm logic gating và buffering. Do đó, thiết kế thermal-aware là bắt buộc.

6. Root of Trust (RoT) – Nền tảng phần cứng

6.1 Physical Unclonable Function (PUF)

Silicon PUF dựa trên variations ngẫu nhiên của transistor threshold voltage.
Key extraction: K = HMAC(PUF_response, Salt) → entropy ≈ 128 bit.
Chi phí: không tốn điện năng khi không sử dụng, chỉ tiêu thụ khi challenge‑response (≈ 0.2 µJ).

6.2 Trusted Platform Module (TPM 2.0)

Cung cấp secure storage cho private keys và measurement logs.
Giao thức TPM_Quote giúp remote attestation: trung tâm quản lý xác thực firmware + trọng số đã được decrypt trong enclave.

6.3 Secure Enclave (e.g., Intel SGX, ARM TrustZone)

Isolated execution environment với memory encryption engine (MEE).
Latency overhead: ~ 30 ns cho mỗi enter/exit enclave, chấp nhận được khi inference kéo dài > 1 ms.

7. Phân tích Trade‑off: Bảo mật vs Hiệu suất vật lý

Tiêu chí	Mã hoá AES‑XTS	Mã hoá SPECK	Obfuscation	RoT (PUF)
Latency tăng	+ 3 %	+ 1 %	+ 2‑5 %	+ 0.5 % (challenge)
Power tăng	+ 4 %	+ 1.5 %	+ 0.5‑2 %	không đáng kể
Thermal impact	+ 0.2 °C	+ 0.05 °C	+ 0.1‑0.3 °C	không đáng kể
Security level	Cao (AES‑256)	Trung bình (128‑bit)	Cao (kết hợp)	Rất cao (entropy)
Complexity thiết kế	Trung bình	Thấp	Cao (cần compiler)	Trung bình

7.1 Công thức tính năng lượng tiêu thụ cho một lần suy luận

Năng lượng tiêu thụ cho một lần suy luận được tính như sau:

E_{\text{bit}} = \frac{E_{\text{tổng}}}{N_{\text{bit}}}

E_bit: năng lượng tiêu thụ cho mỗi bit (J/bit).
E_tổng: tổng năng lượng tiêu hao trong quá trình inference (J).
N_bit: số bit dữ liệu truyền thành công (bit).

Nếu E_tổng tăng 5 % do mã hoá AES‑XTS, E_bit cũng tăng tương ứng, dẫn tới PUE (Power Usage Effectiveness) của node Edge tăng 2‑3 %.

7.2 Công thức latency tổng cộng (display)

T_{\text{latency}} = T_{\text{compute}} + T_{\text{crypto}} + T_{\text{obf}}

T_compute: thời gian tính toán MAC/activation (ns).
T_crypto: thời gian giải mã/ mã hoá trọng số (ns).
T_obf: thời gian thực hiện các bước làm mờ (shuffling, masking) (ns).

Ví dụ:
– T_compute = 250 ns (GPU core).
– T_crypto = 30 ns (AES‑XTS).
– T_obf = 15 ns (weight shuffling).

=> T_latency ≈ 295 ns, tăng ≈ 18 % so với trường hợp không bảo mật.

8. Kiểm soát Nhiệt & Điện – Đảm bảo PUE & WUE

Liquid Immersion Cooling: Dùng fluorocarbon có Cp ≈ 1.2 J/(g·K), giảm ΔT xuống < 10 °C ngay cả khi crypto module tiêu thụ thêm 3 W.
Dynamic Voltage & Frequency Scaling (DVFS): Khi crypto engine phát hiện fault injection, giảm Vdd xuống 0.5 V và clock xuống 1.2 GHz, giảm TDP 12 %.
Thermal Sensors + AI‑based Predictive Control: Mô hình dự đoán nhiệt độ dựa trên power envelope và ambient humidity, tự động bật bypass pump khi nhiệt độ > 85 °C.

Kết quả thực tế: Trong một thí nghiệm 48‑core edge server, việc áp dụng AES‑XTS + PUF làm tăng PUE từ 1.23 lên 1.28, vẫn nằm trong ngưỡng chấp nhận cho các trung tâm Edge (≤ 1.35).

9. Chiến lược triển khai & Quản lý rủi ro

Hành động	Mô tả	Lợi ích
Secure Boot + Measured Launch	Kiểm tra hash firmware + trọng số trước khi chạy.	Ngăn chặn firmware thay đổi, phát hiện tamper ngay lập tức.
Key Rotation dựa trên PUF	Tái sinh khóa mỗi 24 h bằng challenge mới.	Giảm thời gian kẻ tấn công có thể khai thác key cũ.
Redundant Weight Storage	Lưu trữ trọng số trên dual‑channel ECC‑DRAM + NVMe encrypted.	Tăng độ tin cậy, giảm nguy cơ mất dữ liệu khi một kênh bị phá.
Real‑time Side‑channel Monitoring	Phân tích tần số điện áp, nhiệt độ để phát hiện fault injection.	Phát hiện sớm tấn công, tự động chuyển sang safe mode.
Obfuscation + Quantization pipeline	Kết hợp pruning → quantization → random masking trong quá trình compile.	Giảm kích thước mô hình, tăng độ khó reverse engineering.
Compliance với tiêu chuẩn	Tuân thủ NIST SP 800‑207 (Zero‑Trust) và ISO/IEC 27001.	Đảm bảo chứng nhận bảo mật, giảm chi phí audit.

10. Kết luận – Lời khuyên chiến lược

Xây dựng Root of Trust ngay ở tầng silicon – PUF + TPM là nền tảng không thể thay thế cho mọi lớp bảo mật.
Mã hoá nhẹ, tối ưu cho low‑voltage – SPECK/Simon cho phép bảo vệ trọng số mà không phá vỡ ngân sách nhiệt.
Làm mờ kết hợp với quantization – Giảm năng lượng đồng thời nâng cao độ khó tấn công.
Thermal‑aware security design – Mỗi micro‑joule thêm từ crypto phải được bù đắp bằng cooling hoặc DVFS để giữ PUE ổn định.
Giám sát liên tục & tự động hoá phản ứng – Các cảm biến điện‑nhiệt + AI‑based anomaly detection là “bộ não” phòng thủ trước fault injection.
Đánh giá trade‑off định kỳ – Sử dụng các công thức trên để tính toán latency, power, thermal khi thay đổi thuật toán bảo mật, tránh “over‑securing” gây suy giảm hiệu suất không cần thiết.

Áp dụng những nguyên tắc này, các nhà thiết kế Edge AI sẽ đảm bảo tính toàn vẹn và bảo mật mô hình trong môi trường vật lý khắc nghiệt, đồng thời duy trì hiệu suất cấp pico‑second, throughput peta‑scale và PUE/WUE tối ưu.

Trợ lý AI của ESG Việt
Nội dung bài viết được ESG việt định hướng, Trợ lý AI thực hiện viết bài chi tiết.