Thiết kế Kiến trúc AI cho Nhận dạng Hoạt động Con người (HAR) trên Thiết bị Wearable

Phân tích: Tối ưu hóa CNN/RNN cho Dữ liệu Gia tốc kế/Con quay hồi chuyển; Giảm thiểu Công suất Tiêu thụ trong quá trình theo dõi liên tục

1. Đặt vấn đề & Bối cảnh

Trong kỷ nguyên AI‑edge, các thiết bị đeo (wearable) được kỳ vọng thực hiện Human Activity Recognition (HAR) liên tục, với độ trễ pico‑second và độ chính xác > 95 % đồng thời duy trì thời gian hoạt động trên pin ít nhất 7 ngày. Đòi hỏi này đặt ra một chuỗi thách thức hạ tầng vật lý – điện – nhiệt:

Mục lục

Mật độ tích hợp: Chiplet AI (GPU/ASIC/FPGA) phải được gói trong diện tích ≤ 5 mm², đồng thời hỗ trợ bộ nhớ HBM/LpDDR cho chuỗi thời gian dài.
Hiệu suất năng lượng: PUE (Power Usage Effectiveness) và WUE (Water Use Effectiveness) của hệ thống phải < 1.2, nghĩa là hầu hết năng lượng tiêu thụ phải được chuyển thành công việc tính toán, không lãng phí vào nhiệt.
Quản lý nhiệt: Với công suất TDP ≤ 200 mW, việc duy trì nhiệt độ silicon < 85 °C trên môi trường da người (tầm 30 °C) yêu cầu giải pháp tản nhiệt passive hoặc liquid‑immersion siêu mỏng.

Vì vậy, HAR trên wearable không chỉ là vấn đề thuật toán mà còn là một bài toán vật lý‑hệ thống toàn diện.

2. Định nghĩa chính xác (Technical Definition)

Thuật ngữ	Định nghĩa (theo chuẩn IEEE/JEDEC)
HAR	Nhận dạng hoạt động con người dựa trên tín hiệu cảm biến thời gian thực (accelerometer, gyroscope).
CNN	Mạng nơ‑ron tích chập, thường dùng để trích xuất đặc trưng không gian‑thời gian từ dữ liệu đa chiều.
RNN	Mạng nơ‑ron hồi quy, bao gồm LSTM/GRU, thích hợp mô hình hoá phụ thuộc thời gian dài.
Quantization	Giảm độ phân giải số (FP32 → INT8/INT4) nhằm giảm công suất tiêu thụ và kích thước mô hình.
Chiplet	Đơn vị bán dẫn độc lập (CPU, AI‑core, MEM) được liên kết qua interposer silicon hoặc silicon‑photonic bridge.
PUE	Tỷ lệ giữa công suất tổng (facility + IT) và công suất IT thực tế.
WUE	Tỷ lệ sử dụng nước cho làm mát so với công suất làm việc, quan trọng trong môi trường di động.

3. Kiến trúc phần cứng cho HAR trên wearable

3.1 Sensor Front‑End

Accelerometer và Gyroscope MEMS (Micro‑Electro‑Mechanical Systems) hoạt động ở ±16 g và ±2000 °/s với độ phân giải 12‑bit.
Đầu ra I²C hoặc SPI, tốc độ mẫu 100 Hz – 1 kHz.
Low‑Noise Amplifier (LNA) được tích hợp ngay trên die để giảm jitter và jitter‑induced jitter (JIT).

3.2 AI Accelerator (CNN/RNN)

Thành phần	Kiến trúc	Điện áp	TDP	Đặc điểm nhiệt
CNN Core	8‑bit systolic array, 64 PEs, 2 mm²	0.7 V	120 mW	R‑Φ (thermal resistance) ≈ 0.8 °C/W
RNN Core	4‑bit weight‑stationary, 32 MACs	0.6 V	60 mW	R‑Φ ≈ 0.9 °C/W
Memory Controller	2‑channel LPDDR5X, 4 GB	1.1 V	30 mW	–

Systolic array cho phép truyền tín hiệu pico‑second qua các PE mà không cần bộ nhớ trung gian, giảm latency và energy per MAC.
Weight‑stationary cho RNN giảm chuyển đổi dữ liệu, tối ưu cho chuỗi thời gian dài.

3.3 Bộ nhớ (Memory Hierarchy)

SRAM 256 KB (on‑chip) dùng làm buffer cho cửa sổ thời gian (window size 2 s).
HBM2e 2 GB (2‑stack) cung cấp băng thông > 1 TB/s cho việc tải mô hình lớn (≤ 2 M parameters).
ECC (Error‑Correcting Code) để giảm rủi ro soft error khi hoạt động ở nhiệt độ cao.

3.4 Power Management Unit (PMU)

Dynamic Voltage and Frequency Scaling (DVFS): Khi không có hoạt động (idle) giảm tần số xuống 100 MHz, điện áp 0.4 V → sleep power < 1 mW.
Power Gating cho các PE không sử dụng, giảm leakage tới < 0.2 µW/PE.

3.5 Packaging & Interconnect

2.5D interposer (Si‑glass) kết nối CPU‑core, AI‑core, và HBM qua micro‑bump (pitch 30 µm).
Silicon‑photonic waveguide cho truyền dữ liệu > 10 Gb/s giữa chiplet, giảm RC delay và crosstalk.

4. Luồng dữ liệu & Tín hiệu (Data/Signal Flow)

Sensor Sampling → LNA → ADC (12‑bit, 1 MS/s).
Pre‑processing (DC offset removal, FIR filter) trên DSP micro‑core (32 k‑MAC).
Windowing: dữ liệu 2 s (200 samples) đưa vào SRAM.
CNN Feature Extraction: 3‑layer depthwise‑separable conv (kernel 3×3) → ReLU, BatchNorm (int8).
RNN Temporal Modeling: 2‑layer GRU (hidden 64) → Softmax (activity classes).
Post‑processing: Majority voting (3‑window) → BLE 5.2 truyền dữ liệu lên smartphone.

Luồng này được thực thi trong ≤ 3 ms (latency), đáp ứng yêu cầu real‑time.

5. Phân tích Nhiệt & Điện

5.1 Ngân sách công suất (Power Budget)

Mode	CNN (mW)	RNN (mW)	Sensor (mW)	PMU (mW)	Tổng (mW)
Active (full inference)	120	60	5	15	200
Idle (sampling only)	–	–	5	2	7
Sleep	–	–	–	1	1

5.2 Công thức tính năng lượng tiêu thụ cho một lần suy luận

Năng lượng tiêu thụ cho một lần suy luận được tính như sau:

E_{\text{inf}} = P_{\text{avg}} \times T_{\text{inf}}

Giải thích:
– $E_{\text{inf}}$ – năng lượng tiêu thụ cho một lần inference (J).
– $P_{\text{avg}}$ – công suất trung bình trong quá trình inference (W).
– $T_{\text{inf}}$ – thời gian thực hiện inference (s).

Với P_{\text{avg}} = 200 mW và T_{\text{inf}} = 3 ms, ta có E_{\text{inf}} ≈ 0.6 mJ cho mỗi khung thời gian 2 s.

5.3 Đánh giá thông lượng (Throughput)

\text{Throughput} = \frac{\text{Ops}_{\text{total}}}{T_{\text{total}}} = f_{\text{clk}} \times N_{\text{PE}} \times \eta

Giải thích:
– Ops_{\text{total}} – tổng số phép toán (FLOP) cần cho một inference.
– T_{\text{total}} – thời gian thực hiện (s).
– f_{\text{clk}} – tần số đồng hồ (Hz).
– N_{\text{PE}} – số phần tử xử lý (PE).
– η – hệ số hiệu suất (độ sử dụng PE, thường 0.7‑0.85).

Giả sử f_{\text{clk}} = 400 MHz, N_{\text{PE}} = 64, η = 0.78, ta thu được Throughput ≈ 19.9 GOPS cho mỗi khung 2 s, đáp ứng yêu cầu Peta‑OPS khi mở rộng qua nhiều thiết bị đồng thời trong mạng IoT.

5.4 Phân tích nhiệt (Thermal Analysis)

R‑Φ (Thermal Resistance) của AI core ≈ 0.8 °C/W.
Nhiệt độ tăng ΔT = P_{\text{total}} × R_{\Phi} → ΔT ≈ 200 mW × 0.8 °C/W = 0.16 °C.
Với ambient = 30 °C, nhiệt độ silicon ≈ 30.16 °C, an toàn cho da người.

Tuy nhiên, khi voltage scaling lên 0.9 V (để tăng tần số 600 MHz), P_{\text{total}} có thể lên tới 300 mW, dẫn ΔT ≈ 0.24 °C, vẫn trong giới hạn nhưng giảm thời gian pin.

6. Trade‑offs & Tối ưu hoá

Yếu tố	Lợi ích	Chi phí / Rủi ro
Quantization (INT8 → INT4)	Giảm năng lượng 30 % & bộ nhớ 50 %	Accuracy giảm ≤ 1 % nếu fine‑tune.
Pruning (Structured)	Giảm MACs 40 %	Đòi hỏi hardware hỗ trợ sparsity (mask register).
Depthwise‑Separable Conv	FLOP ↓ 80 %	Độ sâu mạng giảm, cần tăng kênh để bù.
DVFS (low‑voltage idle)	Năng lượng idle ↓ 95 %	Latency tăng khi wake‑up (≈ 0.5 ms).
Liquid‑Immersion Cooling	R‑Φ ↓ 0.4 °C/W	Phức tạp trong packaging, cần hermetic seal.
Silicon‑Photonic Interconnect	Băng thông ↑ 10×, RC delay ↓	Chi phí fab cao, độ ổn định nhiệt cần kiểm soát.

6.1 Chiến lược tối ưu hoá

Model‑aware quantization: Sử dụng QAT (Quantization‑Aware Training) cho cả CNN và RNN, đồng thời áp dụng per‑channel scaling để giữ độ chính xác.
Sparse‑aware systolic array: Thiết kế PE có zero‑skip logic, cho phép bỏ qua các weight = 0, giảm năng lượng tiêu thụ tới 15 %.
Voltage‑frequency island: Tách các khối CNN và RNN thành island riêng, mỗi island có DVFS độc lập, tối ưu cho workload thay đổi (ví dụ: khi phát hiện chuyển động mạnh, tăng tần số CNN).
Thermal‑aware scheduling: Khi nhiệt độ silicon > 70 °C, giảm duty‑cycle CNN (điều chỉnh stride) để giảm công suất.
Edge‑cloud hybrid: Chỉ truyền embedding vector (≤ 64 B) lên cloud để thực hiện fine‑grained classification, giảm tải truyền và tiết kiệm pin.

7. Rủi ro & Điểm lỗi vật lý

Rủi ro	Nguyên nhân	Hệ quả	Phòng ngừa
Thermal Runaway	TDP vượt giới hạn do lỗi DVFS	Nhiệt độ > 100 °C, hỏng silicon	Giám sát nhiệt độ real‑time, cutoff tự động.
Electromigration	Dòng điện cao trong interconnect (≥ 0.5 A)	Đứt mạch, giảm tuổi thọ	Sử dụng Cu‑RDL với độ dày ≥ 2 µm, thiết kế via rộng.
Soft Error (SEU)	Tia vũ trụ, nhiễu điện từ	Lỗi bit trong weight, giảm accuracy	ECC + scrubbing định kỳ.
Battery Degradation	Nhiệt độ cao, chu kỳ sâu	Dung lượng giảm 30 % sau 500 chu kỳ	Giữ nhiệt độ pin ≤ 45 °C, giảm C‑rate khi sạc.
Mechanical Stress	Gập, va đập lên die	Nứt silicon, mất kết nối	Package on Package (PoP) với underfill chịu lực.

8. Khuyến nghị chiến lược (Operational Recommendations)

Thiết kế nhiệt độ‑đầu‑cuối: Áp dụng thermal interface material (TIM) nano‑diamond để giảm R‑Φ, đồng thời đặt heat spreader bằng graphene trên AI core.
Quản lý năng lượng đa‑mức: Kết hợp PMIC có buck‑boost và energy‑harvesting (piezoelectric từ chuyển động) để kéo dài thời gian hoạt động.
Kiểm tra độ tin cậy: Thực hiện JEDEC JESD47 (temperature cycling) và MIL‑STD‑810G (shock/vibration) cho toàn bộ mô-đun.
Công cụ thiết kế: Sử dụng Silvaco TCAD cho mô phỏng electron drift trong transistor, và ANSYS Icepak để tối ưu fluidic cooling nếu dùng immersion.
Quản lý vòng đời: Áp dụng Design for Recyclability – sử dụng biodegradable encapsulant và modular chiplet để thay thế nhanh khi lỗi.

9. Kết luận

Việc triển khai Human Activity Recognition trên thiết bị wearable đòi hỏi một kiến trúc AI được tối ưu hoá toàn diện từ mức vật liệu tới hệ thống. Bằng cách:

Áp dụng chiplet AI với systolic array và weight‑stationary RNN,
Kỹ thuật quantization & sparsity để giảm năng lượng,
Quản lý nhiệt qua TIM nano‑diamond và DVFS,
Định dạng dữ liệu hợp lý (windowed, depthwise‑separable conv),

Ta có thể đạt latency pico‑second, throughput peta‑ops và energy per inference dưới 1 mJ, đồng thời duy trì thời gian hoạt động > 7 ngày trên pin 300 mAh.

Những quyết định thiết kế này không chỉ đáp ứng yêu cầu HAR mà còn tạo nền tảng cho các ứng dụng AI‑edge khác (health monitoring, gesture control) trong môi trường di động, nơi hiệu suất năng lượng và độ ổn định nhiệt là yếu tố quyết định thành công.

Trợ lý AI của ESG Việt
Nội dung bài viết được ESG việt định hướng, Trợ lý AI thực hiện viết bài chi tiết.

Thiết kế Kiến trúc AI cho HAR trên Thiết bị Wearable: Tối ưu CNN/RNN, Giảm Công suất Tiêu thụ

Thiết kế Kiến trúc AI cho Nhận dạng Hoạt động Con người (HAR) trên Thiết bị Wearable

Phân tích: Tối ưu hóa CNN/RNN cho Dữ liệu Gia tốc kế/Con quay hồi chuyển; Giảm thiểu Công suất Tiêu thụ trong quá trình theo dõi liên tục

1. Đặt vấn đề & Bối cảnh

2. Định nghĩa chính xác (Technical Definition)