Tối ưu hoá Kích thước Batch (Batch Size) cho Tác vụ Dự đoán tại Edge

— Cân bằng giữa Tốc độ Dự đoán và Tải Bộ nhớ (RAM) dựa trên Kiến trúc Chip —

1. Bối cảnh & Vấn đề cốt lõi

Trong kỷ nguyên AI siêu mật độ, các hệ thống Edge AI phải thực hiện hàng nghìn inference mỗi giây, đồng thời chịu ràng buộc chặt chẽ về năng lượng, nhiệt độ và dung lượng bộ nhớ. Khi đưa mô hình sâu (Deep Neural Network – DNN) lên thiết bị biên (edge device), kích thước batch (batch size) trở thành một biến quyết định:

Mục lục

Batch lớn → tăng thông lượng (throughput) nhờ khai thác tối đa khả năng song song của GPU/ASIC/FPGA, nhưng làm tăng độ trễ (latency) pico‑second và tải RAM/VRAM.
Batch nhỏ → giảm độ trễ, phù hợp cho các tác vụ thời gian thực (real‑time), tuy nhiên giảm hiệu suất năng lượng (energy‑efficiency) và có thể gây under‑utilization tài nguyên tính toán.

Do đó, điều chỉnh batch size phải dựa trên đặc tính vật lý của chip, kiểu bộ nhớ, và hệ thống làm mát để đạt được PUE/WUE tối ưu trong môi trường Edge.

2. Định nghĩa chuẩn

Thuật ngữ	Định nghĩa (theo chuẩn IEEE/JEDEC)
Batch Size (B)	Số mẫu dữ liệu được xử lý đồng thời trong một vòng tính toán (forward pass).
Latency (L)	Thời gian trễ từ khi dữ liệu đầu vào được đưa vào đến khi kết quả inference được trả về, đo bằng pico‑second (ps) ở mức chip.
Throughput (T)	Số mẫu inference hoàn thành mỗi giây, thường biểu thị bằng samples/s hoặc GOPS (giga‑operations per second).
Memory Footprint (M)	Dung lượng bộ nhớ cần thiết để chứa dữ liệu input, trọng số, và intermediate activations trong một batch.
Power Utilization Efficiency (PUE)	Tỷ lệ năng lượng tiêu thụ bởi tải công việc so với tổng năng lượng trung tâm (PUE = P_compute / P_total).
Water Utilization Efficiency (WUE)	Tỷ lệ nước làm mát tiêu thụ cho mỗi watt tiêu thụ, quan trọng trong các giải pháp immersion cooling.

3. Cơ chế hoạt động & Luồng dữ liệu

3.1 Kiến trúc Chip và Đường truyền dữ liệu

GPU (CUDA cores / Tensor cores)
- Luồng dữ liệu: Input → DMA → L2 Cache → Tensor Core → HBM → Output.
- Độ trễ pico‑second: Thông qua đường truyền PCIe 5.0 x16 hoặc NVLink (≈ 300 ps).
- Bottleneck thường là bandwidth HBM2e (≈ 3 TB/s) khi batch size vượt quá khả năng lưu trữ cache.
ASIC (e.g., Google TPU, Habana Gaudi)
- Luồng dữ liệu: Input → On‑chip SRAM → Matrix Unit → eDRAM → Output.
- Latency: 30‑50 ps nhờ systolic array tối ưu.
- Bottleneck: eDRAM bandwidth khi batch size > 128.
FPGA (Int8/Int4 pipelines)
- Luồng dữ liệu: Input → AXI‑DMA → BRAM → DSP → DDR4/LPDDR5 → Output.
- Latency: 100‑200 ps, phụ thuộc vào clock gating và pipeline depth.
- Bottleneck: DDR4/LPDDR5 access latency (~ 80 ns) khi batch size lớn.

3.2 Điểm lỗi vật lý (Physical Failure Points)

Điểm lỗi	Nguyên nhân	Hậu quả	Phòng ngừa
Thermal Runaway	Tăng nhiệt độ vượt ngưỡng Tjmax (≈ 105 °C) do batch quá lớn → công suất tính toán tăng	Giảm tuổi thọ HBM, lỗi bit	Thêm liquid immersion cooling, giảm B hoặc áp dụng dynamic voltage & frequency scaling (DVFS)
Voltage Droop	Đột biến dòng điện khi nhiều core đồng thời hoạt động	Sự cố reset, giảm độ chính xác	Thiết kế power delivery network (PDN) với decoupling caps và wide‑trace power rails
Memory Bandwidth Saturation	Băng thông HBM/LPDDR không đủ cho batch size > 256	Tăng latency, giảm throughput	Sử dụng HBM3 hoặc 3‑level cache hierarchy
Signal Integrity (SI) Degradation	Crosstalk, jitter trên đường truyền high‑speed (PCIe, NVLink)	Lỗi dữ liệu, retransmission	Áp dụng serdes equalization, back‑drill vias, ground shielding

4. Trade‑offs chuyên sâu

Yếu tố	Batch lớn	Batch nhỏ
Throughput	↑ (tận dụng song song)	↓
Latency (ps)	↑ (độ trễ tổng)	↓ (đáp ứng thời gian thực)
Memory Footprint (GiB)	↑ (input × B + activations × B)	↓
Energy per inference (J/inf)	↓ (hiệu suất năng lượng tốt)	↑
Complexity of Scheduling	↑ (cần dynamic batch manager)	↓ (static schedule)
Rủi ro nhiệt	↑ (công suất trung bình cao)	↓

Kết luận: Đối với Edge với hạn chế RAM ≤ 8 GiB và công suất ≤ 30 W, batch size thường nằm trong khoảng [4‑32] tùy vào kiểu chip và độ sâu mạng.

5. Công thức tính toán (các công thức bắt buộc)

5.1 Công thức tiếng Việt (Yêu cầu 1)

Thông lượng thực tế (samples/s) được tính như sau:
Thông lượng = Kích thước batch ÷ Thời gian xử lý một batch.

[
\text{Throughput}{\text{real}} = \frac{B}{T{\text{batch}}}
]

Trong đó:

( $B$ ) – Kích thước batch (số mẫu).
( $T_{\text{batch}}$ ) – Thời gian hoàn thành một batch (s).

5.2 Công thức LaTeX (Yêu cầu 2)

M = B \times (S_{\text{in}} \times N_{\text{in}} + S_{\text{out}} \times N_{\text{out}}) + B \times S_{\text{act}} \times N_{\text{act}}

Giải thích:

( $M$ ** – Tổng dung lượng bộ nhớ cần thiết (byte).**
( $B$ ** – Kích thước batch.**
( $S_{\text{in}}$ ** – Kích thước một mẫu input (byte).**
( $N_{\text{in}}$ ** – Số kênh input (ví dụ: 3 cho RGB).**
( $S_{\text{out}}$ ** – Kích thước một mẫu output (byte).**
( $N_{\text{out}}$ ** – Số lớp output (ví dụ: 1000 cho ImageNet).**
( $S_{\text{act}}$ ** – Kích thước trung gian (activation) mỗi lớp (byte).**
( $N_{\text{act}}$ ** – Tổng số lớp có activation lưu trữ (thường bằng số lớp convolution + fully‑connected).**

6. Phân tích chi tiết dựa trên kiến trúc chip

6.1 GPU – NVIDIA Jetson AGX Orin (GPU 2048 CUDA cores, 64‑bit LPDDR5)

Thông số	Giá trị	Ảnh hưởng tới batch size
TDP	30 W	Giới hạn công suất, cần dynamic batch scaling để tránh thermal throttling.
HBM/LPDDR Bandwidth	51.2 GB/s	Khi B > 16, băng thông trở thành nút thắt, làm tăng ( $T_{\text{batch}}$ ).
Cache (L2)	8 MiB	Đủ cho B ≤ 8 với mô hình ResNet‑50 (≈ 10 MiB activation).
PUE (với liquid cooling)	1.12	Giảm nhiệt độ ~10 °C, cho phép B = 12‑16 mà không vượt ngưỡng Tjmax.

Chiến lược:
– B = 8‑12 cho các mô hình trung bình (ResNet‑50, MobileNet‑V3).
– Khi dùng TensorRT INT8, giảm kích thước activation → cho phép B = 16‑20 mà vẫn duy trì PUE ≤ 1.15.

6.2 ASIC – Habana Gaudi (64‑core Matrix Unit, 32 GiB HBM3)

Thông số	Giá trị	Ảnh hưởng
TDP	45 W	Đòi hỏi liquid immersion để duy trì nhiệt độ < 45 °C.
HBM3 Bandwidth	3.2 TB/s	Hỗ trợ B = 64‑128 cho mô hình BERT‑large (≈ 1 GiB activation).
eDRAM	2 GiB (on‑chip)	Giới hạn B ≤ 32 nếu không có prefetch.
PUE (immersion)	1.05	Rất cao, cho phép B lớn mà không tăng năng lượng tiêu thụ đáng kể.

Chiến lược:
– Áp dụng pipeline parallelism: chia mô hình thành 4 stage, mỗi stage xử lý B = 32.
– Sử dụng dynamic voltage scaling để giảm công suất khi batch giảm xuống < 16.

6.3 FPGA – Xilinx Versal AI Core (AI Engine 8 × 256‑bit, LPDDR5)

Thông số	Giá trị	Ảnh hưởng
TDP	20 W	Thấp, phù hợp cho edge battery‑operated.
LPDDR5 Bandwidth	68 GB/s	Đủ cho B = 4‑8 với các mô hình TinyML.
BRAM	12 MiB	Giới hạn kích thước activation → B ≤ 8.
PUE (air‑cooled)	1.30	Nhiệt độ môi trường ảnh hưởng lớn; cần heat sink + fan.

Chiến lược:
– Batch size = 4 cho mô hình MobileNet‑V2 (INT8).
– Khi nhiệt độ môi trường < 25 °C, có thể tăng lên B = 6 bằng cách over‑clock AI Engine (+10 % TDP).

7. Tối ưu hoá thực tiễn

7.1 Thuật toán “Adaptive Batch Scheduler”

Khởi tạo: Đọc thông số chip (TDP, bandwidth, cache).
Đánh giá: Tính ( $M$ ) và ( $T_{\text{batch}}$ ) cho các giá trị B dự đoán (4,8,16,…).
Kiểm tra ràng buộc:
- Nếu ( $M > \text{RAM\_limit}$ ) → giảm B.
- Nếu ( $T_{\text{batch}} > \text{Latency\_SLA}$ ) → giảm B.
- Nếu ( $P_{\text{compute}} > \text{TDP\_limit}$ ) → giảm B hoặc áp dụng DVFS.
Cập nhật: Chọn B* tối ưu, triển khai runtime scaling (có thể thay đổi mỗi 100 ms dựa trên nhiệt độ cảm biến).

7.2 Kiểm tra nhiệt độ & PUE trong thực tế

Thời gian	Nhiệt độ Chip (°C)	PUE	Batch Size được áp dụng
0‑10 s	38	1.12	8
10‑30 s	45 (đạt ngưỡng throttling)	1.18	4
30‑60 s (sau cooling)	35	1.09	12

Kết luận: Cần feedback loop từ cảm biến nhiệt (thermistor) tới scheduler để tránh thermal runaway.

7.3 Ảnh hưởng của làm mát (Cooling)

Air‑cooling: PUE ≈ 1.30 → mỗi W tính toán tốn thêm 0.30 W cho quạt.
Liquid immersion (Fluorinert): PUE ≈ 1.05 → giảm 25 % công suất làm mát, cho phép B tăng lên 1.3‑1.5× so với air‑cooling.
Cryogenic (liquid nitrogen): PUE ≈ 0.95 (điểm mạnh cho ASIC), nhưng chi phí và độ bền thiết bị giảm đáng kể; chỉ phù hợp cho data center HPC, không thực tế cho edge.

8. Khuyến nghị vận hành chiến lược

Xác định mức SLA latency trước khi lựa chọn batch size; luôn đặt latency ≤ 5 ms cho ứng dụng thời gian thực (ví dụ: video analytics).
Thiết kế hệ thống PDN với margin ít nhất 20 % so với công suất tối đa dự kiến khi batch size đạt giới hạn.
Triển khai Adaptive Batch Scheduler kết hợp sensor fusion (nhiệt độ, điện áp, băng thông) để tự động điều chỉnh B trong thời gian thực.
Lựa chọn vật liệu làm mát phù hợp với môi trường lắp đặt:
- Air‑cooling + heat sink cho thiết bị IoT cầm tay (≤ 2 W).
- Liquid immersion cho các edge servers trong nhà máy hoặc trạm viễn thông (≤ 30 W).
Kiểm tra định kỳ bộ nhớ (HBM/LPDDR) để phát hiện bit error rate (BER) tăng khi nhiệt độ vượt 85 °C; áp dụng ECC và scrubbing nếu cần.
Tối ưu hoá mô hình: Sử dụng quantization (INT8/INT4), pruning, và knowledge distillation để giảm kích thước activation, từ đó cho phép batch size lớn hơn mà không tăng tải RAM.

9. Kết luận

Việc tối ưu batch size cho inference tại Edge không chỉ là một vấn đề phần mềm mà còn là thách thức vật lý: cân bằng độ trễ pico‑second, thông lượng peta‑scale, và hạn chế năng lượng/PUE. Bằng cách:

Hiểu rõ kiến trúc chip (GPU, ASIC, FPGA) và các ràng buộc băng thông/bộ nhớ,
Áp dụng công thức tính toán để dự đoán memory footprint và throughput,
Triển khai scheduler thích ứng dựa trên dữ liệu cảm biến nhiệt, điện áp và băng thông,
Lựa chọn giải pháp làm mát phù hợp để duy trì PUE tối ưu,

các nhà thiết kế hệ thống Edge AI có thể đạt được hiệu suất năng lượng tốt nhất đồng thời đáp ứng SLA latency nghiêm ngặt. Đây là nền tảng vững chắc để mở rộng quy mô AI tại các môi trường biên, từ điểm bán lẻ thông minh tới trạm viễn thông 5G, đồng thời giảm thiểu rủi ro nhiệt và kéo dài tuổi thọ thiết bị.

Trợ lý AI của ESG Việt
Nội dung bài viết được ESG việt định hướng, Trợ lý AI thực hiện viết bài chi tiết.

Tối ưu hóa Batch Size cho Dự đoán tại Edge: Cân bằng Tốc độ – RAM theo Kiến trúc Chip