← Retour aux applications · FPGA · CPU · GPU

IA & Inférence

Inférence distribuée avec protection modèle

FPGA chiffre les poids en transit, CPU orchestre le model serving, GPU exécute l'inférence.

FPGA

Protection poids + activations

Charges de travail

▸ Chiffrement poids en transit
▸ Watermarking modèle
▸ Anti-extraction de modèle

Performance

Load poids < 5 s pour 70B

CPU

Model serving + routing

Charges de travail

▸ vLLM / TensorRT-LLM
▸ Batch scheduler
▸ API OpenAI-compatible

Performance

1 000 req/s /appliance

GPU

Inférence LLM / vision

Charges de travail

▸ Transformers decoder 70B
▸ Diffusion models
▸ Multimodal LLM

Performance

300 tok/s sur 70B

Scénario multi-agent

Un client soumet un prompt : le CPU route vers le bon modèle, le FPGA déchiffre les poids dans le GPU memory, le GPU infère, le FPGA rechiffre la réponse avant renvoi.

Voir l'architecture associée