IA & Inférence
Inférence distribuée avec protection modèle
FPGA chiffre les poids en transit, CPU orchestre le model serving, GPU exécute l'inférence.
FPGA
Protection poids + activations
Charges de travail
- ▸ Chiffrement poids en transit
- ▸ Watermarking modèle
- ▸ Anti-extraction de modèle
Performance
Load poids < 5 s pour 70B
CPU
Model serving + routing
Charges de travail
- ▸ vLLM / TensorRT-LLM
- ▸ Batch scheduler
- ▸ API OpenAI-compatible
Performance
1 000 req/s /appliance
GPU
Inférence LLM / vision
Charges de travail
- ▸ Transformers decoder 70B
- ▸ Diffusion models
- ▸ Multimodal LLM
Performance
300 tok/s sur 70B
Scénario multi-agent
Un client soumet un prompt : le CPU route vers le bon modèle, le FPGA déchiffre les poids dans le GPU memory, le GPU infère, le FPGA rechiffre la réponse avant renvoi.