AI・推論
モデル保護付き分散推論
FPGAが転送中の重みを暗号化、CPUがモデルサービングを統括、GPUが推論を実行。
FPGA
重み・活性化保護
ワークロード
- ▸ 転送中重み暗号化
- ▸ モデル電子透かし
- ▸ モデル抽出対策
性能
70Bモデル重みロード<5秒
CPU
モデルサービング・ルーティング
ワークロード
- ▸ vLLM / TensorRT-LLM
- ▸ バッチスケジューラ
- ▸ OpenAI互換API
性能
千req/s/アプライアンス
GPU
LLM・ビジョン推論
ワークロード
- ▸ 70Bデコーダーtransformer
- ▸ 拡散モデル
- ▸ マルチモーダルLLM
性能
70Bで300tok/s
マルチエージェントシナリオ
クライアントがプロンプト送信:CPUが適切なモデルへルーティング、FPGAがGPUメモリへ重みを復号、GPUが推論、FPGAが応答を再暗号化して返送します。