DTP

mentions 1 type Organization feed RSS

// recent coverage 1 mentions

16:16

2026-05-28

blog.kog.ai

large-language-models

Delayed Tensor Parallelism for Faster Transformer Inference

Kog Team researchers introduced Delayed Tensor Parallelism (DTP), a Transformer architecture that hides communication overhead behind computation and weight streaming to accelerate batch-size-one infe…

// co-occurs with top 4 entities

AMD 1 NVIDIA 1 Delayed Tensor Parallelism 1 Transformer 1