Hao Zhang — Web Pulse coverage

Supercharging LLM inference on Google TPUs: Achieving 3X speedups with diffusion-style speculative decoding :: https://wpnews.pro/news/supercharging-llm-inference-on-google-tpus-achieving-3x-speedups-with-diffusion