Kog Inference Engine — Web Pulse coverage

Real-time LLM Inference on Standard GPUs: 3k tokens/s per request :: https://wpnews.pro/news/real-time-llm-inference-on-standard-gpus-3k-tokens-s-per-request