{"slug": "top-ai-papers-on-hugging-face-2026-06-30", "title": "Top AI Papers on Hugging Face - 2026-06-30", "summary": "Hugging Face's top AI papers for June 30, 2026, highlight a shift from models that merely answer well to systems that can act, evaluate, stop appropriately, and operate in the real world. Key papers cover real-time video editing (LiveEdit), a 35B MoE agent (Agents-A1) trained for long-horizon tasks, a benchmark for agent abstention, and a terminal-use agent benchmark (TUA-Bench).", "body_md": "Hôm nay, bảng xếp hạng paper trên Hugging Face cho thấy một xu hướng rất rõ: AI đang dịch chuyển từ **mô hình chỉ “trả lời tốt”** sang **hệ thống có thể hành động, đánh giá, tự dừng đúng lúc và vận hành trong thế giới thật**. Danh sách top paper trải dài từ chỉnh sửa video thời gian thực, agent terminal/web, benchmark suy luận video, cho đến robot manipulation và navigation.\n\nDưới đây là phần tóm lược theo 4 câu hỏi cho mỗi paper: **bài toán**, **ý tưởng**, **điểm mới**, và **ứng dụng thực tế**.\n\n**Bài toán.**\n\nCác mô hình video diffusion hiện nay thường chỉnh sửa theo kiểu “offline”: phải nhìn cả chuỗi video rồi mới xử lý. Điều này không phù hợp với các kịch bản như livestream, camera AR, hoặc biên tập tương tác, nơi hệ thống phải xử lý **từng frame một** nhưng vẫn giữ nhân vật, bối cảnh và hiệu ứng ổn định trong thời gian dài.\n\n**Ý tưởng.**\n\nLiveEdit xây dựng một framework chỉnh sửa video **streaming, causal**: frame hiện tại được chỉnh sửa dựa trên quá khứ, thay vì cần toàn bộ video. Trọng tâm là một **pipeline chưng cất 3 giai đoạn**, biến một foundation model hai chiều thành editor một chiều đủ nhanh cho thời gian thực. Thêm vào đó là cơ chế **mask cache hướng AR** để duy trì vùng chỉnh sửa ổn định.\n\n**Điểm mới.**\n\nĐiểm đáng chú ý nhất là bài toán “streaming video editing” được đặt ra một cách nghiêm túc, thay vì chỉ tối ưu tốc độ inference. Paper không chỉ cố làm nhanh hơn, mà còn giải quyết mâu thuẫn khó: **causality + ổn định dài hạn + chất lượng hình ảnh**.\n\n**Ứng dụng thực tế.**\n\nRất phù hợp cho **AR/VR**, filter camera trực tiếp, đổi phong cách video khi quay, hỗ trợ sản xuất nội dung ngắn, hoặc công cụ hậu kỳ tương tác gần real-time.\n\n**Bài toán.**\n\nTrong agentic AI, năng lực không chỉ đến từ kích thước model mà còn đến từ khả năng xử lý **chuỗi hành động dài**, đa bước, đa công cụ. Câu hỏi paper đặt ra là: liệu có thể đạt hiệu năng kiểu “trillion-parameter” mà không cần huấn luyện mô hình khổng lồ?\n\n**Ý tưởng.**\n\nAgents-A1 là một mô hình **MoE 35B** nhưng được huấn luyện theo hướng mở rộng **horizon** thay vì chỉ mở rộng tham số. Họ dùng 3 giai đoạn: supervised fine-tuning, teacher theo từng domain, rồi **multi-teacher on-policy distillation** có định tuyến theo domain. Nói ngắn gọn: thay vì nhồi thêm kích thước, họ dạy agent đi được **hành trình dài hơn và đa dạng hơn**.\n\n**Điểm mới.**\n\nThông điệp mới ở đây là **scaling law cho agent có thể nằm ở trajectory length và diversity**, không chỉ ở model size. Đây là góc nhìn rất đáng chú ý vì nó dịch trọng tâm từ “bigger LLM” sang “better long-horizon training”.\n\n**Ứng dụng thực tế.**\n\nCó ý nghĩa cho các hệ **AI assistant biết dùng tool**, automation trong doanh nghiệp, tác vụ nhiều bước như nghiên cứu, coding, thao tác web, hay vận hành workflow nội bộ.\n\n**Bài toán.**\n\nĐa số benchmark agent hiện nay chỉ đo agent có làm được việc hay không. Nhưng trong thực tế, một agent tốt còn phải biết **khi nào không nên làm tiếp**: khi thiếu thông tin, khi rủi ro cao, hoặc khi khả năng sai quá lớn.\n\n**Ý tưởng.**\n\nPaper xem “abstention” như một **bài toán quyết định tuần tự**. Agent không chỉ chọn hành động, mà còn phải quyết định **dừng lại**, hỏi thêm, hoặc từ chối. Họ đánh giá điều này trên nhiều môi trường như web shopping, terminal và QA.\n\n**Điểm mới.**\n\nĐiểm mới là đưa khái niệm **abstention** từ phân loại truyền thống sang **agentic systems**. Với agent, “không làm gì” không phải thất bại, mà đôi khi là hành động đúng nhất.\n\n**Ứng dụng thực tế.**\n\nCực kỳ quan trọng cho **AI trong môi trường rủi ro**: tài chính, y tế, vận hành doanh nghiệp, giao dịch tự động, hoặc trợ lý doanh nghiệp có quyền truy cập hệ thống thật.\n\n**Bài toán.**\n\nAgent hiện nay thường được demo trên các tác vụ nhỏ hoặc benchmark hẹp. Nhưng trong công việc thực tế, rất nhiều nhiệm vụ diễn ra trong **terminal, shell, CLI, workflow phần mềm chuyên dụng**.\n\n**Ý tưởng.**\n\nTUA-Bench xây dựng benchmark cho **general-purpose terminal-use agents**, bao phủ cả hoạt động số phổ thông lẫn workflow chuyên biệt. Hệ thống chấm điểm theo cách **execution-based**, tức là nhìn vào kết quả thực thi chứ không chỉ so khớp text đầu ra.\n\n**Điểm mới.**\n\nPaper này quan trọng vì benchmark được thiết kế gần với công việc thật hơn. Nó giúp phân biệt rõ agent “nói hay” với agent **thực sự dùng được**.\n\n**Ứng dụng thực tế.**\n\nPhù hợp để đánh giá agent cho **DevOps, data engineering, automation nội bộ, vận hành server, scripting, và trợ lý kỹ thuật**.\n\n**Bài toán.**\n\nNhiều world model tạo ảnh/video trông rất thuyết phục trên các tình huống phổ biến, nhưng lại thất bại ở những trường hợp hiếm, bất thường, hoặc vi phạm trực giác vật lý.\n\n**Ý tưởng.**\n\nPaper đề xuất đánh giá world model trên **phân phối dài đuôi**: từ tình huống thông thường, đến bất thường, thậm chí “impossible scenarios”. Mục tiêu là kiểm tra model có thực sự hiểu **vật lý, ràng buộc, affordance và tính nhất quán theo thời gian** hay không.\n\n**Điểm mới.**\n\nThay vì chỉ đo realism hay FID-like metrics, paper nhấn mạnh **generalization under rare events**. Đây là hướng rất cần thiết nếu world model được dùng cho planning hoặc simulation.\n\n**Ứng dụng thực tế.**\n\nQuan trọng cho **robotics, autonomous systems, simulator huấn luyện agent**, và bất cứ nơi nào mô hình phải suy luận ngoài các trường hợp “đẹp, phổ biến”.\n\n**Bài toán.**\n\nTabular foundation models được kỳ vọng thay thế hoặc vượt qua các phương pháp cổ điển trên dữ liệu bảng. Nhưng phần lớn đánh giá trước đây thường ở điều kiện khá sạch, gần **IID**, trong khi dữ liệu thật thường lệch phân phối, nhiều nhiễu và nhiều đặc trưng phức tạp.\n\n**Ý tưởng.**\n\nPaper benchmark các tabular foundation models trên nhiều điều kiện hơn: **IID, non-IID, dữ liệu lớn, dữ liệu nhiều chiều**. Kết quả cho thấy mô hình mới không phải lúc nào cũng thắng; trong nhiều trường hợp, **tree-based methods** vẫn rất mạnh.\n\n**Điểm mới.**\n\nĐiểm mới không nằm ở kiến trúc mà ở **tinh thần phản biện benchmark**. Paper đặt lại câu hỏi rất thực tế: “general-purpose” đến đâu, và trong bối cảnh nào?\n\n**Ứng dụng thực tế.**\n\nRất hữu ích cho doanh nghiệp làm **risk scoring, fraud detection, forecasting, CRM analytics**, nơi dữ liệu bảng vẫn là xương sống.\n\n**Bài toán.**\n\nNhiều MLLM làm tốt nhận diện vật thể trong video nhưng chưa chắc giỏi **suy luận động**: đếm theo chuỗi, theo dõi trạng thái, xác định thứ tự trước-sau, hay kết hợp nhiều phép suy luận theo thời gian.\n\n**Ý tưởng.**\n\nVideo-MME-Logical xây dựng benchmark có kiểm soát để đánh giá chính xác các dạng **temporal-logical operations**. Các bài toán không đơn thuần là “trong video có gì”, mà là “điều gì xảy ra theo trình tự nào, bao nhiêu lần, và trong quan hệ logic gì”.\n\n**Điểm mới.**\n\nBenchmark này tách bạch **perception** khỏi **reasoning**. Đây là điều rất quan trọng vì nhiều mô hình hiện nay có thể nhìn tốt nhưng suy luận chuỗi sự kiện còn yếu.\n\n**Ứng dụng thực tế.**\n\nCó ích cho **video surveillance, phân tích thể thao, trợ lý video, robotics perception**, hoặc QA trên dữ liệu camera.\n\n**Bài toán.**\n\nRobot manipulation cần tổng hợp nhiều loại dữ liệu: video góc nhìn người, demo bằng tay, trajectory robot, lệnh ngôn ngữ. Thách thức là các nguồn này khác nhau về biểu diễn, động học và mục tiêu hành vi.\n\n**Ý tưởng.**\n\nQwen-RobotManip đề xuất một **Vision-Language-Action foundation model** với **unified alignment** trên 3 lớp:\n\nNhờ đó, mô hình có thể học từ dữ liệu đa nguồn ở quy mô lớn mà vẫn chuyển hóa được thành hành động robot.\n\n**Điểm mới.**\n\nĐiểm đáng giá nhất là cách nhìn “alignment” không chỉ là căn chỉnh text-image, mà là căn chỉnh xuyên qua **biểu diễn, chuyển động và hành vi**. Điều này giúp mô hình có khả năng **zero-shot instruction following**, phục hồi lỗi, và chuyển sang embodiment khác.\n\n**Ứng dụng thực tế.**\n\nRất hứa hẹn cho **robot gia dụng, kho vận, lắp ráp, và học từ demo người**.\n\n**Bài toán.**\n\nRobot navigation thường bị phân mảnh: mỗi bài toán một policy riêng, mỗi dạng cảm biến một pipeline riêng. Điều này làm khó việc mở rộng sang nhiều nhiệm vụ và môi trường thực.\n\n**Ý tưởng.**\n\nQwen-RobotNav đưa ra một mô hình navigation với **giao diện tham số hóa**, cho phép thay đổi mode tác vụ và kiểu quan sát trong cùng một framework. Mô hình được huấn luyện đa tác vụ và thể hiện khả năng **zero-shot sang robot thật**.\n\n**Điểm mới.**\n\nĐiểm mới là biến navigation thành một **substrate thống nhất cho planning không gian**, thay vì một tập hợp policy rời rạc. Đây là hướng rất phù hợp với tư duy foundation model cho robot.\n\n**Ứng dụng thực tế.**\n\nDùng cho **robot di chuyển trong nhà máy, kho hàng, dịch vụ, hoặc môi trường chưa thấy trước**.\n\n**Bài toán.**\n\nHuấn luyện agent/LLM bằng on-policy distillation thường chậm vì phải đợi rollout mới từ policy hiện tại. Nếu làm bất đồng bộ để tăng thông lượng, dữ liệu sẽ bị **stale**: được sinh từ policy cũ.\n\n**Ý tưởng.**\n\nAsyncOPD nghiên cứu trade-off này một cách hệ thống. Họ xem xét cách distillation hoạt động khi rollout và learner được tách rời, đồng thời phân tích ảnh hưởng của **stale-policy data**, các biến thể KL, và cách hiệu chỉnh.\n\n**Điểm mới.**\n\nĐây là một paper có giá trị thực dụng cao: thay vì chỉ đề xuất thuật toán RL đẹp về lý thuyết, nó xử lý câu hỏi hạ tầng huấn luyện rất thật là **độ cũ của dữ liệu ảnh hưởng thế nào đến chất lượng học**.\n\n**Ứng dụng thực tế.**\n\nQuan trọng cho các hệ **post-training quy mô lớn**, đặc biệt trong RLHF, tool-use agent training, và distillation cho LLM.\n\nNhìn toàn cục, có 4 xu hướng lớn:\n\nNhiều paper không chỉ nói về kiến trúc mà nói về **hệ thống hoàn chỉnh**: LiveEdit cho streaming, Agents-A1 cho long-horizon agent, AsyncOPD cho pipeline huấn luyện, TUA-Bench và Video-MME-Logical cho đánh giá thực dụng.\n\nCác benchmark mới không còn dễ dãi. Chúng đo:\n\nĐiều này rất tốt vì nó buộc cộng đồng đi từ demo đẹp sang **năng lực đáng tin cậy**.\n\nAgents-A1, Agentic Abstention, TUA-Bench, RobotManip, RobotNav đều chia sẻ một tinh thần chung: AI phải biết **quan sát, lập kế hoạch, hành động và tự hiệu chỉnh**. Sự khác biệt giữa “agent số” và “agent vật lý” đang dần thu hẹp.\n\nNhiều paper cho thấy mở rộng năng lực có thể đến từ:\n\nĐây là một thay đổi tư duy quan trọng trong AI hiện đại.\n\nTop paper hôm nay phản ánh một giai đoạn rất thú vị của AI research: thay vì chỉ theo đuổi mô hình lớn hơn, cộng đồng đang tập trung vào **khả năng hành động trong thế giới thật**, **đánh giá nghiêm túc hơn**, và **tối ưu toàn bộ vòng đời hệ thống** từ training tới deployment.\n\nNếu phải chọn vài paper đáng theo dõi nhất theo tác động thực tế:\n\nNếu bạn muốn, tôi có thể làm tiếp một phiên bản **bảng so sánh 10 paper theo từng tiêu chí** như: mức độ thực dụng, độ mới thuật toán, tiềm năng startup, và paper nào đáng đọc kỹ nhất.", "url": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-30", "canonical_source": "https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-30-3g7i", "published_at": "2026-06-30 12:02:01+00:00", "updated_at": "2026-06-30 12:19:07.987473+00:00", "lang": "en", "topics": ["artificial-intelligence", "machine-learning", "large-language-models", "ai-agents", "computer-vision"], "entities": ["Hugging Face", "LiveEdit", "Agents-A1", "TUA-Bench"], "alternates": {"html": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-30", "markdown": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-30.md", "text": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-30.txt", "jsonld": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-30.jsonld"}}