{"slug": "top-ai-papers-on-hugging-face-2026-06-25", "title": "Top AI Papers on Hugging Face - 2026-06-25", "summary": "Hugging Face's top-voted papers on June 25, 2026, reveal a trend of AI shifting from question-answering to world-acting models. Key papers include Qwen-AgentWorld, which uses a language world model for generalist agents; MemoryData, a systematic evaluation framework for agent memory; NatureBench, a benchmark for AI coding agents in scientific discovery; and DomainShuttle, a subject-driven text-to-video model for open domains.", "body_md": "Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một xu hướng rất rõ: **AI đang chuyển từ mô hình “trả lời câu hỏi” sang mô hình “hành động trong thế giới”**. Ta thấy dày đặc các chủ đề như **agent**, **memory system**, **OS-native AI**, **benchmark cho khám phá khoa học**, và các mô hình **đa phương thức thời gian thực**.\n\nDưới đây là bản tổng hợp theo 4 góc nhìn cho từng paper:\n\n**Paper:** `2606.24597`\n\n**GitHub:** [https://github.com/QwenLM/Qwen-AgentWorld](https://github.com/QwenLM/Qwen-AgentWorld)\n\nCác AI agent hiện nay thường học và hành động trực tiếp trên môi trường thật hoặc môi trường giả lập hẹp. Vấn đề là cách này **tốn chi phí, khó mở rộng, khó bao phủ nhiều domain** và đặc biệt khó huấn luyện cho các tác vụ dài hơi.\n\nQwen-AgentWorld xây dựng một **language world model**: thay vì mô phỏng thế giới bằng engine vật lý hay simulator chuyên biệt, hệ thống dùng **ngôn ngữ** để biểu diễn trạng thái, chuyển trạng thái và phần thưởng. Nói ngắn gọn, agent có thể “tưởng tượng” môi trường qua text rồi học cách hành động trong môi trường đó.\n\nĐiểm đáng chú ý là paper đẩy khái niệm **world model cho agent tổng quát** lên quy mô rộng hơn nhiều domain. Họ kết hợp:\n\nHướng này rất phù hợp cho:\n\nNếu thành công ở quy mô lớn, đây có thể là nền móng cho các agent “tự diễn tập trước khi làm thật”.\n\n**Paper:** `2606.24775`\n\n**GitHub:** [https://github.com/OpenDataBox/MemoryData](https://github.com/OpenDataBox/MemoryData)\n\nAgent hiện đại không chỉ cần context ngắn trong cửa sổ prompt, mà còn cần **bộ nhớ dài hạn**: nhớ người dùng là ai, việc nào đã làm, thông tin nào quan trọng, khi nào cần cập nhật hay quên đi. Vấn đề là ta vẫn thiếu một cách đánh giá hệ thống memory thật bài bản.\n\nPaper tiếp cận memory cho agent như một **bài toán quản trị dữ liệu**. Họ chia bộ nhớ thành các khâu:\n\nSau đó, paper đánh giá các khâu này dưới nhiều workload khác nhau.\n\nĐiểm mới lớn nhất không nằm ở việc đề xuất một thuật toán memory duy nhất, mà ở việc xây dựng **khung đánh giá có hệ thống** cho “agent-native memory systems”. Các tiêu chí như:\n\ngiúp cộng đồng nhìn memory không còn là “gắn thêm vector DB là xong”.\n\nRất hữu ích cho:\n\nĐây là paper đáng đọc với bất kỳ ai đang xây agent production.\n\n**Paper:** `2606.24530`\n\n**GitHub:** [https://github.com/FrontisAI/NatureBench](https://github.com/FrontisAI/NatureBench)\n\nCác benchmark coding hiện nay chủ yếu kiểm tra khả năng hoàn thành task kỹ thuật. Nhưng câu hỏi khó hơn là: **AI coding agent có thể hỗ trợ khám phá khoa học thật không?**\n\nNatureBench tạo một benchmark gồm **90 tác vụ khoa học liên ngành**, lấy cảm hứng từ các bài báo thuộc họ Nature. Mục tiêu không chỉ là “reproduce code”, mà là kiểm tra liệu agent có thể chạm đến mức **khám phá** hay ít nhất là tái hiện phương pháp ở chuẩn rất cao.\n\nPaper chạm đúng một khoảng trống lớn: thay vì benchmark coding thông thường, họ benchmark **scientific discovery workflow**. Kết quả cho thấy agent hiện tại chủ yếu mạnh ở **dịch phương pháp thành code** hơn là tạo ra tri thức mới.\n\nNói cách khác, agent vẫn giống một “kỹ sư triển khai rất giỏi” hơn là “nhà khoa học sáng tạo”.\n\nPaper này quan trọng với:\n\nNó giúp đặt kỳ vọng đúng: AI hiện hỗ trợ khoa học tốt ở lớp **thực thi và tái hiện**, nhưng chưa thật sự thay thế bước **đột phá ý tưởng**.\n\n**Paper:** `2606.26058`\n\n**GitHub:** [https://github.com/HKUST-C4G/DomainShuttle](https://github.com/HKUST-C4G/DomainShuttle)\n\nText-to-video hiện tiến rất nhanh, nhưng khi yêu cầu tạo video có **chủ thể cụ thể** từ ảnh tham chiếu, mô hình thường gặp hai lỗi:\n\nDomainShuttle hướng đến **subject-driven text-to-video** trong **open domain**. Hệ thống dùng cơ chế modeling theo domain để xử lý tốt cả tình huống cùng domain lẫn cross-domain.\n\nCác thành phần đáng chú ý gồm:\n\nNói đơn giản, paper cố gắng khiến mô hình hiểu rõ hơn mối liên hệ giữa:\n\nỨng dụng rất rõ ràng trong:\n\nĐây là hướng có tiềm năng thương mại mạnh vì “giữ đúng chủ thể” là nhu cầu cực lớn trong sản xuất nội dung.\n\n**Paper:** `2606.19926`\n\n**GitHub:** [https://github.com/kwai/MemGUI-Agent](https://github.com/kwai/MemGUI-Agent)\n\nMobile GUI agent thường thất bại ở các tác vụ dài nhiều bước: đặt vé, mua hàng, cấu hình app, điền form dài... Lý do là agent **mất ngữ cảnh** và không biết thông tin nào cần giữ lại qua nhiều màn hình.\n\nMemGUI-Agent đề xuất **proactive context management** với cơ chế **Context-as-Action (ConAct)**. Tức là quản lý context không còn là phần bị động trong prompt, mà trở thành một phần của chuỗi hành động.\n\nPaper đưa vào các trường context có cấu trúc như:\n\nĐiểm hay là memory/context được quản trị rõ ràng hơn thay vì nhồi toàn bộ lịch sử vào prompt.\n\nRất thực tế cho:\n\nĐây là một bước quan trọng nếu muốn có “AI dùng điện thoại thay người” thật sự đáng tin.\n\n**Paper:** `2606.25763`\n\n**GitHub:** [https://github.com/lijayuTnT/ShutterMuse](https://github.com/lijayuTnT/ShutterMuse)\n\nHầu hết AI chỉnh ảnh hiện nay hoạt động **sau khi chụp**. Nhưng với nhiếp ảnh, giá trị lớn hơn nhiều nằm ở việc **hướng dẫn ngay lúc bấm máy**: bố cục ra sao, chủ thể nên tạo dáng thế nào.\n\nShutterMuse xây benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ:\n\nPaper kết hợp hai vai trò vốn tách rời:\n\nNgoài supervised fine-tuning, họ còn dùng **reinforcement fine-tuning** để tăng chất lượng hướng dẫn thẩm mỹ.\n\nKhá rõ cho:\n\nNếu tích hợp tốt, đây có thể là “copilot nhiếp ảnh” thời gian thực.\n\n**Paper:** `2606.25041`\n\n**Project:** [https://wan-streamer.com/](https://wan-streamer.com/)\n\nNhiều mô hình multimodal mạnh nhưng phản hồi chậm, không phù hợp với tương tác thời gian thực như gọi video, livestream, hay trợ lý giọng nói có nhìn hình.\n\nWan-Streamer xây mô hình nền tảng **audio-visual-text** theo kiểu **streaming end-to-end**, dùng causal attention để xử lý dữ liệu đến liên tục với độ trễ thấp.\n\nCác điểm kỹ thuật nổi bật:\n\nMục tiêu là hợp nhất nhiều modality nhưng vẫn giữ trải nghiệm realtime.\n\nRất hứa hẹn cho:\n\nĐây là hướng then chốt nếu muốn AI thực sự “sống trong dòng thời gian thực”.\n\n**Paper:** `2606.15932`\n\n**GitHub:** [https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code](https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code)\n\n“Code intelligence” không còn chỉ là từ mô tả ngôn ngữ sinh code. Ngày càng nhiều bài toán đòi hỏi AI hiểu **hình ảnh, GUI, biểu đồ, sơ đồ**, rồi mới sinh hoặc phân tích code.\n\nĐây là một bài survey hệ thống hóa lĩnh vực **multimodal code intelligence**: từ GUI, scientific visualization, structured graphics cho đến các framework kiểm chứng kết quả.\n\nGiá trị chính nằm ở việc paper không chỉ liệt kê công trình mà còn nhấn mạnh hướng đi tương lai:\n\nHữu ích cho:\n\nĐây là bài đọc nền tảng để hiểu nơi thị trường code agent sẽ đi tiếp.\n\n**Paper:** `2606.23449`\n\n**GitHub:** [https://github.com/aohp-os/aohp](https://github.com/aohp-os/aohp)\n\nPhần lớn agent hiện chạy “trên” hệ điều hành chứ chưa được hệ điều hành xem như **thực thể hạng nhất**. Điều này làm hạn chế khả năng cá nhân hóa, hiệu quả thực thi và kiểm soát bảo mật.\n\nAOHP xây một framework ở mức **OS-level**, dựa trên Android, để agent trở thành thành phần native của hệ điều hành.\n\nĐiểm mới là góc nhìn **agent-native operating system**. Paper không chỉ tối ưu completion rate hay token cost, mà còn đưa ra cơ chế:\n\nNếu phát triển tốt, đây là nền móng cho:\n\nĐây là hướng rất đáng chú ý vì agent tương lai có thể không còn là app, mà là **lớp hạ tầng của OS**.\n\n**Paper:** `2606.25331`\n\nMô hình ngôn ngữ hiện nay chủ yếu theo kiểu **autoregressive**: sinh token trái sang phải. Cách này hiệu quả nhưng có giới hạn về song song hóa và đôi khi hạn chế khả năng khai thác ngữ cảnh hai chiều.\n\nPaper theo đuổi **masked diffusion language model** với **fully bidirectional attention**. Thay vì sinh tuần tự hoàn toàn, mô hình dần tinh chỉnh chuỗi token qua nhiều bước khử nhiễu.\n\nĐiểm đáng chú ý là mô hình diffusion ngôn ngữ ở đây đạt kết quả cạnh tranh, thậm chí vượt AR trên một số benchmark như:\n\nNgoài ra còn có:\n\nDù còn sớm, hướng này có thể hữu ích cho:\n\nNó cũng nhắc cộng đồng rằng tương lai của LLM có thể không chỉ thuộc về kiến trúc autoregressive.\n\nCác paper như **Qwen-AgentWorld**, **MemGUI-Agent**, **AOHP**, và nghiên cứu về **agent-native memory** cho thấy trọng tâm đã dịch chuyển từ “mô hình biết nói” sang “mô hình biết làm”.\n\nNgày càng rõ rằng để agent hữu ích ngoài đời thực, chỉ tăng kích thước mô hình là chưa đủ. Cần:\n\nTừ **ShutterMuse** đến **Wan-Streamer** và **DomainShuttle**, AI đa phương thức không còn chỉ để demo đẹp, mà đang tiến vào các kịch bản dùng được ngay: quay/chụp, giao tiếp trực tiếp, tạo nội dung sản xuất.\n\nNếu phải chọn một thông điệp chung của top paper hôm nay, thì đó là:\n\nKỷ nguyên tiếp theo của AI không chỉ là “hiểu và sinh”, mà là “nhớ, mô phỏng, hành động và tương tác theo thời gian thực”.\n\nNếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp một phiên bản **blog polished hơn theo giọng Tech in Asia / Viblo / Substack**, hoặc rút gọn thành **bản LinkedIn post 10 ý ngắn**.", "url": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-25", "canonical_source": "https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n", "published_at": "2026-06-25 12:01:12+00:00", "updated_at": "2026-06-25 12:13:05.211903+00:00", "lang": "en", "topics": ["artificial-intelligence", "large-language-models", "ai-agents", "computer-vision", "ai-research"], "entities": ["Hugging Face", "Qwen-AgentWorld", "MemoryData", "NatureBench", "DomainShuttle", "FrontisAI", "HKUST-C4G", "OpenDataBox"], "alternates": {"html": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-25", "markdown": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-25.md", "text": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-25.txt", "jsonld": "https://wpnews.pro/news/top-ai-papers-on-hugging-face-2026-06-25.jsonld"}}