Hôm nay, danh sách paper được upvote cao trên Hugging Face cho thấy một xu hướng rất rõ: AI đang chuyển từ mô hình “trả lời câu hỏi” sang mô hình “hành động trong thế giới”. Ta thấy dày đặc các chủ đề như agent, memory system, OS-native AI, benchmark cho khám phá khoa học, và các mô hình đa phương thức thời gian thực.
Dưới đây là bản tổng hợp theo 4 góc nhìn cho từng paper:
Paper: 2606.24597
GitHub: https://github.com/QwenLM/Qwen-AgentWorld Các AI agent hiện nay thường học và hành động trực tiếp trên môi trường thật hoặc môi trường giả lập hẹp. Vấn đề là cách này tốn chi phí, khó mở rộng, khó bao phủ nhiều domain và đặc biệt khó huấn luyện cho các tác vụ dài hơi.
Qwen-AgentWorld xây dựng một language world model: thay vì mô phỏng thế giới bằng engine vật lý hay simulator chuyên biệt, hệ thống dùng ngôn ngữ để biểu diễn trạng thái, chuyển trạng thái và phần thưởng. Nói ngắn gọn, agent có thể “tưởng tượng” môi trường qua text rồi học cách hành động trong môi trường đó.
Điểm đáng chú ý là paper đẩy khái niệm world model cho agent tổng quát lên quy mô rộng hơn nhiều domain. Họ kết hợp:
Hướng này rất phù hợp cho:
Nếu thành công ở quy mô lớn, đây có thể là nền móng cho các agent “tự diễn tập trước khi làm thật”.
Paper: 2606.24775
GitHub: https://github.com/OpenDataBox/MemoryData Agent hiện đại không chỉ cần context ngắn trong cửa sổ prompt, mà còn cần bộ nhớ dài hạn: nhớ người dùng là ai, việc nào đã làm, thông tin nào quan trọng, khi nào cần cập nhật hay quên đi. Vấn đề là ta vẫn thiếu một cách đánh giá hệ thống memory thật bài bản.
Paper tiếp cận memory cho agent như một bài toán quản trị dữ liệu. Họ chia bộ nhớ thành các khâu:
Sau đó, paper đánh giá các khâu này dưới nhiều workload khác nhau.
Điểm mới lớn nhất không nằm ở việc đề xuất một thuật toán memory duy nhất, mà ở việc xây dựng khung đánh giá có hệ thống cho “agent-native memory systems”. Các tiêu chí như:
giúp cộng đồng nhìn memory không còn là “gắn thêm vector DB là xong”.
Rất hữu ích cho:
Đây là paper đáng đọc với bất kỳ ai đang xây agent production.
Paper: 2606.24530
GitHub: https://github.com/FrontisAI/NatureBench Các benchmark coding hiện nay chủ yếu kiểm tra khả năng hoàn thành task kỹ thuật. Nhưng câu hỏi khó hơn là: AI coding agent có thể hỗ trợ khám phá khoa học thật không?
NatureBench tạo một benchmark gồm 90 tác vụ khoa học liên ngành, lấy cảm hứng từ các bài báo thuộc họ Nature. Mục tiêu không chỉ là “reproduce code”, mà là kiểm tra liệu agent có thể chạm đến mức khám phá hay ít nhất là tái hiện phương pháp ở chuẩn rất cao.
Paper chạm đúng một khoảng trống lớn: thay vì benchmark coding thông thường, họ benchmark scientific discovery workflow. Kết quả cho thấy agent hiện tại chủ yếu mạnh ở dịch phương pháp thành code hơn là tạo ra tri thức mới.
Nói cách khác, agent vẫn giống một “kỹ sư triển khai rất giỏi” hơn là “nhà khoa học sáng tạo”.
Paper này quan trọng với:
Nó giúp đặt kỳ vọng đúng: AI hiện hỗ trợ khoa học tốt ở lớp thực thi và tái hiện, nhưng chưa thật sự thay thế bước đột phá ý tưởng.
Paper: 2606.26058
GitHub: https://github.com/HKUST-C4G/DomainShuttle Text-to-video hiện tiến rất nhanh, nhưng khi yêu cầu tạo video có chủ thể cụ thể từ ảnh tham chiếu, mô hình thường gặp hai lỗi:
DomainShuttle hướng đến subject-driven text-to-video trong open domain. Hệ thống dùng cơ chế modeling theo domain để xử lý tốt cả tình huống cùng domain lẫn cross-domain.
Các thành phần đáng chú ý gồm:
Nói đơn giản, paper cố gắng khiến mô hình hiểu rõ hơn mối liên hệ giữa:
Ứng dụng rất rõ ràng trong:
Đây là hướng có tiềm năng thương mại mạnh vì “giữ đúng chủ thể” là nhu cầu cực lớn trong sản xuất nội dung.
Paper: 2606.19926
GitHub: https://github.com/kwai/MemGUI-Agent Mobile GUI agent thường thất bại ở các tác vụ dài nhiều bước: đặt vé, mua hàng, cấu hình app, điền form dài... Lý do là agent mất ngữ cảnh và không biết thông tin nào cần giữ lại qua nhiều màn hình.
MemGUI-Agent đề xuất proactive context management với cơ chế Context-as-Action (ConAct). Tức là quản lý context không còn là phần bị động trong prompt, mà trở thành một phần của chuỗi hành động.
Paper đưa vào các trường context có cấu trúc như:
Điểm hay là memory/context được quản trị rõ ràng hơn thay vì nhồi toàn bộ lịch sử vào prompt.
Rất thực tế cho:
Đây là một bước quan trọng nếu muốn có “AI dùng điện thoại thay người” thật sự đáng tin.
Paper: 2606.25763
GitHub: https://github.com/lijayuTnT/ShutterMuse Hầu hết AI chỉnh ảnh hiện nay hoạt động sau khi chụp. Nhưng với nhiếp ảnh, giá trị lớn hơn nhiều nằm ở việc hướng dẫn ngay lúc bấm máy: bố cục ra sao, chủ thể nên tạo dáng thế nào.
ShutterMuse xây benchmark, dataset và một mô hình đa phương thức thống nhất để hỗ trợ:
Paper kết hợp hai vai trò vốn tách rời:
Ngoài supervised fine-tuning, họ còn dùng reinforcement fine-tuning để tăng chất lượng hướng dẫn thẩm mỹ.
Khá rõ cho:
Nếu tích hợp tốt, đây có thể là “copilot nhiếp ảnh” thời gian thực.
Paper: 2606.25041
Project: https://wan-streamer.com/ Nhiều mô hình multimodal mạnh nhưng phản hồi chậm, không phù hợp với tương tác thời gian thực như gọi video, livestream, hay trợ lý giọng nói có nhìn hình.
Wan-Streamer xây mô hình nền tảng audio-visual-text theo kiểu streaming end-to-end, dùng causal attention để xử lý dữ liệu đến liên tục với độ trễ thấp.
Các điểm kỹ thuật nổi bật:
Mục tiêu là hợp nhất nhiều modality nhưng vẫn giữ trải nghiệm realtime.
Rất hứa hẹn cho:
Đây là hướng then chốt nếu muốn AI thực sự “sống trong dòng thời gian thực”.
Paper: 2606.15932
GitHub: https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code “Code intelligence” không còn chỉ là từ mô tả ngôn ngữ sinh code. Ngày càng nhiều bài toán đòi hỏi AI hiểu hình ảnh, GUI, biểu đồ, sơ đồ, rồi mới sinh hoặc phân tích code.
Đây là một bài survey hệ thống hóa lĩnh vực multimodal code intelligence: từ GUI, scientific visualization, structured graphics cho đến các framework kiểm chứng kết quả.
Giá trị chính nằm ở việc paper không chỉ liệt kê công trình mà còn nhấn mạnh hướng đi tương lai:
Hữu ích cho:
Đây là bài đọc nền tảng để hiểu nơi thị trường code agent sẽ đi tiếp.
Paper: 2606.23449
GitHub: https://github.com/aohp-os/aohp Phần lớn agent hiện chạy “trên” hệ điều hành chứ chưa được hệ điều hành xem như thực thể hạng nhất. Điều này làm hạn chế khả năng cá nhân hóa, hiệu quả thực thi và kiểm soát bảo mật.
AOHP xây một framework ở mức OS-level, dựa trên Android, để agent trở thành thành phần native của hệ điều hành.
Điểm mới là góc nhìn agent-native operating system. Paper không chỉ tối ưu completion rate hay token cost, mà còn đưa ra cơ chế:
Nếu phát triển tốt, đây là nền móng cho:
Đây là hướng rất đáng chú ý vì agent tương lai có thể không còn là app, mà là lớp hạ tầng của OS.
Paper: 2606.25331
Mô hình ngôn ngữ hiện nay chủ yếu theo kiểu autoregressive: sinh token trái sang phải. Cách này hiệu quả nhưng có giới hạn về song song hóa và đôi khi hạn chế khả năng khai thác ngữ cảnh hai chiều.
Paper theo đuổi masked diffusion language model với fully bidirectional attention. Thay vì sinh tuần tự hoàn toàn, mô hình dần tinh chỉnh chuỗi token qua nhiều bước khử nhiễu.
Điểm đáng chú ý là mô hình diffusion ngôn ngữ ở đây đạt kết quả cạnh tranh, thậm chí vượt AR trên một số benchmark như:
Ngoài ra còn có:
Dù còn sớm, hướng này có thể hữu ích cho:
Nó cũng nhắc cộng đồng rằng tương lai của LLM có thể không chỉ thuộc về kiến trúc autoregressive.
Các paper như Qwen-AgentWorld, MemGUI-Agent, AOHP, và nghiên cứu về agent-native memory cho thấy trọng tâm đã dịch chuyển từ “mô hình biết nói” sang “mô hình biết làm”.
Ngày càng rõ rằng để agent hữu ích ngoài đời thực, chỉ tăng kích thước mô hình là chưa đủ. Cần:
Từ ShutterMuse đến Wan-Streamer và DomainShuttle, AI đa phương thức không còn chỉ để demo đẹp, mà đang tiến vào các kịch bản dùng được ngay: quay/chụp, giao tiếp trực tiếp, tạo nội dung sản xuất.
Nếu phải chọn một thông điệp chung của top paper hôm nay, thì đó là:
Kỷ nguyên tiếp theo của AI không chỉ là “hiểu và sinh”, mà là “nhớ, mô phỏng, hành động và tương tác theo thời gian thực”.
Nếu bạn muốn, ở bước tiếp theo mình có thể viết tiếp một phiên bản blog polished hơn theo giọng Tech in Asia / Viblo / Substack, hoặc rút gọn thành bản LinkedIn post 10 ý ngắn.