Hôm nay, bảng xếp hạng paper được upvote cao trên Hugging Face cho thấy một bức tranh rất rõ: AI đang dịch chuyển từ các mô hình “biết trả lời” sang các hệ thống “biết hành động”, “biết nhớ”, “biết thích nghi” và “biết tạo nội dung theo ngữ cảnh thực tế”.
Trong bài viết này, mình sẽ tóm lược 10 paper nổi bật nhất, theo 4 góc nhìn cho mỗi bài:
Paper ID: 2606.24775
GitHub: https://github.com/OpenDataBox/MemoryData Các AI agent hiện đại không còn chỉ xử lý một prompt rồi kết thúc. Chúng cần bộ nhớ dài hạn: nhớ người dùng là ai, các tác vụ trước đó, công cụ đã dùng, kế hoạch đang dang dở, và cả những thông tin cần cập nhật theo thời gian.
Vấn đề là phần lớn hệ thống memory cho agent hiện nay được xây khá chắp vá: lưu gì, truy xuất thế nào, cập nhật ra sao, khi nào quên bớt… vẫn thiếu một khung đánh giá bài bản.
Paper tiếp cận memory của agent như một bài toán quản lý dữ liệu. Thay vì coi memory chỉ là “một vector database”, nhóm tác giả chia nó thành nhiều module:
Từ đó, họ đề xuất cách đánh giá memory theo nhiều workload và nhiều nút thắt khác nhau.
Điểm đáng chú ý nhất là paper không giới thiệu một “mô hình nhớ mới”, mà đưa ra một framework đánh giá hệ thống memory-native cho agent.
Các tiêu chí như:
được đưa vào đánh giá có hệ thống.
Paper này rất hữu ích cho:
Nói ngắn gọn, nếu muốn xây agent “nhớ lâu nhưng không nhớ sai”, đây là hướng rất quan trọng.
Trong generative image models, ta thường có nhiều năng lực khác nhau:
Thông thường các khả năng này được học riêng hoặc kết hợp chưa thật sự mượt, dẫn tới model mạnh ở tác vụ này nhưng yếu ở tác vụ khác.
DanceOPD đề xuất một cơ chế distillation theo kiểu on-policy cho các flow-matching model. Ý tưởng là để student model học từ các “expert capability” khác nhau, nhưng học theo đúng phân phối đầu ra mà chính nó tạo ra trong quá trình huấn luyện.
Một số điểm mới nổi bật:
Cách tiếp cận này giúp gom nhiều loại năng lực tạo sinh vào cùng một student model mà không làm chúng triệt tiêu nhau quá mạnh.
DanceOPD có thể hữu ích cho:
Đây là hướng đi quan trọng nếu muốn một model vừa “vẽ từ đầu”, vừa “sửa ảnh” tốt.
Paper ID: 2606.26058
GitHub: https://github.com/HKUST-C4G/DomainShuttle Text-to-video đang tiến bộ nhanh, nhưng vẫn rất khó ở bài toán subject-driven generation: ví dụ đưa vào ảnh một người hoặc một con vật, rồi yêu cầu tạo video mới mà vẫn giữ đúng danh tính/chủ thể đó, kể cả trong bối cảnh rất khác.
DomainShuttle tập trung vào việc mô hình hóa sự khác nhau giữa:
Hệ thống dùng các cơ chế như domain-aware AdaLN và Video-Reference DualRoPE để căn chỉnh giữa ảnh tham chiếu và chuỗi video sinh ra.
Điểm mới nằm ở chỗ paper không chỉ cố “copy chủ thể” vào video, mà xử lý cả vấn đề khác miền dữ liệu.
Ngoài ra, Cross-Pair Consistent Loss giúp duy trì sự nhất quán của chủ thể giữa các cặp tham chiếu và video.
Ứng dụng rất rộng:
Đây là mảnh ghép quan trọng để text-to-video đi từ demo đẹp sang sản xuất thực tế.
Robot ngoài đời thật luôn gặp tình huống mới: ma sát khác, tải trọng khác, cấu hình thiết bị khác. Nếu mỗi lần thay đổi lại phải fine-tune model thì quá chậm và đắt đỏ.
Paper đề xuất ICWM: robot tự tạo các tương tác ngắn để “thăm dò thế giới”, rồi dùng chính các quan sát đó như in-context information để suy ra các biến ẩn của hệ thống.
Nói cách khác, thay vì update trọng số, robot thích nghi ngay trong ngữ cảnh.
Điểm rất hay là họ biến bài toán nhận dạng hệ thống (system identification) thành bài toán in-context adaptation. Điều này giống cách LLM học “on the fly” từ ví dụ trong prompt, nhưng áp dụng cho điều khiển robot.
Rất tiềm năng cho:
Nếu hướng này tiếp tục hiệu quả, robot sẽ linh hoạt hơn nhiều mà không cần huấn luyện lại liên tục.
Paper ID: 2606.25763
GitHub: https://github.com/lijayuTnT/ShutterMuse Phần lớn AI về nhiếp ảnh hiện nay hoạt động sau khi chụp: chỉnh ảnh, crop lại, tăng màu. Nhưng người dùng thật sự cần hỗ trợ ngay lúc bấm máy: đứng thế nào, bố cục ra sao, lệch khung chỗ nào.
ShutterMuse xây dựng benchmark và dataset cho tác vụ hỗ trợ chụp ảnh theo thời gian thực. Mô hình có thể đưa ra:
Điểm mới là đưa MLLM vào giai đoạn capture-time, thay vì chỉ hậu kỳ. Paper còn hợp nhất hai nhu cầu vốn thường tách rời:
Rất thực dụng cho:
Đây là kiểu ứng dụng AI mà người dùng phổ thông có thể cảm nhận giá trị ngay lập tức.
Paper ID: 2606.26790
GitHub: https://github.com/jinyangwu/OPID Huấn luyện language agent bằng reinforcement learning thường rất tốn mẫu và tín hiệu thưởng khá thưa. Agent chỉ biết cuối cùng thành công hay thất bại, nhưng không biết rõ từng bước nào tốt/xấu.
OPID khai thác completed trajectories để trích xuất dạng giám sát hindsight dày hơn. Từ các quỹ đạo hoàn tất, hệ thống distill ra các skill hoặc các bước hành động có cấu trúc hơn để huấn luyện policy.
Điểm mới chính là:
Điều này giúp agent học hiệu quả hơn trong môi trường dài hơi.
Phù hợp cho:
Đây là một mảnh ghép quan trọng để agent RL bớt “học mò”.
Một prompt văn bản thường không đủ để mô tả toàn bộ ngữ cảnh cần thiết cho ảnh thực tế. Ví dụ muốn tạo poster sản phẩm, người dùng còn cần style, bố cục, thông tin thương hiệu, ví dụ tham khảo, ràng buộc từ môi trường sử dụng.
Qwen-Image-Agent xem bài toán tạo ảnh như một quy trình agentic gồm:
Agent sẽ dần xây dựng “full generation context” trước khi gọi image model.
Điểm mới ở đây là chuyển từ “text prompt → image” sang “agent xây ngữ cảnh → image”. Đây là cách trực diện để xử lý cái gọi là context gap trong image generation thực tế.
Rất phù hợp cho:
Xu hướng này cho thấy tương lai của AI tạo ảnh có thể không nằm ở model lớn hơn, mà ở agent thông minh hơn.
Với coding agents, việc thiết kế reward rất khó. Nếu dùng test case làm tín hiệu thưởng, agent có thể “hack” test. Nếu dùng proxy khác, proxy đó có thể lệch khỏi ý định thật của con người.
Paper phân tích bài toán verification như một cuộc đua liên tục giữa:
Khi policy mạnh hơn, các tín hiệu xác minh cũ có thể bị bão hòa hoặc bị khai thác.
Điểm mới không phải một thuật toán cụ thể, mà là một luận điểm rất quan trọng: không có viên đạn bạc cho reward của coding agent. Hệ thống xác minh phải thích nghi cùng với năng lực của agent.
Rất đáng đọc cho các đội đang xây:
Paper này mang tính “cảnh báo chiến lược”: đừng quá tin vào một chỉ số thưởng tĩnh.
Paper ID: 2606.27313
GitHub: https://github.com/yuxumin/ViQ Biểu diễn ảnh rời rạc (discrete visual tokens) rất hấp dẫn vì giúp training multimodal hiệu quả hơn. Nhưng thường có trade-off khó chịu:
ViQ đề xuất framework lượng tử hóa hình ảnh có thể giữ được cả semantic richness lẫn low-level detail, đồng thời hỗ trợ native-resolution inputs.
Các thành phần mới gồm:
Nhờ đó, representation rời rạc không còn quá “thô”, mà hữu ích hơn cho multimodal modeling.
Có tiềm năng trong:
Paper ID: 2606.26087
GitHub: https://github.com/cvlab-kaist/MVTrack4Gen Sinh video góc nhìn mới luôn gặp vấn đề lớn: hình có thể đẹp từng frame, nhưng hình học và chuyển động không nhất quán giữa các góc nhìn.
MVTrack4Gen dùng multi-view point tracking như một dạng supervision hình học cho mô hình diffusion tạo video. Thay vì chỉ ép mô hình sinh frame hợp mắt, họ đưa thêm ràng buộc về correspondence giữa các điểm qua nhiều view.
Điểm mới là biến tracking đa góc nhìn thành tín hiệu học cho 4D video generation. Cơ chế này cải thiện:
Rất hứa hẹn cho:
Nếu muốn video sinh ra không chỉ đẹp mà còn “đúng vật lý / đúng hình học”, đây là hướng rất đáng chú ý.
Nhìn tổng thể 10 paper hôm nay, có thể thấy 3 xu hướng nổi bật:
Các paper như Agent-Native Memory, OPID, Qwen-Image-Agent, và Verification Horizon cho thấy trọng tâm không chỉ còn là model nền, mà là cách agent:
Từ DomainShuttle, DanceOPD, ShutterMuse đến MVTrack4Gen, mục tiêu không còn chỉ là “demo đẹp”, mà là:
ICWM và Qwen-Image-Agent là hai ví dụ rất rõ cho xu hướng này: thay vì cập nhật tham số liên tục, hệ thống học cách thích nghi qua ngữ cảnh, tương tác và bộ nhớ.
Nếu phải chọn vài paper đáng theo dõi nhất về tác động dài hạn, mình sẽ chọn:
Vì chúng chạm vào các câu hỏi nền tảng: làm sao để AI nhớ đúng, thích nghi nhanh, hành động theo ngữ cảnh, và được đánh giá đúng mục tiêu.
Nếu bạn muốn, mình có thể viết tiếp phần 2 theo một trong các hướng sau: