Top AI Papers on Hugging Face - 2026-06-24

The most upvoted papers on Hugging Face reveal a trend of AI shifting from answer models to action models, focusing on agents, simulation environments, GUI/mobile interaction, and benchmarks for real-world task capabilities. Notable papers include Qwen-AgentWorld for language-based world models, Grouped Query Experts for efficient attention, NatureBench for scientific coding agents, and MobileForge for annotation-free mobile GUI adaptation.

Hôm nay, danh sách paper được upvote nhiều nhất trên Hugging Face cho thấy một xu hướng rất rõ: AI đang chuyển từ “mô hình trả lời” sang “mô hình hành động” . Nhiều paper tập trung vào agent, môi trường mô phỏng, GUI/mobile interaction, benchmark đánh giá năng lực tác vụ thực tế, cùng với các hướng cải thiện hiệu quả suy luận và mở rộng foundation model sang sinh học. Dưới đây là phần tổng hợp theo 4 góc nhìn cho mỗi paper: bài toán , ý tưởng , điểm mới , và ứng dụng thực tế . Bài toán: Agent hiện nay thường yếu ở khả năng lập kế hoạch dài hạn vì thiếu một “mô hình thế giới” để dự đoán nếu làm hành động A thì môi trường sẽ chuyển sang trạng thái nào. Việc huấn luyện trực tiếp trên môi trường thật cũng tốn kém và chậm. Ý tưởng: Qwen-AgentWorld xây dựng world model bằng ngôn ngữ , tức dùng language model để mô phỏng diễn tiến của môi trường, trạng thái, phản hồi và kết quả hành động. Agent có thể “tập dượt” trong môi trường mô phỏng này trước khi ra quyết định thật. Điểm mới: Điểm đáng chú ý là tác giả dùng language-based environment simulation cho nhiều domain khác nhau, thay vì chỉ cho một game hay một tác vụ đơn lẻ. Cách này kết hợp dự đoán trạng thái kế tiếp, reasoning theo chuỗi dài, và reinforcement learning để cải thiện policy của agent. Ứng dụng thực tế: Rất phù hợp cho các general-purpose agent : trợ lý phần mềm, agent web, agent doanh nghiệp, hay robot software cần thử nghiệm chiến lược an toàn trước khi chạy thật. Bài toán: Self-attention ngày càng đắt đỏ khi model lớn hơn. GQA giúp giảm chi phí KV cache, nhưng vẫn chưa tận dụng được khả năng chuyên môn hóa như Mixture-of-Experts. Ý tưởng: Paper này đưa ra Grouped Query Experts GQE : thay vì tất cả query heads cùng hoạt động, model dùng router để chọn một nhóm query-head experts phù hợp theo từng token . Điểm mới: Cái hay là tác giả giữ lại lợi ích của Grouped-Query Attention về hiệu quả bộ nhớ và cache, nhưng thêm cơ chế chuyên gia giống MoE ở phần query. Đây là một thiết kế khá “sạch”: tăng năng lực biểu diễn mà không phải trả toàn bộ chi phí của dense attention. Ứng dụng thực tế: Có giá trị lớn cho LLM suy luận dài ngữ cảnh , inference tiết kiệm chi phí, và các hệ thống phục vụ model ở quy mô lớn nơi latency và memory là yếu tố sống còn. Bài toán: Nhiều benchmark coding hiện chỉ đo xem agent có viết được code đúng không, nhưng không trả lời câu hỏi khó hơn: agent có tái tạo hoặc đạt trình độ khám phá khoa học như các paper top-tier không? Ý tưởng: NatureBench xây dựng một benchmark gồm 90 tác vụ khoa học liên ngành xuất phát từ các bài báo thuộc hệ Nature. Thay vì các bài toán toy, đây là các nhiệm vụ gần với nghiên cứu thật. Điểm mới: Điểm mới quan trọng là benchmark không chỉ đo reproduction , mà hướng tới đánh giá năng lực discovery-oriented coding agents . Kết quả cho thấy phần lớn agent hiện mới giỏi “dịch phương pháp thành code”, chưa thực sự sáng tạo khoa học. Ứng dụng thực tế: Paper này hữu ích cho các nhóm xây dựng AI scientist , coding agent hỗ trợ R&D, và các tổ chức muốn đo xem agent đã đủ tin cậy để tham gia pipeline nghiên cứu hay chưa. Bài toán: Mobile GUI agent thường cần nhiều dữ liệu gán nhãn đắt đỏ để thích nghi với app mới, trong khi giao diện di động thay đổi liên tục. Ý tưởng: MobileForge đề xuất cách annotation-free adaptation , tức cho agent học thích nghi mà không cần gán nhãn thủ công. Hệ thống khai thác tương tác thật với app và tối ưu policy bằng hierarchical feedback-guided policy optimization . Điểm mới: Thay vì phụ thuộc vào dataset có nhãn, paper tận dụng feedback phân cấp để cải thiện dần hành vi của agent. Đây là hướng rất thực dụng vì mobile ecosystem thay đổi quá nhanh để con người luôn kịp annotate. Ứng dụng thực tế: Phù hợp cho trợ lý thao tác điện thoại, tự động hóa app testing, hỗ trợ người dùng khuyết tật, và agent thực hiện các workflow như đặt xe, chuyển tiền, mua sắm, điền biểu mẫu. Bài toán: Mobile agent thường thất bại ở tác vụ dài vì quên ngữ cảnh : trước đó đã bấm gì, thông tin nào quan trọng, màn hình nào đã đi qua. Ý tưởng: MemGUI-Agent đưa ra cơ chế proactive context management với khái niệm Context-as-Action ConAct . Tức là việc quản lý bộ nhớ/ngữ cảnh được xem như một loại hành động chủ động của agent. Điểm mới: Thay vì nhồi toàn bộ lịch sử vào prompt, mô hình dùng các trường ngữ cảnh có cấu trúc như folded action history, folded UI state, recent step record. Đây là một cách tiếp cận gọn hơn và phù hợp với tác vụ nhiều bước. Ứng dụng thực tế: Rất hữu ích cho các tác vụ mobile dài hơi như đặt vé máy bay, xử lý khiếu nại, đăng ký dịch vụ, hoặc các workflow đòi hỏi chuyển qua nhiều màn hình và nhớ thông tin từ đầu đến cuối. Bài toán: Hiện nay phần lớn agent chạy “trên” hệ điều hành chứ chưa được coi là thực thể hạng nhất trong OS. Điều này gây hạn chế về hiệu năng, cá nhân hóa, và đặc biệt là bảo mật. Ý tưởng: AOHP xây dựng một framework ở mức hệ điều hành Android , nơi agent được tích hợp như một thành phần gốc của OS thay vì lớp ứng dụng chắp vá bên trên. Điểm mới: Paper nhấn mạnh 3 điểm: personalized interaction , efficient agent interfaces , và secure information flow . Tức không chỉ làm agent mạnh hơn, mà còn làm nó an toàn và rẻ hơn khi vận hành. Ứng dụng thực tế: Đây là hướng rất tiềm năng cho agent-native OS trong điện thoại, xe hơi, thiết bị IoT, hay enterprise device management — nơi agent cần quyền truy cập sâu nhưng vẫn phải tuân thủ policy bảo mật. Bài toán: Thông thường LLM luôn dùng layer cuối để dự đoán token tiếp theo. Nhưng layer cuối không phải lúc nào cũng tốt nhất, đặc biệt khi alignment hoặc fine-tuning gây nhiễu cho reasoning gốc. Ý tưởng: Paper đề xuất Confident Layer Decoding : trong quá trình sinh, hệ thống động chọn layer trung gian đáng tin hơn dựa trên entropy-guided search. Điểm mới: Điểm mới nằm ở cách xem việc chọn layer như một optimal stopping problem . Thay vì mặc định “càng sâu càng tốt”, paper cho thấy đôi khi layer giữa cho tín hiệu tốt hơn, giúp giảm “alignment tax” mà không cần retrain nặng. Ứng dụng thực tế: Có giá trị ngay cho inference-time optimization trên các model reasoning, nhất là khi muốn tăng chất lượng trả lời toán, logic, khoa học mà không đổi kiến trúc hay tốn thêm quá nhiều compute. Bài toán: Dữ liệu sinh học tồn tại ở nhiều modality: sequence , structure , và natural language . Phần lớn model mới chỉ xử lý tốt một hoặc hai dạng, khiến tri thức bị phân mảnh. Ý tưởng: BioMatrix xây dựng một multimodal biological foundation model trong kiến trúc decoder-only thống nhất, đưa sequence, structure và text vào cùng một không gian token rời rạc. Điểm mới: Điểm mạnh là tư duy “ modality matrix ”: thay vì xem protein sequence, molecular structure và mô tả ngôn ngữ là ba thế giới tách rời, paper gom chúng vào chung một framework tiền huấn luyện liên tục. Ứng dụng thực tế: Rất đáng chú ý cho drug discovery , protein engineering, chú giải chức năng sinh học, và hệ thống hỏi-đáp khoa học có khả năng nối kiến thức ngôn ngữ với cấu trúc phân tử thực. Bài toán: Đánh giá LLM trong y tế tâm thần rất khó vì không chỉ cần chẩn đoán đúng, mà còn phải hỏi đúng, khai thác đúng, và tư vấn phù hợp trong đối thoại động . Ý tưởng: LingxiDiagBench xây dựng benchmark multi-agent cho tư vấn và chẩn đoán tâm thần bằng tiếng Trung , bám theo EMR và ICD-10. Điểm mới: Paper chỉ ra một phát hiện thú vị: chất lượng hội thoại không đồng nghĩa với độ chính xác chẩn đoán . Một model có thể nói chuyện trôi chảy nhưng vẫn suy luận lâm sàng kém. Ứng dụng thực tế: Dùng để đánh giá trợ lý y tế, hệ thống sàng lọc sức khỏe tâm thần, và các mô hình hội thoại chuyên ngành cần tuân thủ tiêu chuẩn lâm sàng thay vì chỉ “nói hay”. Bài toán: Computer-use agents học kỹ năng mới liên tục, nhưng trong môi trường động và có yếu tố đối kháng, việc tái sử dụng kỹ năng cũ có thể dẫn tới hành vi nguy hiểm hoặc sai ngữ cảnh. Ý tưởng: SkillHarness xây dựng framework để học, chọn, dùng và loại bỏ kỹ năng theo vòng đời, đồng thời gắn với các ràng buộc an toàn . Điểm mới: Paper không xem skill chỉ là một primitive để tái sử dụng, mà là một thực thể có biên an toàn , có thể tự cải thiện constraint và được giám sát từ nhiều nguồn tín hiệu khác nhau. Ứng dụng thực tế: Quan trọng cho agent thao tác máy tính trong doanh nghiệp: xử lý email, chỉnh sửa tài liệu, thao tác dashboard, hay vận hành back-office — nơi sai sót nhỏ cũng có thể gây rò rỉ dữ liệu hoặc thao tác ngoài quyền hạn. Hơn một nửa danh sách xoay quanh agent : world model, mobile GUI, OS-level harness, computer-use safety, coding-for-science benchmark. Điều này cho thấy cộng đồng đang chuyển từ “chatbot” sang “hệ thống có khả năng hành động”. NatureBench, LingxiDiagBench, MemGUI-Bench hay MobileWorld đều phản ánh nhu cầu đo năng lực AI trong môi trường phức tạp, nhiều bước, khó chuẩn hóa . GQE và Confident Layer Decoding đại diện cho hai hướng lớn: BioMatrix cho thấy foundation model không chỉ còn là text/image, mà đang đi sâu vào các miền khoa học có cấu trúc dữ liệu riêng và giá trị ứng dụng rất cao. Nếu phải tóm gọn bức tranh hôm nay trong một câu, thì đó là: AI đang học cách mô phỏng thế giới, hành động trong thế giới đó, và được đánh giá bằng các tiêu chuẩn ngày càng sát thực tế hơn . Trong 10 paper này, nổi bật nhất về tầm nhìn dài hạn có lẽ là Qwen-AgentWorld và AOHP , vì chúng chạm vào câu hỏi nền tảng: làm sao để agent có môi trường suy nghĩ và có “chỗ đứng” thật sự trong hệ điều hành. Về tính thực dụng gần hạn, MobileForge , MemGUI-Agent , SkillHarness , và Confident Layer Decoding có vẻ là những hướng dễ chuyển thành sản phẩm hơn. Còn về tác động khoa học, NatureBench và BioMatrix mở ra hai mặt trận rất đáng theo dõi: AI for science và foundation model cho sinh học. Nếu bạn muốn, ở bước tiếp theo mình có thể làm thêm một trong 3 dạng sau: