# Top AI Papers on Hugging Face - 2026-07-04

> Source: <https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-07-04-4lnm>
> Published: 2026-07-04 12:01:21+00:00

Hôm nay, danh sách paper được cộng đồng Hugging Face upvote cao nhất cho thấy một bức tranh khá rõ về hướng đi của AI hiện tại: **agent tự trị**, **benchmark/evaluation sát thực tế hơn**, **tối ưu hạ tầng suy luận**, và **các cách biểu diễn mới ngoài fine-tuning truyền thống**.

Trong bài viết này, mình sẽ tóm tắt 10 paper theo 4 góc nhìn cho mỗi bài:

Nhiều tác vụ AI không dễ mô tả bằng code cứng, nhưng cũng không đáng để fine-tune cả một mô hình lớn. Ta muốn một cách “lập trình” các hàm mờ (fuzzy functions) bằng ngôn ngữ tự nhiên, rồi chạy cục bộ với chi phí thấp.

Paper đề xuất mô hình **Program-as-Weights**: thay vì viết chương trình dạng text hoặc tinh chỉnh toàn bộ model, hệ thống dùng một **compiler model 4B** để biên dịch đặc tả ngôn ngữ tự nhiên thành một **neural artifact** nhỏ gọn. Sau đó một **interpreter model 0.6B** cố định sẽ thực thi artifact này.

Nói đơn giản: “code” không còn là Python hay prompt dài, mà là **trọng số/chương trình nén dưới dạng tham số**.

Điểm mới lớn nhất là coi **weights như chương trình**. Cách này khác với:

Paper còn giới thiệu benchmark **FuzzyBench** để đo khả năng biểu diễn các hàm mờ.

Agent tự trị không chỉ cần ra quyết định trong một lượt, mà còn phải **tự cải tiến policy** qua nhiều vòng. Nhưng hiện chưa có nhiều benchmark đánh giá việc agent tự sửa luật hành động của chính mình trong môi trường tương tác.

EvoPolicyGym tạo ra một testbed nơi agent có thể **chỉnh sửa executable policies** trong giới hạn ngân sách nhất định. Hệ thống theo dõi agent có biết tận dụng feedback từ môi trường để cải thiện policy theo thời gian hay không.

Thay vì chỉ đo reward cuối, paper đi sâu vào **trajectory-level diagnostics**: agent sửa gì, sửa lúc nào, hiệu quả ra sao. Kết quả cho thấy muốn policy tiến hóa tốt thì không chỉ cần model mạnh, mà còn cần:

Các agent dài hơi thường thất bại không phải vì suy luận yếu, mà vì **quản lý bộ nhớ kém**: quên mục tiêu, giữ thông tin thừa, hoặc lấy sai ký ức khi cần.

AgenticSTS dùng cách tiếp cận **bounded contract**: bộ nhớ được chia lớp, truy xuất bằng **typed retrieval**, rồi lắp ráp thành prompt mới cho từng bước ra quyết định. Nhờ vậy, nhóm tác giả có thể tách riêng và đo từng thành phần memory.

Điểm mạnh của paper là biến “memory” từ khái niệm mơ hồ thành thứ có thể **ablation** rõ ràng. Nó cho phép trả lời câu hỏi:

Benchmark được gắn với bài toán dài hơi như **Slay the Spire 2**, khá phù hợp để kiểm tra năng lực chiến lược.

Benchmark multimodal hiện nay thường cho điểm cao nhưng trải nghiệm thực tế lại chưa tốt. Có khoảng cách giữa **điểm benchmark** và **cảm nhận của con người**.

PerceptionRubrics đề xuất framework chấm điểm theo **rubric**, chia đánh giá thành các tiêu chí atomic, kết hợp **gated scoring** và cơ chế đồng thuận kiểu **peer-review** để tăng độ tin cậy.

Thay vì một con số tổng đơn giản, paper quan tâm đến các nhóm lỗi như:

Cách này làm lộ ra **Reliability Gap** — tức chênh lệch giữa hiệu năng đo bằng benchmark cũ và độ tin cậy trong sử dụng thật.

Transformer full attention rất mạnh nhưng đắt đỏ khi xử lý context dài. Linear attention rẻ hơn nhưng thường giảm chất lượng. Câu hỏi là: có thể kết hợp cả hai một cách tối ưu không?

Paper đưa ra **FlashMorph**, coi việc chọn layer nào dùng full attention, layer nào dùng linear attention là một **bài toán tối ưu dưới ràng buộc ngân sách**. Từ đó biến một Transformer thường thành **hybrid attention model**.

Thay vì thay toàn bộ kiến trúc theo cách cứng nhắc, FlashMorph chọn **một tập con layer** để giữ full attention. Đây là cách tiếp cận tinh hơn, phù hợp với trực giác rằng không phải tầng nào cũng cần năng lực attention mạnh như nhau.

Paper còn dùng **linearization regularization** và **logits distillation** để giữ chất lượng khi chuyển đổi.

Data agent đang là xu hướng lớn: AI hỗ trợ phân tích dữ liệu, làm sạch, trực quan hóa, báo cáo. Tuy nhiên benchmark cho data agent còn rời rạc và thiếu độ phủ kỹ năng.

AgenticDataBench xây một benchmark toàn diện cho **data science workflows**, bao phủ nhiều domain, có annotation chi tiết theo nhiệm vụ và kỹ năng.

Điểm mới là benchmark không chỉ gom task, mà còn đo **skill coverage** bằng cách phân cụm phân cấp theo kỹ năng. Nghĩa là ta biết model mạnh ở đâu:

Mô hình text-to-image kiểu diffusion/flow matching cho chất lượng tốt nhưng thường chậm, đặc biệt ở độ phân giải cao.

**MrFlow** tăng tốc bằng pipeline nhiều giai đoạn:

Điểm hay là phương pháp này **không cần train thêm** và không cần sửa runtime quá nhiều.

Nhiều cách tăng tốc diffusion đòi hỏi distillation hoặc retraining. MrFlow đi theo hướng **training-free**, tận dụng việc sinh ảnh thấp độ phân giải giúp giảm mạnh số token/tính toán.

Theo mô tả, phương pháp có thể đạt **speedup tới 25x**, rất ấn tượng nếu chất lượng được giữ ổn.

Với hệ thống serving MoE quy mô lớn, đặc biệt theo kiểu **prefill-decode disaggregated**, hiệu năng dễ bị nghẽn do routing không tối ưu, cache phân tán và expert locality kém.

ELDR xây một **decode router** biết tận dụng tính cục bộ của expert. Nó dự đoán expert nào có khả năng được kích hoạt, rồi điều hướng request đến nơi phù hợp để tận dụng cache và giảm overhead.

Điểm mới ở đây nằm ở tư duy hệ thống: không chỉ tối ưu model, mà tối ưu **đường đi của request** dựa trên **expert activation patterns**. Paper dùng các kỹ thuật như:

Nhiều model mạnh trên benchmark nhưng gặp khó khi xử lý **độ phức tạp đời thực**: kiến thức đuôi dài, chỉ dẫn mơ hồ, nhiệm vụ đa bước, và nhu cầu tìm kiếm/thị giác/suy luận kết hợp.

Seed2.0 được giới thiệu như một model hướng tới các tác vụ thực tế hơn, tập trung cải thiện:

Dù đây thiên về **model card** hơn là paper thuật toán thuần, giá trị nằm ở cách nhóm tác giả định khung đánh giá theo **nhu cầu người dùng thực** thay vì chỉ benchmark quen thuộc.

Trong multimodal reasoning, nhiều hệ thống dùng “continuous latent reasoning”, nhưng khi huấn luyện lại dễ gặp **train-inference mismatch**: lúc train thấy tín hiệu tốt hơn thực tế, dẫn đến leakage hoặc latent không ổn định.

Paper đề xuất **Asymmetric Mutual Variational Learning**, dùng cơ chế hiệu chỉnh hai chiều giữa posterior và prior để vừa tránh lộ đáp án, vừa giữ latent space ổn định hơn khi suy luận.

Đóng góp chính là cách kết hợp:

Điều này giúp giảm **answer leakage**, vốn là vấn đề tinh vi nhưng rất quan trọng khi huấn luyện mô hình reasoning latent.

Nhìn tổng thể, 10 paper này cho thấy 4 xu hướng rất rõ:

Các paper như **EvoPolicyGym**, **AgenticSTS**, **AgenticDataBench** đều tập trung vào agent dài hơi, có bộ nhớ, có khả năng tự chỉnh sửa và thao tác trong workflow thực.

**PerceptionRubrics** và **AgenticDataBench** nhấn mạnh rằng benchmark tốt phải phản ánh lỗi thật, kỹ năng thật và độ tin cậy khi dùng thật.

**FlashMorph**, **MrFlow**, **ELDR** đều giải quyết bài toán chi phí-vs-chất lượng ở tầng hệ thống: context dài, diffusion nhanh, serving MoE hiệu quả.

**Program-as-Weights** và paper về **continuous multimodal reasoning** cho thấy cộng đồng đang tìm các biểu diễn mới vượt khỏi prompt hoặc fine-tuning thông thường.

Nếu phải chọn các paper đáng theo dõi nhất về tác động dài hạn, mình sẽ ưu tiên:

Nếu bạn muốn, mình có thể viết tiếp **phần 2** với format sâu hơn: mỗi paper 1 mục riêng gồm **background, phương pháp, kết quả, nhận định cá nhân, và startup opportunities**.