AI Agent là gì? Kiến trúc, cách hoạt động và phân cấp Level 0–4
Bài viết giải thích về AI Agent, kiến trúc cốt lõi, quy trình hoạt động và phân cấp hệ thống agentic từ Level 0 đến Level 4.
AI AGENT là gì?
- AI Agent có thể được định nghĩa là sự kết hợp giữa mô hình, các công cụ (tool), lớp điều phối (orchestration) và các dịch vụ runtime — tất cả vận hành mô hình ngôn ngữ (LM) theo vòng lặp để hoàn thành một mục tiêu.
- AI Agent có thể tự suy nghĩ và hành động để đạt được mục tiêu đặt ra.
Vậy AI Agent làm sao biết suy nghĩ, hành động?
Bộ não của AI Agent chính là LLM ( Mô hình ngôn ngữ lớn, ví dụ: GPT 4o, LLama, Gemini,… ), nó sẽ tận dụng sức mạnh của LLM để suy nghĩ và đưa hành động là sử dụng các Tool ( công cụ, ví dụ : tìm kiếm, tính toán, …)
Bộ não càng thông minh thì hệ thống AI Agent càng mạnh mẽ, thực tế khái niệm này đã có từ lâu, nhưng chỉ khi các model LLM thực sự mạnh mẽ thì Agent mới được phổ biến.
Bốn thành phần tạo nên kiến trúc cốt lõi của bất kỳ hệ thống autonomous:
- Model ( “Brain” ): Là language model (LM) hoặc foundation model cốt lõi đóng vai trò như bộ máy suy luận trung tâm của Agent để xử lý thông tin, đánh giá lựa chọn và đưa ra quyết định.
- Tools (“Hands”): Đây là các cơ chế kết nối khả năng suy luận của Agent với thế giới bên ngoài, cho phép thực thi các hành động vượt ra ngoài việc sinh văn bản. Chúng bao gồm API extensions, code functions và data stores (như databases hoặc vector stores) để truy cập thông tin thời gian thực và có tính chính xác. Một agentic system cho phép LM lập kế hoạch tool nào sẽ dùng, thực thi tool đó, và đưa kết quả của tool vào input context window của lần gọi LM tiếp theo.
- Orchestration Layer (“Nervous System - hệ thần kinh”): Là quy trình điều phối quản lý vòng vận hành của Agent. Nó xử lý việc lên kế hoạch, quản lý memory (state), và thi hành chiến lược reasoning. Layer này sử dụng các prompting frameworks và reasoning techniques (như Chain-of-Thought hoặc ReAct) để chia nhỏ mục tiêu phức tạp thành từng bước và quyết định khi nào nên “nghĩ” và khi nào nên “dùng tool”. Layer này cũng chịu trách nhiệm cung cấp memory để Agent có khả năng “ghi nhớ”.
- Deployment (“Body and Legs”): Mặc dù xây dựng một Agent trên laptop rất phù hợp cho việc prototyping, nhưng triển khai production mới là yếu tố biến nó thành một dịch vụ đáng tin cậy và dễ tiếp cận. Điều này bao gồm việc hosting Agent trên một server an toàn và có khả năng mở rộng, đồng thời tích hợp các dịch vụ production thiết yếu như monitoring, logging và management.
Developer truyền thống giống như một thợ xây gạch, xác định tường tận từng bước logic. Ngược lại, Agent developer giống như một đạo diễn: thay vì viết code tường minh cho từng hành động, bạn tạo bối cảnh (guiding instructions và prompts), chọn diễn viên (tools và APIs), và cung cấp context cần thiết (data). Nhiệm vụ chính trở thành việc dẫn dắt “diễn viên autonomous” này để tạo ra kết quả đúng như mong muốn.
Quy trình Giải quyết Vấn đề của Agent
Mô hình ngôn ngữ vận hành trong một vòng lặp cùng với các công cụ để hoàn thành mục tiêu.
Vòng lặp hoạt động cốt lõi của một Agent:
Về bản chất, một agent vận hành dựa trên một quy trình liên tục và tuần hoàn để đạt được mục tiêu. Mặc dù vòng lặp này có thể trở nên rất phức tạp, nó có thể được chia thành năm bước cơ bản:
Get the Mission (Nhận nhiệm vụ): Quy trình bắt đầu bằng một mục tiêu cấp cao, được cung cấp bởi người dùng hoặc từ một kích hoạt tự động.
Scan the Scene (Quan sát bối cảnh): Agent thu thập ngữ cảnh bằng cách truy cập các tài nguyên sẵn có của hệ thống—bao gồm yêu cầu người dùng, dữ liệu trong bộ nhớ và thông tin từ các công cụ như lịch, cơ sở dữ liệu hoặc API.
Think It Through (Suy nghĩ, lập kế hoạch): Agent phân tích nhiệm vụ kết hợp với bối cảnh, rồi lập ra một kế hoạch. Đây thường là một chuỗi lập luận thay vì một suy nghĩ đơn lẻ.
Take Action (Hành động): Lớp điều phối thực thi bước đầu tiên của kế hoạch bằng cách chọn và gọi công cụ phù hợp—API, hàm code hoặc truy vấn cơ sở dữ liệu.
Observe and Iterate (Quan sát và lặp lại): Agent quan sát kết quả của hành động, cập nhật vào ngữ cảnh hoặc bộ nhớ, rồi tiếp tục lặp lại quy trình từ bước lập kế hoạch.
Phân loại các Agentic System
Chúng ta có thể phân loại Agentic System thành một vài cấp độ, mỗi cấp độ được xây dựng dựa trên khả năng của cấp độ trước đó:
Level 0: The Core Reasoning System (Hệ thống Suy luận Cốt lõi)
Trước khi có thể có một Agent, chúng ta phải bắt đầu với “Brain- Bộ não” ở dạng cơ bản nhất của nó: chính là engine suy luận. Trong cấu hình này, một Language Model (LM) hoạt động biệt lập, chỉ phản hồi dựa trên kiến thức được đào tạo sẵn khổng lồ của nó mà không có bất kỳ Tools, Memory, hay tương tác nào với môi trường thực tế.
Điểm mạnh của nó nằm ở việc đào tạo rộng lớn này, cho phép nó giải thích các khái niệm đã được thiết lập và lập kế hoạch cách tiếp cận giải quyết vấn đề với độ sâu lớn. Đánh đổi là việc thiếu hoàn toàn nhận thức thời gian thực; nó hoàn toàn “mù” với bất kỳ sự kiện hoặc thông tin nào bên ngoài dữ liệu đào tạo của nó.
Ví dụ, nó có thể giải thích các quy tắc của bóng đá chuyên nghiệp hay toàn bộ lịch sử của đội Barcelona. Nhưng nếu bạn hỏi, “Tỷ số cuối cùng của trận đấu Barcelona đêm qua là bao nhiêu?”, nó sẽ không thể trả lời. Trận đấu đó là một sự kiện cụ thể, có thật, xảy ra sau khi dữ liệu đào tạo của nó được thu thập, vì vậy thông tin đơn giản là không tồn tại trong kiến thức của nó.
Level 1: The Connected Problem-Solver (Bộ Giải Quyết Vấn Đề Được Kết Nối)
Ở cấp độ này, engine suy luận trở thành một functional Agent bằng cách kết nối và sử dụng các external tools - thành phần “Hands” (Đôi tay) của kiến trúc chúng ta. Việc giải quyết vấn đề của nó không còn bị giới hạn trong kiến thức tĩnh, được đào tạo sẵn của nó.
Sử dụng vòng lặp 5 bước, Agent giờ đây có thể trả lời câu hỏi trước đó. Với Mission: “Tỷ số cuối cùng của trận đấu Barcelona đêm qua là bao nhiêu?”, bước Scan the Scene xác định đây là thông tin không có sẵn trong ngữ cảnh. Trong bước Think, Agent nhận ra cần truy cập dữ liệu thời gian thực. Đến bước Act, nó gọi một Tool như Google Search API với truy vấn phù hợp. Ở bước Observe, Agent quan sát kết quả (ví dụ: “Barcelona thắng 3–1”) và sau đó Synthesize (tổng hợp) để tạo ra câu trả lời cuối cùng cho người dùng.
Khả năng cơ bản này để tương tác với thế giới - cho dù sử dụng công cụ tìm kiếm cho tỷ số, một API tài chính cho giá cổ phiếu trực tiếp, hay cơ sở dữ liệu thông qua Retrieval-Augmented Generation (RAG) - là khả năng cốt lõi của một Agent Level 1.
Level 2: The Strategic Problem-Solver (Bộ Giải Quyết Vấn Đề Chiến Lược)
Level 2 đánh dấu một sự mở rộng đáng kể về khả năng, chuyển từ thực hiện các tác vụ đơn giản sang lập kế hoạch chiến lược cho các mục tiêu phức tạp, nhiều phần. Kỹ năng quan trọng xuất hiện ở đây là context engineering: khả năng của Agent để chủ động chọn lọc, đóng gói và quản lý thông tin liên quan nhất cho mỗi bước trong kế hoạch của nó.
Độ chính xác của Agent phụ thuộc vào một context tập trung, chất lượng cao. Context engineering quản lý sự chú ý (attention) hạn chế của Model để ngăn chặn quá tải và đảm bảo hiệu suất hiệu quả.
Ví dụ Agent Level 2: tìm quán xem bóng đá ở HCM
Ví dụ, hãy xem xét “Mission”: “Tìm một quán xem bóng đá Ở HCM cho 50 người cho buổi buổi offline xem trận Barcelona và Real Madrid sắp tới”
Kế hoạch của Agent Level 2
1. Think: “Để chọn quán phù hợp, mình cần biết trận Barcelona – Real Madrid diễn ra lúc mấy giờ.”
Act: Gọi web_search tool với truy vấn: query = “Barcelona vs Real Madrid next match time”
Observe: “Trận đấu diễn ra lúc 02:00 AM ngày 29/12.”
2. Think: “Vì trận đấu diễn ra lúc 2 giờ sáng, mình cần tìm những quán ở TP.HCM: - mở cửa đến khuya hoặc 24/7, - có máy chiếu/màn hình lớn, - chứa được ít nhất 50 người, - đánh giá từ 4 sao trở lên.”
- Act: Gọi google_places với truy vấn:
- query = “quán xem bóng đá mở cửa khuya chứa 50 người ở TP.HCM, có máy chiếu”
- filter: min_rating = 4.0, open_at = “02:00”
(Đây là context engineering — agent tự động lấy giờ trận đấu để lọc các quán mở cửa đúng thời điểm.)
Observe: “Kết quả trả về:
- GOAT Coffee — mở của từ 10:07 PM đến 06:50 AM
- Vấp cỏ Cafe — mở cửa 24/7
- Đêm Không VAR — mở cửa 24/7
(kèm chi tiết quán, địa chỉ nhé) —
3. Think: “Mình sẽ tổng hợp kết quả và gửi lại danh sách quán phù hợp cho user.”
Level 3: The Collaborative Multi-Agent System (Hệ thống Đa Agent Cộng tác)
Ở cấp độ cao nhất, mô hình thay đổi hoàn toàn. Chúng ta không còn xây dựng một super-agent (siêu Agent) đơn lẻ, toàn năng mà chuyển sang mô hình “nhóm các chuyên gia” làm việc phối hợp với nhau, một mô hình phản ánh trực tiếp một tổ chức con người. Sức mạnh tập thể của hệ thống nằm ở sự phân chia công việc này.
Ở đây, các Agent đối xử với các Agent khác như tools.”
Agent Project Manager không tự mình thực hiện toàn bộ công việc. Nó Acts (Hành động) bằng cách tạo ra các Mission mới cho nhóm các Agent chuyên biệt của mình, giống như cách hoạt động trong đời thực:
Hãy xem ví dụ dưới đây:
Scenario:
“Bạn muốn tổ chức một buổi xem lễ mừng công Argentina vô địch World Cup 2022 tại một quán cafe ở TP.HCM với 40 người.”
Ở cấp độ cao nhất, Manager Agent không tự làm tất cả, mà chia nhỏ nhiệm vụ và giao cho các Agent chuyên biệt — giống như cách hoạt động trong thực tế.
Mission: “Tổ chức sự kiện xem lễ mừng công Argentina 2022 tại TP.HCM cho 40 người”
1. VenueAndBudgetAgent (Agent Tìm địa điểm)
- Task: “Tìm quán cafe ở TP.HCM có máy chiếu, sức chứa tối thiểu 40 người, mở cửa tối ngày X ”
- Tools: Google Places, Web Search
- Output: Danh sách 3 quán phù hợp .
2. CreativeAgent (Agent Sáng tạo nội dung)
- Task: “Tạo poster sự kiện, mô tả chương trình và nội dung bài đăng mạng xã hội
với chủ đề: Argentina – Champions Celebration Viewing Party.” - Tools: Image generator hoặc Canva API
- Output: Poster PNG + bản mô tả sự kiện.
3. CoordinatorAgent (Agent Điều phối & Liên lạc)
- Task: “Thêm sự kiện vào calendar của user, gửi email mời bạn bè kèm poster,
và tạo checklist chuẩn bị cho ngày diễn ra.” - Tools: Calendar API, Gmail API
- Output: Event trên calendar, email đã gửi, checklist.
ManagerAgent chỉ làm nhiệm vụ nhận Mission → phân công → tổng hợp kết quả,
còn các Agent còn lại Act như các công cụ tự động hoá: tìm kiếm, tạo file, gửi email, lập lịch,…
Toàn bộ mô hình này mô phỏng cách một tổ chức thực tế vận hành:
mỗi Agent làm đúng chuyên môn của mình, còn ManagerAgent giữ vai trò điều phối, tổng hợp, và đảm bảo mọi thứ diễn ra trơn tru.
Mô hình cộng tác này, mặc dù hiện tại bị hạn chế bởi các giới hạn suy luận của các LM hiện nay, nhưng đại diện cho ranh giới của việc tự động hóa toàn bộ các quy trình nghiệp vụ phức tạp, từ đầu đến cuối.
Level 4: The Self-Evolving System (Hệ thống Tự Phát Triển)
Level 4 đánh dấu một bước nhảy vọt sâu sắc từ việc giao phó sang việc sáng tạo và thích ứng (adaptation) tự động. Ở cấp độ này, một Agentic system có thể tự xác định những lỗ hổng trong khả năng của chính nó và chủ động tạo ra các tools mới hoặc thậm chí là các Agent mới để lấp đầy chúng. Nó chuyển từ việc sử dụng một bộ tài nguyên cố định sang việc chủ động mở rộng chúng.
Hiểu đơn giản : Tự tạo thêm Agent & Tools mới khi thiếu khả năng
Tiếp tục ví dụ của chúng ta ở level 3
CoordinatorAgent nhận nhiệm vụ gửi email mời 40 người → Phát hiện: “Không có agent nào xử lý RSVP tự động.”
Nó sẽ tự tạo:
RSVPTrackingAgent: Theo dõi phản hồi email, tự động cập nhật số người tham dự, báo cáo cho ManagerAgent
Mức độ tự chủ này, nơi một hệ thống có thể tự động mở rộng khả năng của chính nó, biến một nhóm các Agent thành một tổ chức thực sự học hỏi và phát triển.
