AI Agents: Làn sóng Tự động hóa Tiếp theo (P2)
Giới thiệu
Chào mừng các bạn trở lại với phần tiếp theo của hành trình tìm hiểu về AI Agents
!
Ở Phần 1, chúng ta đã cùng nhau làm quen với những khái niệm cốt lõi: từ việc định nghĩa AI Agent là gì, phân biệt chúng rõ ràng với các AI assistants quen thuộc, cho đến việc nhìn lại chặng đường "tiến hóa" đầy ấn tượng của chúng qua các thập kỷ. Chúng ta cũng đã tìm hiểu về các loại AI Agent phổ biến, qua đó hiểu được sự đa dạng trong cách chúng nhận thức, ra quyết định và hành động.
Với nền tảng kiến thức đó, Phần 2 của bài viết sẽ đưa chúng ta đi sâu hơn vào "bên trong" của AI Agents
hiện đại. Chúng ta sẽ "mổ xẻ" kiến trúc kỹ thuật chi tiết, khám phá cách các Large Language Models (LLMs) đóng vai trò trung tâm, cùng với các thành phần quan trọng như memory
, planning
, và đặc biệt là tool use
(khả năng sử dụng công cụ) – những yếu tố then chốt giúp agent tương tác và thực thi nhiệm vụ trong thế giới thực.
Tiếp đó, chúng ta sẽ thẳng thắn nhìn nhận những thách thức không nhỏ, cả về mặt kỹ thuật lẫn các cân nhắc đạo đức, trong việc phát triển và triển khai AI Agents
. Cuối cùng, một bức tranh về triển vọng tương lai sẽ được phác họa, nơi chúng ta cùng dự đoán tương lai của AI Agents hay những tác động mạnh mẽ mà công nghệ này hứa hẹn mang lại, đặc biệt là với web developers
chúng ta.
Bài này sẽ gồm 3 mục cuối:
IV. Kiến trúc Kỹ thuật: Cách
agents
hoạt động bên trong, bao gồm các công nghệ chính,memory
,planning
, vàtool use
...
V. Thách thức: Những trở ngại và cân nhắc đạo đức trong việc phát triển vàdeployment
agents
.
VI. Triển vọng Tương lai: Công nghệ này đang hướng tới đâu và tác động tiềm năng của nó.
IV. Kiến trúc Kỹ thuật
Hiểu cách AI agents
hoạt động đòi hỏi phải xem xét kiến trúc kỹ thuật của chúng – các công nghệ cơ bản và cách các thành phần tương tác trong chu trình hoạt động.
a. Vòng lặp Agent: Sense -> Think -> Act -> Learn
Ở cấp độ cao, agents
hoạt động trong một vòng lặp liên tục:
Sense
(Perception
- Nhận thức):Agent
thu thập dữ liệu về môi trường của nó bằng nhiều đầu vào khác nhau –APIs
, lệnh văn bản/giọng nói của người dùng, phân tích nội dung trang web (DOM
,visuals
), dữ liệusensor
(đối vớiphysical agents
), v.v. Đây là dữ liệu thô này cần được xử lý.Think
(Reasoning
&Planning
- Suy luận & Lập kế hoạch): Đây là giai đoạn ra quyết định cốt lõi.Agent
xử lý thông tin nhận thức được, truy cập cơ sở tri thức vàmemory
của nó, suy luận về tình huống liên quan đến mục tiêu của nó, và lập kế hoạch (các) hành động tiếp theo. Điều này thường liên quan đến việc chia nhỏ các tác vụ phức tạp thành các bước nhỏ hơn, dễ quản lý hơn.Act
(Execution
- Thực thi):Agent
thực thi hành động đã chọn, tương tác với môi trường của nó. Điều này có thể có nghĩa là gọi mộtAPI
bên ngoài, thực thicode
, thao tácbrowser
, tạo văn bản, hoặc điều khiển phần cứng.Learn
(Adaptation
- Thích ứng):Agent
quan sát kết quả hành động của mình và sử dụng phản hồi (tường minh hoặc ngầm định) để cập nhật các model nội bộ, kiến thức, hoặc chiến lược của mình, cải thiện hiệu suất trong tương lai.
b. Các Công nghệ Chính Cho phép
Một số công nghệ chính hội tụ để làm cho AI agents
hiện đại trở nên khả thi:
Large Language Models
(LLMs
): Thường tạo thành "bộ não" củaagent
, cung cấp các khả năng mạnh mẽ trong việc hiểu ngôn ngữ tự nhiên, suy luận, và thậm chí lập kế hoạch (ví dụ: thông qua các kỹ thuật nhưChain of Thought
hoặcReAct
).Machine Learning
&Deep Learning
: Được sử dụng rộng rãi để nhận dạng mẫu, dự đoán, phân loại, và cho phép thành phần học hỏi (đặc biệt là học tăng cường (Reinforcement Learning
).Natural Language Processing
(NLP
): Quan trọng cho lớp nhận thức (perception
) (hiểu yêu cầu người dùng, phân tích văn bản) và lớpaction
(tạo phản hồi mà con người có thể đọc được).AI Planning Techniques
: Các thuật toán nhưMarkov Decision Processes
hoặc các thuật toán tìm kiếm giúpagents
đưa ra quyết định trong điều kiện không chắc chắn và lập kế hoạch chuỗi hành động.APIs
vàTool Integration
: Các cách tiêu chuẩn hóa đểagents
tương tác với phần mềm bên ngoài,databases
,web services
, và phần cứng là điều cần thiết để mở rộng khả năng của chúng vượt ra ngoàimodel
cốt lõi.
c. Các Thành phần Kiến trúc Cốt lõi
Hãy xem xét một số thành phần chức năng quan trọng trong kiến trúc agent
:
Prompt Engineering
&Context Management
: Mặc dù người dùng cung cấp mục tiêu ban đầu,agent
thường tạo ra cácprompts
nội bộ để hướng dẫn suy luận của chính nó hoặc tương tác vớiLLM
cốt lõi hoặc cáctools
của nó. Việc quản lý hiệu quảcontext
(thông tin có sẵn choagent
ở mỗi bước – mục tiêu, kế hoạch, lịch sử, đầu ratool
, nội dungmemory
) là rất quan trọng để hoạt động mạch lạc và hiệu quả.Planning
vàReasoning
: Điều này liên quan đến chia một mục tiêu lớn thành các bước nhỏ hơn.Agent
cần suy luận về chuỗi hành động tốt nhất, có khả năng sử dụng khả năng suy luận củaLLM
hoặc các thuật toánplanning
chuyên dụng. Nó cũng phải có khả năng suy nghĩ (reflect
) về tiến độ và lập kế hoạch lại nếu cần thiết.Memory Systems
&Knowledge Retrieval
: Đây là yếu tố khác biệt chính choagents
. Không giống nhưcontext window
hạn chế, tạm thời của mộtLLM
tiêu chuẩn,memory
củaagent
giúp nó có thể "nhớ lâu dài".Short-Term/Working Memory
: Giữcontext
tức thời cho tác vụ hiện tại. (mở tab mới sẽ mất)Long-Term Memory
: Lưu trữ thông tin qua cácsessions
– sở thích người dùng, thành công/thất bại trong quá khứ, sự kiện đã học. Điều này cho phép sự thích ứng và cá nhân hóa thực sự.Vector databases
thường được sử dụng để truy xuất cácmemories
liên quan.Memory
vs.RAG
:Retrieval-Augmented Generation
(RAG
) tìm nạp kiến thức bên ngoài (như tài liệu) để cung cấp thông tin cho phản hồi.Memory
cung cấp tính liên tục dựa trên kinh nghiệm của chínhagent
. Chúng bổ sung cho nhau:RAG
cung cấp sự kiện,Memory
cung cấpcontext
và học hỏi.
Tool
vàMCP
:Agents
có được sức mạnh bằng cách sử dụng cáctools
bên ngoài. Đây có thể là bất cứ thứ gì từ một máy tính đơn giản hoặcAPI
đến các hành động phức tạp như thực thicode
, tìm kiếm trên web, tương tác vớidatabases
, hoặc điều khiểnweb browser
.Agent
cần quyết định khi nào sử dụngtool
,tool
nào để sử dụng, và cách diễn giải đầu ra của nó.
d. Ví dụ ứng dụng thực tế: Browser Automation cho Testing
Đối với các web developers
, một trong những ứng dụng hữu hình nhất của AI agents
là trong UI test automation
. Theo truyền thống, điều này liên quan đến việc viết các scripts
chi tiết bằng cách sử dụng các frameworks
như Selenium
hoặc Playwright
, chỉ định các locators
phần tử và tương tác chính xác.
AI agents
cung cấp một cách tiếp cận khác:
- Chuyển từ
Scripting
sangPrompting
: Thay vì viếtdriver.findElement(By.id("login-button")).click();
, bạn có thể hướng dẫnagent
: "Click vào nút đăng nhập," hoặc thậm chí mô tả toàn bộ luồng người dùng: "Đăng nhập bằng tên người dùng 'testuser' và mật khẩu 'password123', sau đó điều hướng đến trang hồ sơ và xác minh địa chỉ email là 'testuser@example.com'." AI
Dịch Ý định:Agent
sử dụng nhận thức (perception
) của nó (phân tích trang web hiện tạiDOM
và có thể cả bố cục trực quan) vàreasoning
(hiểuprompt
) để xác định cácelements
chính xác và thực hiện các hành động cần thiết (click, nhập liệu, điều hướng,...).- Tác động đến Vai trò:
- Khả năng Tiếp cận: Giảm rào cản cho việc tạo
tests
, có khả năng cho phépmanual QA
hoặc các thành viên khác trong nhóm tham gia. - Sự Thay đổi Vai trò của Developer: Đối với các
developers
tham gia vàotesting
, trọng tâm chuyển từscripting
phức tạp sang:- Hướng dẫn
AI
: Tạo cácprompts
rõ ràng và hiệu quả. - Đặt Ranh giới: Xác định phạm vi hành động của
agent
. - Diễn giải Kết quả:
Debugging
các thất bại, có thể xuất phát từ sự diễn giải củaAI
, bản thân ứng dụng, hoặc cácelements
không ổn định. - Tư duy Chiến lược: Tập trung hơn vào chiến lược
test
, độ bao phủ (coverage
), và biết khi nàoscripting
truyền thống vẫn có thể tốt hơn.
- Hướng dẫn
- Khả năng Tiếp cận: Giảm rào cản cho việc tạo
- Lợi ích Tiềm năng: Có thể tăng tốc độ tạo
test
cho cácworkflows
phổ biến, tạo điều kiện hợp tác (cáctests
được mô tả bằng ngôn ngữ tự nhiên), và cho phépdevelopers
tập trung vào các thách thứctesting
phức tạp hơn hoặc các nhiệm vụdevelopment
. Ngoài ra, nếu bạn phát triển AI Agent liên quan đến code generation thì sau khi AI generation xong tính năng bạn có thể báo nó chạy test luôn để đảm bảo tính năng generation chạy đúng.
V. Thách thức và Cân nhắc
Mặc dù AI agents
mang lại những khả năng thú vị, việc phát triển và deployment
của chúng đi kèm với những thách thức đáng kể cần được xem xét cẩn thận:
- Thiên vị Dữ liệu:
Agents
học từ dữ liệu, và nếu dữ liệu đó phản ánh các thành kiến xã hội,agent
có thể vô tình duy trì hoặc thậm chí khuếch đại sự bất công trong các lĩnh vực như tuyển dụng, kiểm duyệt nội dung, hoặc đề xuất. - Đạo đức: Khi
agents
trở nên tự chủ hơn, các câu hỏi đạo đức phức tạp nảy sinh liên quan đến việc ra quyết định của chúng, tác động xã hội tiềm ẩn (ví dụ: mất việc làm doautomation
, lạm dụng trong giám sát hoặc chiến tranh) - Rủi ro Bảo mật:
Agents
có thể là mục tiêu. Điều này bao gồm đánh cắp dữ liệutraining
hoặc dữ liệu tương tác người dùng, đánh lừaagent
bằng các input bị thao túng. - Độ Tin cậy và Tính Nhất quán: Hành vi của các
agents
phức tạp, đặc biệt là nhữngagents
liên quan đếnLLMs
, đôi khi có thể không xác định hoặc không thể đoán trước, dẫn đến kết quả không nhất quán hoặc thất bại bất ngờ. - Chi phí và Tài nguyên: Việc phát triển,
training
, và chạy cácAI agents
tinh vi có thể tốn kém về mặt tính toán và đòi hỏi tài nguyên và chuyên môn đáng kể. - Độ phức tạp Tích hợp: Việc tích hợp
agents
một cách trơn tru vào các hệ thống vàworkflows
phức tạp hiện có có thể là một thách thức kỹ thuật.
Giải quyết những thách thức này đòi hỏi một cách tiếp cận đa diện bao gồm thiết kế cẩn thận, testing
nghiêm ngặt, giám sát đạo đức, bảo mật mạnh mẽ, và nghiên cứu liên tục.
VI. Triển vọng Tương lai
Lĩnh vực AI agents
đang phát triển nhanh chóng, hướng tới các hệ thống với khả năng ngày càng tinh vi và tích hợp sâu hơn vào cuộc sống số của chúng ta:
- Nâng cao Năng lực: Mong đợi các
agents
với khả năng suy luận mạnh mẽ hơn (lập kế hoạch đa bước tốt hơn), khả năng suy nghĩ (reflection
) được cải thiện (học hỏi từ các hành động trong quá khứ hiệu quả hơn), và các hệ thốngmemory
tiên tiến hơn cung cấp tính liên tục thực sự. Sự phối hợp giữa hiểu ngôn ngữ và thực thi hành động (Large Action Models
-LAMs
) sẽ trở nên chặt chẽ hơn, cho phépagents
xử lý các tác vụ thế giới thực phức tạp một cách liền mạch hơn. - Tăng cường Tự chủ: Xu hướng là hướng tới các
agents
tự định hướng hơn có thể ước tính, lập kế hoạch, và thực thi các tác vụ với ít sự hướng dẫn của con người hơn, hoạt động giống như những người cộng tác chủ động hơn. Multi-Agent Systems
: Chúng ta có thể sẽ thấy nhiều hệ thống phức tạp hơn nơi nhiềuagents
hợp tác hoặc cạnh tranh để giải quyết các vấn đề, giải quyết các nhiệm vụ vượt quá phạm vi của bất kỳagent
đơn lẻ nào.- Tích hợp
Workflow
Sâu hơn:Agents
sẵn sàng trở thành các thành phần cơ bản của chuyển đổi số, tự động hóa các quy trình kinh doanh phức tạp và có khả năng hoạt động như những đồng nghiệp ảo cùng với con người.
Lời khuyên cho Web Developers:
- Làm thế nào để chuẩn bị cho sự thay đổi này? (Học về LLMs, prompt engineering, các frameworks agent).
- Tập trung vào các kỹ năng mà AI khó thay thế (sáng tạo, tư duy phản biện, giải quyết vấn đề phức tạp ở mức độ cao,...).
- Xem AI agents như một công cụ mạnh mẽ để nâng cao năng suất và khả năng, chứ không chỉ là một mối đe dọa.
Kết luận
Chúng ta đã đi qua bức tranh toàn cảnh của AI agents
, vượt ra ngoài các scripts
và assistants
đơn giản để hiểu các hệ thống tự chủ, hướng tới mục tiêu này. Chúng ta đã thấy cách chúng nhận thức, suy luận, hành động, và học hỏi, được hỗ trợ bởi các công nghệ như LLMs
và machine learning
. Chúng ta đã khám phá kiến trúc của chúng, vai trò quan trọng của memory
và tool use
.
Những điểm chính cần nhớ sau 2 phần bao gồm:
AI agents
đại diện cho một bước tiến tớiAI
tự chủ hơn, có khả năng lập kế hoạch và thực thi độc lập.- Cốt lõi của chúng nằm ở chu trình
Sense-Think-Act-Learn
, được kích hoạt bởi các thành phần nhưperception
,reasoning
,action execution
, và các cơ chếlearning
. Memory
vàTool Use
là những yếu tố khác biệt quan trọng, cho phépagents
duy trìcontext
và tương tác với thế giới bên ngoài.- Chúng mang lại lợi ích tiềm năng trong các lĩnh vực như
automation
(ví dụ:testing
) nhưng cũng đặt ra những thách thức đáng kể liên quan đếnbias
, đạo đức và bảo mật. - Tương lai hướng tới các
agents
có năng lực hơn, tích hợp hơn, và tự chủ hơn hoạt động như những người cộng tác trong các lĩnh vực khác nhau.
Với vai trò là web developers
, việc hiểu các khái niệm này ngày càng trở nên quan trọng. Mặc dù agents
sẽ không thay thế các kỹ năng development
cốt lõi ngay lập tức, chúng đại diện cho các tools
mạnh mẽ và một bối cảnh đang thay đổi trong automation
và thậm chí có thể là cách chúng ta tương tác với các hệ thống phức tạp trong tương lai.
Cảm ơn bạn đã đọc !
Tài liệu tham khảo
(Nguồn: Medium - Abby - https://sen-abby.medium.com/ai-agents-technical-overview-architecture-and-implementation-8811df690565)
(Nguồn: aqua cloud - https://aqua-cloud.io/browser-based-ai-operators/)
(Nguồn: SmythOS - https://smythos.com/ai-agents/ai-agent-development/challenges-in-ai-agent-development/)
(Nguồn: Forbes Technology Council - https://www.forbes.com/councils/forbestechcouncil/2025/01/02/ai-agents-the-next-frontier-in-intelligent-automation/)
All Rights Reserved