+2

AI Agents: Làn sóng Tự động hóa Tiếp theo (P2)

Giới thiệu

Chào mừng các bạn trở lại với phần tiếp theo của hành trình tìm hiểu về AI Agents!

Phần 1, chúng ta đã cùng nhau làm quen với những khái niệm cốt lõi: từ việc định nghĩa AI Agent là gì, phân biệt chúng rõ ràng với các AI assistants quen thuộc, cho đến việc nhìn lại chặng đường "tiến hóa" đầy ấn tượng của chúng qua các thập kỷ. Chúng ta cũng đã tìm hiểu về các loại AI Agent phổ biến, qua đó hiểu được sự đa dạng trong cách chúng nhận thức, ra quyết định và hành động.

Với nền tảng kiến thức đó, Phần 2 của bài viết sẽ đưa chúng ta đi sâu hơn vào "bên trong" của AI Agents hiện đại. Chúng ta sẽ "mổ xẻ" kiến trúc kỹ thuật chi tiết, khám phá cách các Large Language Models (LLMs) đóng vai trò trung tâm, cùng với các thành phần quan trọng như memory , planning, và đặc biệt là tool use (khả năng sử dụng công cụ) – những yếu tố then chốt giúp agent tương tác và thực thi nhiệm vụ trong thế giới thực.

Tiếp đó, chúng ta sẽ thẳng thắn nhìn nhận những thách thức không nhỏ, cả về mặt kỹ thuật lẫn các cân nhắc đạo đức, trong việc phát triển và triển khai AI Agents. Cuối cùng, một bức tranh về triển vọng tương lai sẽ được phác họa, nơi chúng ta cùng dự đoán tương lai của AI Agents hay những tác động mạnh mẽ mà công nghệ này hứa hẹn mang lại, đặc biệt là với web developers chúng ta.

Bài này sẽ gồm 3 mục cuối:

IV. Kiến trúc Kỹ thuật: Cách agents hoạt động bên trong, bao gồm các công nghệ chính, memory, planning, và tool use...
V. Thách thức: Những trở ngại và cân nhắc đạo đức trong việc phát triển và deployment agents.
VI. Triển vọng Tương lai: Công nghệ này đang hướng tới đâu và tác động tiềm năng của nó.


IV. Kiến trúc Kỹ thuật

Hiểu cách AI agents hoạt động đòi hỏi phải xem xét kiến trúc kỹ thuật của chúng – các công nghệ cơ bản và cách các thành phần tương tác trong chu trình hoạt động.

a. Vòng lặp Agent: Sense -> Think -> Act -> Learn

Ở cấp độ cao, agents hoạt động trong một vòng lặp liên tục:

  1. Sense (Perception - Nhận thức): Agent thu thập dữ liệu về môi trường của nó bằng nhiều đầu vào khác nhau – APIs, lệnh văn bản/giọng nói của người dùng, phân tích nội dung trang web (DOM, visuals), dữ liệu sensor (đối với physical agents), v.v. Đây là dữ liệu thô này cần được xử lý.
  2. Think (Reasoning & Planning - Suy luận & Lập kế hoạch): Đây là giai đoạn ra quyết định cốt lõi. Agent xử lý thông tin nhận thức được, truy cập cơ sở tri thức và memory của nó, suy luận về tình huống liên quan đến mục tiêu của nó, và lập kế hoạch (các) hành động tiếp theo. Điều này thường liên quan đến việc chia nhỏ các tác vụ phức tạp thành các bước nhỏ hơn, dễ quản lý hơn.
  3. Act (Execution - Thực thi): Agent thực thi hành động đã chọn, tương tác với môi trường của nó. Điều này có thể có nghĩa là gọi một API bên ngoài, thực thi code, thao tác browser, tạo văn bản, hoặc điều khiển phần cứng.
  4. Learn (Adaptation - Thích ứng): Agent quan sát kết quả hành động của mình và sử dụng phản hồi (tường minh hoặc ngầm định) để cập nhật các model nội bộ, kiến thức, hoặc chiến lược của mình, cải thiện hiệu suất trong tương lai.

b. Các Công nghệ Chính Cho phép

Một số công nghệ chính hội tụ để làm cho AI agents hiện đại trở nên khả thi:

  • Large Language Models (LLMs): Thường tạo thành "bộ não" của agent, cung cấp các khả năng mạnh mẽ trong việc hiểu ngôn ngữ tự nhiên, suy luận, và thậm chí lập kế hoạch (ví dụ: thông qua các kỹ thuật như Chain of Thought hoặc ReAct).
  • Machine Learning & Deep Learning : Được sử dụng rộng rãi để nhận dạng mẫu, dự đoán, phân loại, và cho phép thành phần học hỏi (đặc biệt là học tăng cường (Reinforcement Learning).
  • Natural Language Processing (NLP): Quan trọng cho lớp nhận thức (perception) (hiểu yêu cầu người dùng, phân tích văn bản) và lớp action (tạo phản hồi mà con người có thể đọc được).
  • AI Planning Techniques: Các thuật toán như Markov Decision Processes hoặc các thuật toán tìm kiếm giúp agents đưa ra quyết định trong điều kiện không chắc chắn và lập kế hoạch chuỗi hành động.
  • APIsTool Integration: Các cách tiêu chuẩn hóa để agents tương tác với phần mềm bên ngoài, databases, web services, và phần cứng là điều cần thiết để mở rộng khả năng của chúng vượt ra ngoài model cốt lõi.

c. Các Thành phần Kiến trúc Cốt lõi

Hãy xem xét một số thành phần chức năng quan trọng trong kiến trúc agent:

  • Prompt Engineering & Context Management: Mặc dù người dùng cung cấp mục tiêu ban đầu, agent thường tạo ra các prompts nội bộ để hướng dẫn suy luận của chính nó hoặc tương tác với LLM cốt lõi hoặc các tools của nó. Việc quản lý hiệu quả context (thông tin có sẵn cho agent ở mỗi bước – mục tiêu, kế hoạch, lịch sử, đầu ra tool, nội dung memory) là rất quan trọng để hoạt động mạch lạc và hiệu quả.
  • PlanningReasoning: Điều này liên quan đến chia một mục tiêu lớn thành các bước nhỏ hơn. Agent cần suy luận về chuỗi hành động tốt nhất, có khả năng sử dụng khả năng suy luận của LLM hoặc các thuật toán planning chuyên dụng. Nó cũng phải có khả năng suy nghĩ (reflect) về tiến độ và lập kế hoạch lại nếu cần thiết.
  • Memory Systems & Knowledge Retrieval: Đây là yếu tố khác biệt chính cho agents. Không giống như context window hạn chế, tạm thời của một LLM tiêu chuẩn, memory của agent giúp nó có thể "nhớ lâu dài".
    • Short-Term/Working Memory: Giữ context tức thời cho tác vụ hiện tại. (mở tab mới sẽ mất)
    • Long-Term Memory: Lưu trữ thông tin qua các sessions – sở thích người dùng, thành công/thất bại trong quá khứ, sự kiện đã học. Điều này cho phép sự thích ứng và cá nhân hóa thực sự. Vector databases thường được sử dụng để truy xuất các memories liên quan.
    • Memory vs. RAG: Retrieval-Augmented Generation (RAG) tìm nạp kiến thức bên ngoài (như tài liệu) để cung cấp thông tin cho phản hồi. Memory cung cấp tính liên tục dựa trên kinh nghiệm của chính agent. Chúng bổ sung cho nhau: RAG cung cấp sự kiện, Memory cung cấp context và học hỏi.
  • ToolMCP: Agents có được sức mạnh bằng cách sử dụng các tools bên ngoài. Đây có thể là bất cứ thứ gì từ một máy tính đơn giản hoặc API đến các hành động phức tạp như thực thi code, tìm kiếm trên web, tương tác với databases, hoặc điều khiển web browser. Agent cần quyết định khi nào sử dụng tool, tool nào để sử dụng, và cách diễn giải đầu ra của nó. image.png

d. Ví dụ ứng dụng thực tế: Browser Automation cho Testing

Đối với các web developers, một trong những ứng dụng hữu hình nhất của AI agents là trong UI test automation. Theo truyền thống, điều này liên quan đến việc viết các scripts chi tiết bằng cách sử dụng các frameworks như Selenium hoặc Playwright, chỉ định các locators phần tử và tương tác chính xác.

AI agents cung cấp một cách tiếp cận khác:

  1. Chuyển từ Scripting sang Prompting: Thay vì viết driver.findElement(By.id("login-button")).click();, bạn có thể hướng dẫn agent: "Click vào nút đăng nhập," hoặc thậm chí mô tả toàn bộ luồng người dùng: "Đăng nhập bằng tên người dùng 'testuser' và mật khẩu 'password123', sau đó điều hướng đến trang hồ sơ và xác minh địa chỉ email là 'testuser@example.com'."
  2. AI Dịch Ý định: Agent sử dụng nhận thức (perception) của nó (phân tích trang web hiện tại DOM và có thể cả bố cục trực quan) và reasoning (hiểu prompt) để xác định các elements chính xác và thực hiện các hành động cần thiết (click, nhập liệu, điều hướng,...).
  3. Tác động đến Vai trò:
    • Khả năng Tiếp cận: Giảm rào cản cho việc tạo tests, có khả năng cho phép manual QA hoặc các thành viên khác trong nhóm tham gia.
    • Sự Thay đổi Vai trò của Developer: Đối với các developers tham gia vào testing, trọng tâm chuyển từ scripting phức tạp sang:
      • Hướng dẫn AI: Tạo các prompts rõ ràng và hiệu quả.
      • Đặt Ranh giới: Xác định phạm vi hành động của agent.
      • Diễn giải Kết quả: Debugging các thất bại, có thể xuất phát từ sự diễn giải của AI, bản thân ứng dụng, hoặc các elements không ổn định.
      • Tư duy Chiến lược: Tập trung hơn vào chiến lược test, độ bao phủ (coverage), và biết khi nào scripting truyền thống vẫn có thể tốt hơn.
  4. Lợi ích Tiềm năng: Có thể tăng tốc độ tạo test cho các workflows phổ biến, tạo điều kiện hợp tác (các tests được mô tả bằng ngôn ngữ tự nhiên), và cho phép developers tập trung vào các thách thức testing phức tạp hơn hoặc các nhiệm vụ development. Ngoài ra, nếu bạn phát triển AI Agent liên quan đến code generation thì sau khi AI generation xong tính năng bạn có thể báo nó chạy test luôn để đảm bảo tính năng generation chạy đúng.

V. Thách thức và Cân nhắc

Mặc dù AI agents mang lại những khả năng thú vị, việc phát triển và deployment của chúng đi kèm với những thách thức đáng kể cần được xem xét cẩn thận:

  • Thiên vị Dữ liệu: Agents học từ dữ liệu, và nếu dữ liệu đó phản ánh các thành kiến xã hội, agent có thể vô tình duy trì hoặc thậm chí khuếch đại sự bất công trong các lĩnh vực như tuyển dụng, kiểm duyệt nội dung, hoặc đề xuất.
  • Đạo đức: Khi agents trở nên tự chủ hơn, các câu hỏi đạo đức phức tạp nảy sinh liên quan đến việc ra quyết định của chúng, tác động xã hội tiềm ẩn (ví dụ: mất việc làm do automation, lạm dụng trong giám sát hoặc chiến tranh)
  • Rủi ro Bảo mật: Agents có thể là mục tiêu. Điều này bao gồm đánh cắp dữ liệu training hoặc dữ liệu tương tác người dùng, đánh lừa agent bằng các input bị thao túng.
  • Độ Tin cậy và Tính Nhất quán: Hành vi của các agents phức tạp, đặc biệt là những agents liên quan đến LLMs, đôi khi có thể không xác định hoặc không thể đoán trước, dẫn đến kết quả không nhất quán hoặc thất bại bất ngờ.
  • Chi phí và Tài nguyên: Việc phát triển, training, và chạy các AI agents tinh vi có thể tốn kém về mặt tính toán và đòi hỏi tài nguyên và chuyên môn đáng kể.
  • Độ phức tạp Tích hợp: Việc tích hợp agents một cách trơn tru vào các hệ thống và workflows phức tạp hiện có có thể là một thách thức kỹ thuật.

Giải quyết những thách thức này đòi hỏi một cách tiếp cận đa diện bao gồm thiết kế cẩn thận, testing nghiêm ngặt, giám sát đạo đức, bảo mật mạnh mẽ, và nghiên cứu liên tục.

VI. Triển vọng Tương lai

Lĩnh vực AI agents đang phát triển nhanh chóng, hướng tới các hệ thống với khả năng ngày càng tinh vi và tích hợp sâu hơn vào cuộc sống số của chúng ta:

  • Nâng cao Năng lực: Mong đợi các agents với khả năng suy luận mạnh mẽ hơn (lập kế hoạch đa bước tốt hơn), khả năng suy nghĩ (reflection) được cải thiện (học hỏi từ các hành động trong quá khứ hiệu quả hơn), và các hệ thống memory tiên tiến hơn cung cấp tính liên tục thực sự. Sự phối hợp giữa hiểu ngôn ngữ và thực thi hành động (Large Action Models - LAMs) sẽ trở nên chặt chẽ hơn, cho phép agents xử lý các tác vụ thế giới thực phức tạp một cách liền mạch hơn.
  • Tăng cường Tự chủ: Xu hướng là hướng tới các agents tự định hướng hơn có thể ước tính, lập kế hoạch, và thực thi các tác vụ với ít sự hướng dẫn của con người hơn, hoạt động giống như những người cộng tác chủ động hơn.
  • Multi-Agent Systems: Chúng ta có thể sẽ thấy nhiều hệ thống phức tạp hơn nơi nhiều agents hợp tác hoặc cạnh tranh để giải quyết các vấn đề, giải quyết các nhiệm vụ vượt quá phạm vi của bất kỳ agent đơn lẻ nào.
  • Tích hợp Workflow Sâu hơn: Agents sẵn sàng trở thành các thành phần cơ bản của chuyển đổi số, tự động hóa các quy trình kinh doanh phức tạp và có khả năng hoạt động như những đồng nghiệp ảo cùng với con người.

Lời khuyên cho Web Developers:

  • Làm thế nào để chuẩn bị cho sự thay đổi này? (Học về LLMs, prompt engineering, các frameworks agent).
  • Tập trung vào các kỹ năng mà AI khó thay thế (sáng tạo, tư duy phản biện, giải quyết vấn đề phức tạp ở mức độ cao,...).
  • Xem AI agents như một công cụ mạnh mẽ để nâng cao năng suất và khả năng, chứ không chỉ là một mối đe dọa.

Kết luận

Chúng ta đã đi qua bức tranh toàn cảnh của AI agents, vượt ra ngoài các scriptsassistants đơn giản để hiểu các hệ thống tự chủ, hướng tới mục tiêu này. Chúng ta đã thấy cách chúng nhận thức, suy luận, hành động, và học hỏi, được hỗ trợ bởi các công nghệ như LLMsmachine learning. Chúng ta đã khám phá kiến trúc của chúng, vai trò quan trọng của memorytool use.

Những điểm chính cần nhớ sau 2 phần bao gồm:

  • AI agents đại diện cho một bước tiến tới AI tự chủ hơn, có khả năng lập kế hoạch và thực thi độc lập.
  • Cốt lõi của chúng nằm ở chu trình Sense-Think-Act-Learn, được kích hoạt bởi các thành phần như perception, reasoning, action execution, và các cơ chế learning.
  • MemoryTool Use là những yếu tố khác biệt quan trọng, cho phép agents duy trì context và tương tác với thế giới bên ngoài.
  • Chúng mang lại lợi ích tiềm năng trong các lĩnh vực như automation (ví dụ: testing) nhưng cũng đặt ra những thách thức đáng kể liên quan đến bias, đạo đức và bảo mật.
  • Tương lai hướng tới các agents có năng lực hơn, tích hợp hơn, và tự chủ hơn hoạt động như những người cộng tác trong các lĩnh vực khác nhau.

Với vai trò là web developers, việc hiểu các khái niệm này ngày càng trở nên quan trọng. Mặc dù agents sẽ không thay thế các kỹ năng development cốt lõi ngay lập tức, chúng đại diện cho các tools mạnh mẽ và một bối cảnh đang thay đổi trong automation và thậm chí có thể là cách chúng ta tương tác với các hệ thống phức tạp trong tương lai.

Cảm ơn bạn đã đọc !

Tài liệu tham khảo

(Nguồn: Medium - Abby - https://sen-abby.medium.com/ai-agents-technical-overview-architecture-and-implementation-8811df690565)
(Nguồn: aqua cloud - https://aqua-cloud.io/browser-based-ai-operators/)
(Nguồn: SmythOS - https://smythos.com/ai-agents/ai-agent-development/challenges-in-ai-agent-development/)
(Nguồn: Forbes Technology Council - https://www.forbes.com/councils/forbestechcouncil/2025/01/02/ai-agents-the-next-frontier-in-intelligent-automation/)


All Rights Reserved

Viblo
Let's register a Viblo Account to get more interesting posts.