Cẩm Nang Bóp Nhỏ Kích Thước Config Trên OpenClaw: Chống Tràn Rác Tránh Thủng Ví
Dạo gần đây lướt X (Twitter) hay các group lập trình viên, anh em chắc hẳn gặp không ít tiếng thở dài kiểu: "Tiền Token của OpenClaw ảo ma thực sự... bill cuối tháng rén quá không dám dùng nữa". Thú thật, ngay từ những ngày đầu tải về máy vọc vạch, mình cũng y chang anh em.
Năm 2026, dự án open source "cháy" nhất không gì khác ngoài OpenClaw. Với hơn 260.000 sao trên GitHub, từ dev kỳ cựu ở Silicon Valley tới dân văn phòng chuộng hiệu suất, ai cũng có thể tự build cho mình một "Jarvis AI" chạy bằng cơm.
Nhưng niềm vui "hí hửng deploy thành công, đời mình lên hương rồi!" vụt tắt chỉ sau 3 ngày, khi ngó vào cái dashboard thanh toán API. Mình sững sờ, đúng nghĩa đen (haha).

Có dị nhân "đốt" sạch 200 đô chỉ trong một ngày, có người bill tháng nhảy tót lên 3.600 đô. Cá biệt, có case viết script chạy task auto bị lặp vô tận (infinite loop), ngủ một giấc dậy thấy bill đập vào mặt 4 con số (vài nghìn đô) - đau hơn hoạn! Chữ "Miễn Phí" của OpenClaw, anh em nên nhớ kỹ, chỉ áp dụng cho mã nguồn. Dòng tiền thật sự đổ ra sông ra bể chính là lúc gọi API của các model AI chạy nền. Từng câu chat, từng task chạy tự động, từng lần gọi tool... tất cả đều "ăn" Token. Mà Token thì chính là tiền tươi thóc thật.
Nếu dùng "chay" không tối ưu, anh em mất đứt vài trăm đô một tháng là chuyện hiển nhiên. Nhưng nếu biết cách "cấu hình đúng chỗ ngứa", tháng tốn tầm 5-15 đô mà vẫn mượt mà như Sunsilk. Bài viết này mình sẽ bóc sạch sành sanh những lúc mình "sấp mặt" và tổng hợp lại 7 phương pháp tối ưu OpenClaw đã test thực tế, đảm bảo cắt giảm ít nhất 80% chi phí.
Khoan Đã, Tiền Của Anh Em "Bốc Hơi" Đi Đâu?
Muốn tiết kiệm, trước tiên phải bắt đúng mạch, xem tài nguyên đang bị lãng phí (overhead) ở những khâu nào. Việc "cắn" Token trong OpenClaw chủ yếu xoay quanh 6 thủ phạm sau:
-
1. "Overhead Vô Hình" từ System Prompts
Anh em tưởng gõ chat với OpenClaw thì nó chỉ gửi đúng câu đó cho model AI? Sai bét! Trước khi đẩy câu nói của anh em đi, hệ thống còn nhồi nhét một đống "luật lệ" đi kèm: thiết lập nhân vật (SOUL.md), nguyên tắc hành xử (AGENTS.md), danh sách tools (TOOLS.md), dữ liệu quá khứ (MEMORY.md)... Cục này sương sương cũng ngốn tầm 8.000 đến 15.000 Token. Chỉ cần Say "Hi" nhẹ một cái, phía sau đã "bay màu" hàng chục ngàn Token overhead. -
2. Lịch sử chat phình to (Context Bloat)
Để AI không bị "mất trí nhớ", OpenClaw sẽ gửi toàn bộ lịch sử trò chuyện cho model. Nhắn càng dài, context càng phình to, kéo theo chi phí cho 1 request cũng tăng theo cấp số nhân. Mình từng thấy ca khủng hoảng nhất: một session chat quên không clear sau một tuần, context đội lên 200.000 Token. Mỗi lần enter là mất 6-8 đô mà request toàn báo timeout. Quá lãng phí! -
3. Cơ chế Cron (Heartbeat) chạy nền
OpenClaw có một tính năng tên là Heartbeat, cho phép AI chạy job nền theo chu kỳ. Vấn đề là mỗi nhịp đập (tick), nó gửi đi một request có chứa TOÀN BỘ context. Thử set "check mail 5 phút một lần" xem, ngày đi tong 50 đô lúc nào không hay. Thực tế cá nhân anh em dev thì chả cần tuần suất "hành xác" đến vậy. -
4. Dây chuyền gọi Tool (Tool calling chain)
Anh em bảo AI "Dọn dẹp hòm thư chưa đọc hôm nay đi", nó không làm một lèo là xong đâu. Nó phải: "Load tool mail" → "Parse nội dung" → "Đánh giá mức quan trọng" → "Load Todoist tạo task" → "Xuất báo cáo". Mỗi "dấu suy ra" đó là một lần request API, và lần nào cũng đính kèm cục context bự chà bá. -
5. Context rác từ Output của Tools
Quá đáng hơn, kết quả mà tool trả về cũng bị OpenClaw ghi luôn vào lịch sử session. Giả dụ bắt nó đọc 500 dòng code, thế là 3.000-5.000 Token lập tức "cắm rễ" vào history, và những lần chat sau lại cõng đống code đó gửi cho AI tiếp. Đúng là đỉnh cao của sự lãng phí. -
6. Chọn sai Model (Lỗi tày đình nhất)
Nhiều anh em dính nhất. Giá Claude Opus 4.6 hiện tại là $15/$75 (cho input/output tính trên 1 triệu Token), còn Haiku 4.5 thì chỉ $1/$5. Chênh nhau bèo nhất cũng 5 lần. Hỏi "Trời hôm nay mây trắng hay xanh?" mà gọi Opus ra thì rõ ràng là đang lấy dao mổ trâu đi giết gà.
Tìm ra được 6 "cái lỗ hổng" này rồi thì chiến lược tối ưu cũng cứ thế mà hiển hình thôi.
Chiêu 1: Hạ cấp Model (Downgrade) - Hiệu quả đốn tim
Đây là bài học vỡ lòng nhưng lại là tuyệt chiêu mang lại "dòng tiền dương" nhanh nhất.
Đành rằng default của dự án gợi ý xài Claude Opus 4.6, code giỏi, phân tích sâu. Nhưng nói thẳng ra, 80% tác vụ hằng ngày chả cần đến não của Opus. Tra cứu linh tinh, check lịch, vọc file, hay dịch thuật, chỉ cần Sonnet 4.5 là dư xài rồi. Mà chi phí output của Sonnet thì rẻ hơn Opus tới 60%.
Config cũng dễ ợt, mở file config của OpenClaw lên và đổi default model sang Sonnet:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-5-20251001",
"fallback": "anthropic/claude-haiku-4-5-20251001"
}
}
}
}
Thêm một tip "tinh tế" nữa: Set luôn model fallback (dự phòng). Tức là primary đánh Sonnet, nhưng lúc bị nghẽn mạng (Rate Limit) hay hết tiền API, hệ thống sẽ tự nhảy sang Haiku để chữa cháy.
Lúc nào đụng đến "tầng kiến trúc sâu" (viết bài dài, sinh code logic phức tạp...) thì anh em mới gọi Opus bằng tay ra làm. Chỉ nội bước này đã gọt được khoảng 40% chi phí hằng tháng.
Còn nếu anh em thực sự đang trong chế độ "thắt lưng buộc bụng", mình cực kỳ rcm model MiniMax M2.5. Token input chỉ 0.30 đô/1 củ Token, tức là bằng cỡ 1/10 Sonnet. Chấm điểm trên SWE-Bench thì bám đít Sonnet khá sát, nên mấy việc vặt hằng ngày dư sức cân. Ngon nhất là cài đặt qua plugin một phát ăn ngay bằng OAuth, khỏi mất công copy/paste API Key lằng nhằng.
Chiêu 2: "Ép cân" file System Prompt
Như đã nói, mấy cái file quy tắc (prompt) gửi kèm mỗi request chính là "thuế ẩn". Tin vui là đống mỡ thừa này hoàn toàn có thể cắt gọt.
Focus vào làm sạch 3 file này:
- AGENTS.md: Default trong file này có một đống rules về chat nhóm rồi TTS (Text-to-Speech) - mấy cái tính năng mà anh em chắc cả đời chả ngó tới. Nếu chỉ dùng mỗi Telegram để xài, thì xóa sạch luật chat nhóm đi! Không xài voice? Xóa luôn TTS! Ép chuẩn file này xuống dưới 800 Token cho mình.
- SOUL.md: Định hình nhân cách AI. Bỏ mấy đoạn ủy mị lê thê kiểu "Bạn là một trợ lý thân thiện, làm việc chuyên nghiệp..." đi. AI nó đủ thông minh rồi, đưa 2-3 gạch đầu dòng ngắn gọn là nó hiểu.
- MEMORY.md: File bị "mập lên" nhanh nhất nếu để yên. Chịu khó dọn dẹp thường xuyên, cái nào xong rồi thì ném vào archive, chỉ giữ context của dự án đang chạy (active).
Chỉ dọn dẹp nhẹ như vậy, cục overhead tốn 13.000 Token mỗi lần gọi giảm hẳn xuống còn cỡ 3.000-5.000. Dùng càng nhiều (gọi request càng gắt) thì anh em càng thấy nó thấm vào bill như thế nào.
Chiêu 3: Cứu tinh mang tên QMD (Trùm cuối giảm cost)
QMD (Quantum Memory Database) do Tobi (Co-founder của Shopify) viết, bản chất là một engine Semantic Search chạy dưới local, và đã được buff làm tính năng mặc định từ OpenClaw bản 2026.2.2.
Ngày xưa, hệ thống cứ ôm trọn file MEMORY.md chọi thẳng vào mặt AI; giờ có QMD, nó sẽ quét ý định của anh em rồi bới trong đống memory ra đúng 2-3 câu liên quan nhất để cấp cho AI. Nói cách khác, nó "lọc" luôn 90% thông tin rác.
Anh em đọc benchmark official chưa? Giảm 90-99% Token tiêu thụ. AI thì bớt bị "tiền đình" vì đống data ảo, chốt luôn phản hồi nhanh gấp 5-50 lần, độ chính xác độn lên hẳn 93%. Rõ ràng là hack game! Lên 2026.2.2 thì cài sẵn rồi. Anh em nào thấy cục memory của mình phình to vài nghìn Token thì bật QMD ngay và luôn. Cứu sinh đấy, không đùa đâu.
Chiêu 4: Dẹp Loạn Tính Năng Heartbeat (Cron)
Nói thật, "check mail 5 phút một lần" đúng là cái ham muốn tự sướng (false need) của đại đa số anh em dev thôi, chứ áp dụng thực tế thấy vô nghĩa.
Khoảng giãn cách lý tưởng cho system check là 30 phút hoặc 1 tiếng rưỡi, update version thì check 1 ngày 1 lần thôi. Và thông báo thì set ngay chế độ "gọi đâu dạ đó (on-demand)" chứ đừng bắt nó hót liên tục định kỳ. Anh em "pro" hơn có thể xài tuyệt chiêu gom chung task lẻ tẻ. Thay vì để "check mail", "check lịch", "check Todo" chạy riêng thành 3 cron, hãy gộp hết thành một job duy nhất gọi là "Daily briefing 8h sáng". Khẳng định luôn, anh em sẽ tiết kiệm tới 75% tiền nhét context mỗi lần gọi.
Chiêu 5: Phân Làn Lưu Lượng Bằng Multi-Agent
OpenClaw cho phép anh em dàn trận với nhiều con Agent khác nhau, mỗi con một workspace và session độc lập. Đừng nghĩ đây chỉ là chia cho đẹp, đây là chiến thuật "chặn túi tiền" cực mạnh.
Sơ đồ chạy như sau:
- Main Agent (Chuyên làm culi nặng): Lập trình phức tạp, viết tài liệu. Dí cho Opus hoặc Sonnet.
- Light Agent (Xử lý việc vặt): Dịch thuật, dạo hỏi đáp, nhắc lịch. Quăng qua cho Haiku hoặc Gemini Flash.
Nếu anh em dí mọi thứ vào một con Agent duy nhất, rác context sẽ lộn tùng phèo, ngốn Token dã man. Con AI cũng vì bị "ô nhiễm trí nhớ" mà càng trả lời càng ngu (tự dưng lôi chuyện từ đời Tống ra bàn). Phân loại tác vụ rồi giao cho Agent chuyên trách xử là thượng sách: vừa nhanh, gọn, lại rẻ bèo.
Chiêu 6: Reset Session Thường Xuyên Cuộc Đời Mới Đẹp
Chuyện khó vậy mà anh em hay bỏ qua lắm. Session của OpenClaw nó lưu log dài tới vô cực. Vứt đấy vài ngày, lịch sử chat leo lên mốc 100.000 Token như cơm bữa.
Thuốc giải ở đây là: "Thường xuyên đập đi xây lại cái session (chỗ chat) mới".
Vào file openclaw.json set ngay dòng maxSessionTokens tầm 50.000 ~ 100.000. Chạm mốc thì nó tự động xẻn cái context lại (yên tâm lịch sử trên máy không bay màu đâu).
Đang chat dùng lệnh /status coi "cân nặng" của session hiện tại, thấy mỡ hóa rồi thì tự gõ /clear hay mở chat mới đi cho nó lẹ.
Chiêu 7: Đừng Chê Đồ Free Và Dịch Vụ Subscription
Sợ xài bao nhiêu tính tiền bấy nhiêu (Pay-as-you-go) thì anh em quất đồ gói, miễn phí cho khỏe.
- Anthropic Claude Pro ($20/Tháng): Nếu anh em nhẩm tính bill API quá 20 đô, đăng ký luôn gói Pro cho vuông. Đẩy cái API Key của Claude Code CLI sang OpenClaw, thế là tự nhiên anh em có xài tẹt ga tới khi bị limit theo policy.
- Google Gemini: Tài khoản Free tier của nó (model Flash) bao xài rất thoáng. Chu kỳ reset API lại cực ngắn (có 5 tiếng 1 lần). Kết hợp với chứng thực xịn của Antigravity, anh em khui được nguyên series Gemini từ Flash tới 3 Pro. Với anh em code "đủ ăn", học sinh sinh viên nghèo vượt khó thì đây là chân ái.
- Dùng Local Model (Ollama, v.v): Có máy Mac M1/M2/M3 (cỡ 32GB RAM đổ lên) hay quả PC card trâu đất? Kéo model về máy chạy local luôn, bill API bằng số 0 tròn trĩnh. Dĩ nhiên độ phản hồi và tư duy phức tạp không ngon bằng, nhưng xài cho chém gió qua ngày thì chấp hết.
- MiniMax Coding Plan: Có gói sub chuyên phục vụ cho dân build Agent luôn. So với dùng lẻ thì về dài hạn lợi hơn nhiều.
Thực Tế Cắt Được Bao Nhiêu? Khui Liệu Xem (Simulation)
Cùng thử làm nháy bài toán: Mỗi ngày anh em quẩy 30 lượt với OpenClaw, bao gồm xài linh tinh tool với ba cái cron jobs.
-
[Khi chưa tối ưu] (Xài Opus mặc định, bỏ qua đống rác prompt, cứ để Heartbeat đập thét gào): Mức phơi Token 1 ngày: tầm 2 triệu Token. Thủng ví mỗi tháng: Khoảng $300 - $600 (Tiền dev tự bỏ ra ngần này thì đúng là mếu).
-
[Sau khi tối ưu] (Main là Sonnet/Haiku, bào mỏng prompt, xài QMD, ghim lại cron, check session liên tục): Mức phơi Token 1 ngày: còn 150.000 - 300.000 Token. Phí mỗi tháng: Nhẹ nhàng $10 - $25.
Tụt hẳn hơn 90% chi phí. Này mình không chém, số liệu này cả cái xóm Reddit lẫn team anh em xung quanh mình toàn đang ứng dụng thôi. Ngứa tay muốn ngặt nghèo hơn nữa, set mặc định là MiniMax M2.5 với Gemini Flash, lúc code căng quá mới gọi Sonnet. Đảm bảo 1 tháng tốn chưa đến $5!
Trọn Bộ Cẩm Nang Config Cho Anh Em (Full Lệnh Copy & Paste)
Xong phần văn vỡ, đây là danh sách lệnh cho 7 bí kíp trên. Ở Terminal anh em cứ copy paste xả láng nhé.
1. Gán model mặc định & Đặt biệt danh (alias)
openclaw config set 'agents.defaults.model' --json '{
"primary": "anthropic/claude-sonnet-4-5",
"fallbacks": ["anthropic/claude-haiku-4-5"]
}'
openclaw config set 'agents.defaults.models' --json '{
"anthropic/claude-haiku-4-5": { "alias": "haiku" },
"anthropic/claude-sonnet-4-5": { "alias": "sonnet" },
"anthropic/claude-opus-4-6": { "alias": "opus" },
"minimax/MiniMax-M2.5": { "alias": "minimax" }
}'
# Chạy lại để ngấm lệnh
openclaw gateway restart
2. Kích hoạt MiniMax (Ngắm chuẩn OAuth)
openclaw plugins enable minimax-portal-auth
openclaw gateway restart
3. Vắt kiệt (ép cân) file System Prompt
Về thẳng thư mục workspace (~/.openclaw/workspace/ default nhé), quất từng file:
cd ~/.openclaw/workspace
# Diệt mấy cái HDSD rác trong AGENTS.md
nano AGENTS.md
# Mở SOUL.md túm lại còn 2, 3 câu
nano SOUL.md
# Clear đống quá khứ mục rữa trong memory
nano memory/*.md
4. Dời tần suất Heartbeat & Gộp Job cron Đẩy Heartbeat sang chu kỳ 30 phút:
openclaw config set 'agents.defaults.heartbeat.every' '30m'
Cập nhật job report buổi sáng ở ~/.openclaw/cron/jobs.json:
{
"name": "Morning Briefing",
"schedule": { "kind": "cron", "expr": "0 8 * * *" },
"sessionTarget": "isolated", // Xài "isolated" đảm bảo mở 1 chat riêng, không tích luỹ vô khối context rác
"payload": {
"kind": "agentTurn",
"message": "Kiểm kê mail rác, dọn dẹp lịch làm việc và liệt kê Todos ra gọn gàng giúp tớ."
}
}
5. Định Tuyến Phân Luồng (Multi-Agent)
Trong openclaw.json thêm mắm dặm muối cho agents:
{
"agents": {
"defaults": {
"model": { "primary": "anthropic/claude-sonnet-4-5" }
},
"list": [
{ "id": "main", "default": true },
{ "id": "light", "workspace": "~/.openclaw/workspace-light" }
]
}
}
Dùng tiếp bindings để trỏ vào con Agent tương ứng theo chat kênh:
{
"bindings": [
{
"agentId": "light",
"match": { "channel": "telegram", "peer": { "kind": "group", "id": "Mã_group_nhà_bạn" } }
}
]
}
6. Giám sát độ phình Token (Status Tracker) Dùng command này trên chat hay máy cục bộ đều ổn:
# Chat thì thế này thôi
/status
# Tới thẳng màn hình Terminal check luôn:
openclaw status
Chốt Luôn: Đi Tìm Tư Duy Kiến Trúc Cho Cá Nhân
OpenClaw thời điểm này xứng danh trùm cuối trong mảng Personal AI framework. Nhưng mác "Open Source Free" không đồng nghĩa với việc cứ phất tay để đó mặc nó hoang tàn. Chưa tối ưu, nó chỉ là một con "thú ăn tiền". Khi tối ưu triệt để rồi, nó mới thực sự trở thành đồng đội hoàn hảo giúp x20 hiệu suất.
Sắp tới, khi kỹ năng vận hành AI Agent trở nên thông dụng, "những thợ gõ Prompt" sẽ dần nhường chỗ cho những người có tư duy về "Resource Optimization" và "Software Architecture". Khác biệt đẳng cấp giữa dev chính nằm ở tầm nhìn thiết kế hệ thống này.
OpenClaw hữu dụng hay không, chẳng đo lường ở chỗ "mày bỏ bao nhiêu tiền túi ra". Bức tranh thật sự là: "Mày có biết phân bổ tài nguyên để tập trung giải quyết cái cốt lõi (core task) giúp đạt chuẩn tối đa hoá ROI hay không".
Bài hơi lố chữ rồi, hi vọng xài được việc. Thấy đúng thì chia sẻ liền tay tới cái group cho mấy đồng râm đang khóc ròng vì check bill. Mắc mớ khúc config nào hay có trick lách bill xịn hơn? Tự nhiên bay vô comment giao lưu cho sôi động nhé anh em!
All rights reserved