1.7K 24 44

Đã đăng vào khoảng 22 giờ trước

trong

22 phút đọc

So sánh Claude Fable 5 và GPT-5.5

Claude Fable 5 dẫn trước GPT-5.5 tới 22 điểm phần trăm trên SWE-Bench Pro, benchmark quan trọng nhất cho lập trình thực tế, nhưng GPT-5.5 lại vượt trội về khả năng xử lý ngữ cảnh siêu dài và có chính sách truy cập dễ tiếp cận hơn.

Tóm tắt các điểm chính

Quyết định chọn mô hình nào cho production workflow không chỉ nằm ở benchmark. Fable 5 mạnh hơn về năng lực thô, đặc biệt ở coding và suy luận đa ngành, nhưng giá output token cao gấp đôi, hệ thống phân loại an toàn có thể âm thầm chuyển hướng yêu cầu của bạn sang mô hình yếu hơn, và yêu cầu lưu trữ dữ liệu 30 ngày bắt buộc đang chặn đứng không ít khách hàng doanh nghiệp. Infinity News sẽ so sánh chi tiết hai mô hình này trên năm khía cạnh: hiệu suất lập trình và tác tử, khả năng xử lý ngữ cảnh dài, bộ phân loại an toàn và rào cản truy cập, công việc tri thức và suy luận, và giá cả.

Fable 5 đạt 80,3% trên SWE-Bench Pro, bỏ xa GPT-5.5 ở mức 58,6%, một khoảng cách 22 điểm phản ánh khác biệt thực sự về năng lực xử lý codebase phức tạp.
GPT-5.5 giữ vững 74,0% trên MRCR v2 ở ngữ cảnh 512K-1M token, trong khi GPT-5.4 tiền nhiệm sụp đổ ở cùng dải đo, mở ra khả năng ứng dụng mới cho tài liệu pháp lý và phân tích khoa học.
Hệ thống phân loại an toàn của Fable 5 âm thầm chuyển hướng yêu cầu nhạy cảm sang Claude Opus 4.8, gây rủi ro về độ tin cậy cho các pipeline tác tử yêu cầu chất lượng suy luận đồng nhất.
Fable 5 yêu cầu lưu trữ dữ liệu 30 ngày bắt buộc, một rào cản cứng với các ngành được quản lý nghiêm ngặt, trong khi GPT-5.5 duy trì chính sách lưu trữ tiêu chuẩn.
Giá output token của Fable 5 là 50 đô la mỗi triệu token, so với 30 đô la của GPT-5.5, khoảng cách này nhân lên đáng kể với khối lượng lớn.

Tổng quan Claude Fable 5

Claude Fable 5 là mô hình đầu tiên thuộc lớp Mythos của Anthropic được mở cho người dùng phổ thông, ra mắt ngày 9 tháng 6 năm 2026. Mythos là cấp năng lực mới nằm trên Opus trong hệ thống phân cấp mô hình của Anthropic. Fable 5 sử dụng cùng kiến trúc nền tảng với Claude Mythos 5, nhưng được kích hoạt các bộ phân loại an toàn có chức năng định tuyến một số truy vấn nhạy cảm sang Claude Opus 4.8 thay vì xử lý trực tiếp. Sự khác biệt về tên gọi mang ý nghĩa thực tiễn: Fable là phiên bản công khai, còn Mythos là phiên bản không giới hạn chỉ dành cho đối tác Project Glasswing.

Anthropic định vị Fable 5 là mô hình dẫn đầu trên hầu hết các benchmark được kiểm tra, với thế mạnh đặc biệt ở công nghệ phần mềm, công việc tri thức, thị giác máy và các tác vụ tác tử kéo dài. Nhiệm vụ càng phức tạp và kéo dài, khoảng cách dẫn trước của Fable 5 so với các mô hình Claude đời trước càng lớn. Stripe báo cáo rằng Fable 5 đã nén khối lượng công việc kéo dài nhiều tháng của đội ngũ kỹ sư xuống còn vài ngày trong một dự án di chuyển codebase Ruby 50 triệu dòng.

Tổng quan GPT-5.5

GPT-5.5 là bản phát hành tháng 4 năm 2026 của OpenAI, được mô tả là mô hình lập trình tác tử mạnh nhất của công ty này tính đến thời điểm hiện tại. OpenAI cũng phát hành thêm biến thể GPT-5.5 Pro dành cho các tác vụ yêu cầu độ chính xác cao hơn. Mô hình được đồng thiết kế và triển khai trên các hệ thống NVIDIA GB200 và GB300 NVL72, đồng thời OpenAI cho biết GPT-5.5 đạt độ trễ mỗi token tương đương GPT-5.4 trong môi trường thực tế trong khi vận hành ở mức thông minh cao hơn đáng kể.

Câu chuyện kiến trúc đáng chú ý nhất của GPT-5.5 nằm ở độ tin cậy khi xử lý ngữ cảnh dài. GPT-5.4 từng sụp đổ khi vượt quá khoảng 128K token trên benchmark MRCR, trong khi GPT-5.5 giữ vững đến dải 512K-1M token với điểm số 74,0% trên MRCR v2, so với 36,6% của GPT-5.4 ở cùng dải đo. Đây là một thay đổi về chất trong những gì mô hình có thể được sử dụng, không đơn thuần là một cải thiện benchmark biên.

Claude Fable 5 và GPT-5.5: So sánh trực tiếp

Bảng dưới đây tóm tắt vị trí của từng mô hình trước khi Infinity News đi vào phân tích chi tiết.

Tiêu chí	Claude Fable 5	GPT-5.5
SWE-Bench Pro	80,3%	58,6%
Terminal-Bench 2.1	88,0%*	83,4% (Codex CLI)
Humanity's Last Exam (có công cụ)	64,5%	52,2%
MRCR v2 ở 512K-1M token	Chưa công bố	74,0%
OSWorld-Verified	85,0%	78,7%
Giá input API (mỗi 1M token)	10 đô la	5 đô la
Giá output API (mỗi 1M token)	50 đô la	30 đô la
Bộ phân loại an toàn chuyển hướng	Có (chuyển sang Opus 4.8)	Không có chuyển hướng ngầm
Yêu cầu lưu trữ dữ liệu	30 ngày bắt buộc	Chính sách tiêu chuẩn
Tình trạng truy cập	Giới hạn (cần credit bổ sung sau 22/6)	Mở rộng (ChatGPT + API)

Hiệu suất lập trình và tác tử

Đây là khía cạnh mà khoảng cách giữa hai mô hình lớn nhất và có ý nghĩa quyết định nhất. Trên SWE-Bench Pro, benchmark dành cho giải quyết issue GitHub thực tế, Fable 5 đạt 80,3% so với 58,6% của GPT-5.5. Khoảng cách 22 điểm phần trăm này là tín hiệu rất rõ ràng. Để có bối cảnh, Claude Opus 4.7 trước đó đã đánh bại GPT-5.5 trên chính benchmark này với 64,3%, nghĩa là GPT-5.5 đã tụt lại phía sau về lập trình cấp repository ngay từ trước khi Fable 5 xuất hiện.

Trên đánh giá FrontierCode của Cognition, bài kiểm tra khả năng vượt qua các tác vụ lập trình khó trong khi đáp ứng tiêu chuẩn codebase production, Fable 5 đạt điểm cao nhất trong số các mô hình frontier ngay cả ở mức nỗ lực trung bình. CEO của Cursor, Michael Truell, mô tả đây là mô hình đạt điểm cao nhất trên FrontierBench, vượt trội ở suy luận dài hạn và khả năng thích ứng với công cụ lạ ngay khi vừa triển khai.

Fable 5 dường như cũng dẫn trước trên Terminal-Bench 2.1 với điểm số được báo cáo là 88,0%, cao hơn GPT-5.5 ở mức 83,4%. Dấu (*) đi kèm con số này cho thấy cần tiếp cận một cách thận trọng vì có sự khác biệt giữa Fable 5 và Mythos 5. Trong mọi trường hợp có sự khác biệt, Fable là phiên bản có hiệu suất thấp hơn trong hai phiên bản, vì vậy Infinity News nhận định Fable 5 có thể ngang bằng hoặc dẫn trước GPT-5.5 với cách biệt nhỏ.

GPT-5.5 vẫn là lựa chọn tốt nhất cho DevOps nặng về terminal và tự động hóa shell, nhưng khoảng cách SWE-Bench Pro là một tín hiệu thực sự. Nếu use case chính của bạn là lập trình cấp repository, Fable 5 là lựa chọn rõ ràng xét riêng về năng lực. Câu hỏi còn lại là liệu chi phí output token cao gấp đôi và rào cản từ bộ phân loại có xứng đáng với khối lượng công việc cụ thể của bạn hay không.

Hiệu suất ngữ cảnh dài

Đây là điểm khác biệt thực sự của GPT-5.5 và xứng đáng được xem xét nghiêm túc. GPT-5.4 từng sụp đổ khi vượt quá khoảng 128K token trên benchmark MRCR v2. GPT-5.5 thì không. Ở dải 512K-1M token, GPT-5.5 đạt 74,0% trên MRCR v2, so với 36,6% của GPT-5.4 ở cùng dải đo. Đây không phải là một cải thiện biên mà là một đẳng cấp năng lực hoàn toàn khác.

Anthropic tuyên bố Fable 5 duy trì được sự tập trung qua hàng triệu token trong các tác vụ kéo dài và cải thiện đầu ra bằng cách sử dụng ghi chú của chính nó. Bài kiểm tra bộ nhớ Slay the Spire cho thấy bộ nhớ bền vững dựa trên file đã cải thiện hiệu suất của Fable 5 gấp ba lần so với mức cải thiện mà nó mang lại cho Opus 4.8. Tuy nhiên, Anthropic chưa công bố điểm MRCR cho Fable 5 ở dải 512K-1M token, vì vậy không thể so sánh trực tiếp một cách công bằng ở đây.

Với người dùng thường xuyên làm việc với ngữ cảnh hàng triệu token, chẳng hạn như rà soát tài liệu pháp lý, phân tích codebase lớn hoặc tổng hợp tài liệu khoa học, điểm số ngữ cảnh dài đã công bố của GPT-5.5 là bằng chứng thuyết phục hơn. Trong thử nghiệm của riêng Infinity News với GPT-5.5, mô hình này vượt qua bài kiểm tra needle 300K token và điểm MRCR giữ vững qua ngưỡng 256K, nơi GPT-5.4 từng sụp đổ. Fable 5 có thể mạnh ngang ngửa ở khía cạnh này, nhưng dữ liệu chưa được công bố ở định dạng có thể so sánh.

Bộ phân loại an toàn và rào cản truy cập

Đây là vấn đề thực tiễn ít được bàn đến nhất của Fable 5 và nó xứng đáng được phân tích kỹ hơn là một dòng ghi chú. Fable 5 vận hành hệ thống phân loại hai giai đoạn: một đầu dò giám sát các kích hoạt nội bộ trên toàn bộ lưu lượng truy cập và các yêu cầu bị gắn cờ được leo thang lên một bộ phân loại LLM riêng biệt để đưa ra quyết định cuối cùng. Khi một yêu cầu bị chặn, nó được định tuyến lại sang Claude Opus 4.8 và người dùng được thông báo mô hình nào đã xử lý truy vấn đó.

Anthropic cho biết bộ phân loại kích hoạt trong chưa đến 5% phiên làm việc trung bình. Ba lĩnh vực được bao phủ:

An ninh mạng: Phát triển khai thác, tác vụ tấn công mạng và quy trình tấn công tự động bị chặn. Fable 5 đạt 0,0% trên cả bốn benchmark an ninh mạng khi bộ phân loại được kích hoạt, giảm từ mức 88,4% của mô hình Mythos nền tảng trên phát triển khai thác Firefox.
Sinh học và hóa học: Hầu hết yêu cầu trong lĩnh vực này được chuyển sang Opus 4.8. Đánh giá của chính Anthropic cho thấy mô hình nền tảng tiến gần đến hiệu suất cấp chuyên gia trong các tác vụ thiết kế virus adeno-associated, đó là lý do phạm vi bao phủ rất rộng.
Distillation: Các yêu cầu bị gắn cờ là nỗ lực trích xuất năng lực của Claude để huấn luyện mô hình cạnh tranh sẽ bị định tuyến lại.

Cơ chế chuyển hướng này không chỉ là mối lo ngại về năng lực mà còn là mối lo ngại về độ tin cậy cho các pipeline tác tử. Khi Fable 5 chuyển hướng sang Opus 4.8, bạn bị tính giá theo Opus 4.8, nhưng đồng thời bạn nhận được một mô hình khác ngay giữa tác vụ. Với một pipeline kỳ vọng chất lượng suy luận đồng nhất của Fable 5 xuyên suốt, một cú chuyển đổi ngầm giữa phiên sang Opus 4.8 có thể phá vỡ các giả định về chất lượng đầu ra.

GPT-5.5 có các biện pháp bảo vệ an ninh mạng riêng, được mô tả là bộ phân loại chặt chẽ hơn cho rủi ro mạng tiềm ẩn. Nhưng không có cơ chế chuyển hướng ngầm sang mô hình yếu hơn. Cách tiếp cận của OpenAI là truy cập tin cậy theo cấp: những người làm phòng thủ đã được xác minh có thể đăng ký tại chatgpt.com/cyber để được mở rộng quyền truy cập với ít hạn chế hơn. Con đường này dễ tiếp cận hơn nhiều so với Project Glasswing của Anthropic, vốn vẫn giới hạn ở một nhóm nhỏ đối tác được phê duyệt.

Còn một rào cản nữa đáng được nêu tên trực tiếp. Fable 5 và Mythos 5 được phân loại là Mô hình Bị Bao phủ, nghĩa là Anthropic yêu cầu lưu trữ dữ liệu 30 ngày cho tất cả lưu lượng truy cập, ngay cả với khách hàng doanh nghiệp trước đây sử dụng gói không lưu trữ. Anthropic tuyên bố dữ liệu không được dùng cho huấn luyện, nhưng chính yêu cầu lưu trữ này là rào cản cứng với các ngành được quản lý. Một số khách hàng doanh nghiệp hoàn toàn không thể sử dụng Fable 5 vì chính sách này.

Công việc tri thức và suy luận

Cả hai mô hình đều mạnh ở mảng này và khác biệt hẹp hơn so với mảng lập trình. Fable 5 dẫn trước trên Hebbia's Finance Benchmark cho suy luận cấp chuyên gia cao cấp, đạt điểm cao nhất trong số các mô hình về suy luận dựa trên tài liệu, diễn giải biểu đồ và giải quyết vấn đề. IMC báo cáo rằng Fable 5 vượt qua các đánh giá phân tích giao dịch của họ trên mọi mặt, bao gồm phân tích nguyên nhân gốc rễ và phân tích giá trị kỳ vọng.

GPT-5.5 dẫn trước trên FrontierMath Tier 4 với 35,4%, cao hơn điểm số đã công bố của Fable 5. Trên GDPval, benchmark kiểm tra tác tử trên 44 ngành nghề, GPT-5.5 đạt 84,9%. Trên Humanity's Last Exam có công cụ, Fable 5 dẫn trước với 64,5% so với 52,2% của GPT-5.5, một khoảng cách có ý nghĩa cho các tác vụ suy luận đa ngành.

Giá cả và tình trạng truy cập

Khoảng cách giá là thực sự và nhân lên đáng kể ở quy mô lớn. Fable 5 có giá 10 đô la mỗi triệu token input và 50 đô la mỗi triệu token output. GPT-5.5 có giá 5 đô la mỗi triệu token input và 30 đô la mỗi triệu token output. Với khối lượng công việc lớn, mức tăng 100% cho input và 67% cho output này cộng dồn rất nhanh.

Truy cập theo gói đăng ký thêm một lớp phức tạp cho Fable 5. Người dùng Pro, Max, Team và Enterprise được truy cập miễn phí đến ngày 22 tháng 6. Sau thời điểm đó, sử dụng Fable 5 yêu cầu credit sử dụng bổ sung trên gói đăng ký hiện có. Anthropic cho biết có ý định khôi phục Fable 5 như một tính năng tiêu chuẩn của gói đăng ký khi công suất cho phép, nhưng chưa có mốc thời gian cụ thể. GPT-5.5 được triển khai cho người dùng Plus, Pro, Business và Enterprise trong ChatGPT và Codex ngay từ ngày đầu, với quyền truy cập API theo sau không lâu sau đó.

Một sắc thái giá đáng biết: khi một truy vấn Fable 5 bị chuyển hướng sang Opus 4.8 do bộ phân loại, bạn bị tính giá theo Opus 4.8 (5 đô la input, 25 đô la output), không phải giá Fable 5.

Khi nào nên chọn Claude Fable 5 và khi nào nên chọn GPT-5.5

Quyết định xoay quanh ba biến số: khoảng cách SWE-Bench Pro quan trọng thế nào với công việc của bạn, lĩnh vực của bạn có kích hoạt bộ phân loại của Fable 5 hay không, và bạn có cần hiệu suất đáng tin cậy vượt ngưỡng 256K token hay không.

Use case	Khuyến nghị	Lý do
Lập trình cấp repository	Claude Fable 5	80,3% so với 58,6% trên SWE-Bench Pro là khoảng cách 22 điểm phản ánh khác biệt năng lực thực sự trên codebase phức tạp
Công cụ bảo mật, penetration testing, nghiên cứu tấn công mạng	GPT-5.5	Bộ phân loại của Fable 5 sẽ chặn hoặc chuyển hướng phần lớn công việc này; lộ trình truy cập tin cậy theo cấp của GPT-5.5 dễ tiếp cận hơn
Rà soát tài liệu pháp lý hoặc tổng hợp tài liệu khoa học ở 500K+ token	Cả hai đều được	Điểm MRCR đã công bố ở 512K-1M token (74,0%) cho thấy GPT-5.5 giữ vững nơi GPT-5.4 sụp đổ; Fable 5 chưa có dữ liệu so sánh được nhưng hứa hẹn hiệu suất tốt hơn
Tài chính và công việc tri thức với tài liệu phức tạp	Claude Fable 5	Dẫn trước trên Hebbia's Finance Benchmark và Humanity's Last Exam có công cụ (64,5% so với 52,2%)
Khối lượng API lớn, chi phí là yếu tố quan trọng	GPT-5.5	30 đô la so với 50 đô la mỗi triệu token output; khoảng cách nhân lên ở quy mô lớn
Pipeline nghiên cứu y sinh	GPT-5.5 (hoặc chờ Fable 5 mở truy cập tin cậy)	Bộ phân loại sinh học của Fable 5 sẽ chuyển hướng hầu hết truy vấn y sinh sang Opus 4.8 cho đến khi chương trình truy cập tin cậy mở ra
Ngành được quản lý yêu cầu không lưu trữ dữ liệu	GPT-5.5	Chính sách lưu trữ 30 ngày bắt buộc của Fable 5 là rào cản cứng với một số khách hàng doanh nghiệp

Chọn Claude Fable 5 nếu...

Use case chính của bạn là lập trình cấp repository và khoảng cách 22 điểm SWE-Bench Pro biện minh cho chi phí output token cao gấp đôi. Công việc của bạn không liên quan đến lĩnh vực an ninh mạng, sinh học hay hóa học, nhờ đó bộ phân loại ít có khả năng kích hoạt trong phiên làm việc của bạn. Bạn cần mức trần cao nhất cho các tác vụ phân tích phức tạp, bao gồm benchmark tài chính và suy luận đa ngành, nơi Fable 5 dẫn trước hai chữ số. Bạn đang dùng API và có thể hấp thụ mức 50 đô la mỗi triệu token output để đổi lấy lợi thế năng lực.

Chọn GPT-5.5 nếu...

Bạn đang xây dựng trong các lĩnh vực liền kề an ninh và cần một mô hình không âm thầm chuyển hướng yêu cầu giữa chừng trong pipeline. Chính sách dữ liệu doanh nghiệp của bạn yêu cầu không lưu trữ, điều mà trạng thái Mô hình Bị Bao phủ của Fable 5 khiến nó không thể đáp ứng. Bạn cần truy cập API ổn định, không có rào cản từ credit sử dụng bổ sung trên gói đăng ký. Hiệu quả chi phí là yếu tố quan trọng và khoảng cách 30 đô la so với 50 đô la mỗi triệu token output có ý nghĩa với khối lượng sử dụng của bạn.

Kết luận

Fable 5 là mô hình có năng lực cao hơn trên những benchmark quan trọng nhất. Khoảng cách SWE-Bench Pro 80,3% so với 58,6% không phải là nhiễu và vị trí dẫn đầu trên Humanity's Last Exam 64,5% so với 52,2% khi có công cụ phản ánh khác biệt thực sự về chiều sâu suy luận. Nếu năng lực thô là biến số duy nhất, Fable 5 thắng.

Nhưng dấu (*) trên điểm số của Fable 5 là có thật. Những con số đó phản ánh mô hình Mythos nền tảng. Fable 5 là Mythos với các bộ phân loại được kích hoạt bên trên, và với các truy vấn về an ninh mạng, y sinh và một số mục đích lưỡng dụng, bạn nhận được Opus 4.8 thay thế. Với các pipeline tác tử, đây không chỉ là mối lo ngại về năng lực mà còn là mối lo ngại về độ tin cậy. Một pipeline kỳ vọng chiều sâu suy luận của Fable 5 xuyên suốt có thể bị phá vỡ khi mô hình âm thầm chuyển đổi giữa chừng. Thêm vào đó yêu cầu lưu trữ dữ liệu 30 ngày bắt buộc, Fable 5 đơn giản là chưa phải lựa chọn khả dụng cho một số khách hàng doanh nghiệp ở thời điểm hiện tại.

Còn một lựa chọn thứ ba đáng được nêu tên. Nếu giá của Fable 5 là rào cản và lợi thế ngữ cảnh dài của GPT-5.5 không quan trọng với use case của bạn, Claude Opus 4.8 không phải là giải pháp an ủi. Nó đã đánh bại GPT-5.5 trên SWE-Bench Pro với 69,2% so với 58,6%, có giá 5 đô la input và 25 đô la output mỗi triệu token, và không gặp rào cản từ bộ phân loại như Fable 5.

Claude