Một người bạn hỏi: "Dùng agent được ba tháng rồi, có tốt hơn không?"
Bạn gật đầu. "Tốt hơn nhiều. Cảm giác ổn hẳn."
"Tốt hơn theo con số nào?"
Bạn dừng lại. Thực ra bạn không biết.
Cái đáng lo không phải là bạn không có con số — là bạn tưởng mình đang cải thiện dựa trên thứ không đo được cải thiện. Cảm giác "ổn hẳn" là real, nhưng nó là bộ đo của những gì bạn nhớ, không phải những gì đang xảy ra.
01Vì sao cảm giác lừa dối theo hướng tích cực
✕ Đo bằng cảm giác
✓ Đo bằng con số
Bộ nhớ con người là bộ lọc, không phải bộ ghi. Nó giữ lại những gì có cảm xúc mạnh — thành công hoặc thất bại lớn — và bỏ qua phần lớn những lỗi nhỏ âm thầm đã được sửa xong. "Cảm giác ổn" đang tổng hợp từ thứ đó, không phải từ toàn bộ dữ liệu.
Lỗi im lặng đặc biệt nguy hiểm ở đây. Khi agent làm sai một thứ bạn bắt được và sửa nhanh, bạn không tính đó là sự kiện đáng nhớ — bạn tính đó là workflow bình thường. Nhưng mười lần như thế trong một tuần, mỗi lần mười lăm phút, là hai rưỡi tiếng bạn không đo. Và bạn vẫn nói "agent dạo này ổn lắm."
02Ba metric thực sự đo được cải thiện
Không cần hệ thống phức tạp. Ba con số này, theo dõi ngay cả không chính thức, cho bức tranh rõ hơn nhiều so với cảm giác:
Trong 10 task gần nhất, có bao nhiêu lần bạn phát hiện lỗi trước khi output được dùng thật? Catch rate cao = verification đang hoạt động. Catch rate thấp = hoặc không có lỗi (tốt), hoặc lỗi đang lọt qua (nguy).
Sửa nhỏ (một dòng, một từ) là bình thường và không tính. Sửa đáng kể = phải đọc lại từ đầu, refactor logic, hay làm lại một phần. Tháng trước là bao nhiêu? Tháng này? Xu hướng đang đi về đâu?
Không phải "task dài nhất bạn dám thả" — mà "task dài nhất nó chạy xong tốt mà không cần interrupt." Nếu con số này đang tăng, bạn đang thực sự mở rộng được gì. Nếu không đổi sau ba tháng — bạn đang dậm chân.
Ba con số này không cần spreadsheet. Bạn có thể ước lượng sau một tuần quan sát. Điểm mấu chốt: có một con số để so sánh, dù thô, tốt hơn nhiều so với không có gì để so sánh cả.
03Bốn dấu hiệu bạn đang đo sai
Không phải để bác bỏ những nhận xét trên — chúng đều có thông tin. Nhưng chúng đo thứ dễ nhận ra, không phải thứ quan trọng. Và đo thứ dễ nhận ra thay vì thứ quan trọng là cách chính xác nhất để tin mình đang tiến bộ khi thực ra đang đứng yên.
04Không đo được thì không cải thiện được — theo hướng mình muốn
Có một điều thực ra ngay cả người dùng agent lâu năm cũng hay bỏ qua: agent không tự học từ những lỗi nó đã làm với bạn. Mỗi session bắt đầu lại từ đầu. Sự cải thiện trong workflow giữa bạn và agent chỉ đến từ một chiều: bạn thay đổi cách giao việc, cách check, cách thiết lập context.
Điều đó nghĩa là nếu bạn không đang theo dõi mình đang thay đổi điều gì — thực ra không có gì đang thay đổi. Bạn đang làm đúng y hệt tháng trước, chỉ là cảm giác quen hơn nên tưởng là tốt hơn.
Catch rate, rework rate, autonomy ceiling. Ba con số đó không yêu cầu nhiều. Nhưng chúng cho bạn một thứ cảm giác không có: một khoảng cách để so sánh, và một hướng để thực sự đi về phía trước.