10Đo và cải thiện Bài trụ

Bạn cảm giác agent ngày càng tốt hơn. Cảm giác đó đúng bao nhiêu phần trăm?

Không có con số là không có cải thiện — chỉ có cảm giác thay đổi. Và cảm giác không đủ để phân biệt 'đang tốt hơn' với 'đang quên mất cú sai gần nhất'.

Đọc5 phút đọc
Chủ đềevaluation · metrics · improvement · measurement
TL;DR

"Cảm giác agent dạo này ổn" là một metric — nhưng là metric của ký ức bạn, không phải của thực tế. Bộ nhớ con người thiên về nhớ thành công và quên thất bại im lặng. Để biết bạn đang thực sự cải thiện, cần ba con số: catch rate (bắt được bao nhiêu phần trăm lỗi trước khi output đi ra ngoài), rework rate (bao nhiêu phần trăm output cần sửa đáng kể), và autonomy ceiling (task dài nhất agent chạy mà không cần bạn can thiệp).

Một người bạn hỏi: "Dùng agent được ba tháng rồi, có tốt hơn không?"

Bạn gật đầu. "Tốt hơn nhiều. Cảm giác ổn hẳn."

"Tốt hơn theo con số nào?"

Bạn dừng lại. Thực ra bạn không biết.

Cái đáng lo không phải là bạn không có con số — là bạn tưởng mình đang cải thiện dựa trên thứ không đo được cải thiện. Cảm giác "ổn hẳn" là real, nhưng nó là bộ đo của những gì bạn nhớ, không phải những gì đang xảy ra.

01Vì sao cảm giác lừa dối theo hướng tích cực

Đo bằng cảm giác

Nhớ rõ: những lần agent làm xong gọn, bạn hài lòng, task đi nhanh
Quên nhanh: những lần agent sai nhưng bạn sửa xong và tiếp tục — không có "incident" nào đáng ghi
Kết luận: "ngày càng tốt hơn" — dù pattern lỗi không hề thay đổi

Đo bằng con số

Theo dõi: lần cuối phát hiện lỗi là bao giờ, sửa mất bao nhiêu, output nào phải làm lại
Pattern hiện ra: catch rate, rework rate, autonomy ceiling — có thể so với tháng trước
Kết luận đáng tin: cải thiện thật hay chỉ đang quên nhiều hơn

Bộ nhớ con người là bộ lọc, không phải bộ ghi. Nó giữ lại những gì có cảm xúc mạnh — thành công hoặc thất bại lớn — và bỏ qua phần lớn những lỗi nhỏ âm thầm đã được sửa xong. "Cảm giác ổn" đang tổng hợp từ thứ đó, không phải từ toàn bộ dữ liệu.

Lỗi im lặng đặc biệt nguy hiểm ở đây. Khi agent làm sai một thứ bạn bắt được và sửa nhanh, bạn không tính đó là sự kiện đáng nhớ — bạn tính đó là workflow bình thường. Nhưng mười lần như thế trong một tuần, mỗi lần mười lăm phút, là hai rưỡi tiếng bạn không đo. Và bạn vẫn nói "agent dạo này ổn lắm."

02Ba metric thực sự đo được cải thiện

Không cần hệ thống phức tạp. Ba con số này, theo dõi ngay cả không chính thức, cho bức tranh rõ hơn nhiều so với cảm giác:

1
Catch rate — bắt được bao nhiêu phần trăm lỗi trước khi ra ngoài

Trong 10 task gần nhất, có bao nhiêu lần bạn phát hiện lỗi trước khi output được dùng thật? Catch rate cao = verification đang hoạt động. Catch rate thấp = hoặc không có lỗi (tốt), hoặc lỗi đang lọt qua (nguy).

2
Rework rate — bao nhiêu phần trăm output cần sửa đáng kể

Sửa nhỏ (một dòng, một từ) là bình thường và không tính. Sửa đáng kể = phải đọc lại từ đầu, refactor logic, hay làm lại một phần. Tháng trước là bao nhiêu? Tháng này? Xu hướng đang đi về đâu?

3
Autonomy ceiling — task dài nhất agent chạy không cần bạn can thiệp

Không phải "task dài nhất bạn dám thả" — mà "task dài nhất nó chạy xong tốt mà không cần interrupt." Nếu con số này đang tăng, bạn đang thực sự mở rộng được gì. Nếu không đổi sau ba tháng — bạn đang dậm chân.

Ba con số này không cần spreadsheet. Bạn có thể ước lượng sau một tuần quan sát. Điểm mấu chốt: có một con số để so sánh, dù thô, tốt hơn nhiều so với không có gì để so sánh cả.

03Bốn dấu hiệu bạn đang đo sai

Bạn đang đo theo cách này không?
"Agent làm xong nhanh hơn" — đo tốc độ output, không tốc độ thựcagent tạo ra nhiều hơn không có nghĩa bạn ship được nhiều hơn nếu rework rate cao; tốc độ thực = output dùng được, không phải output tạo ra
"Ít phải nhắc lại hơn" — đo việc bạn sửa prompt, không đo chất lượng outputprompt ít lần qua lại hơn có thể nghĩa là bạn giỏi hơn, hoặc là bạn đang accept output kém hơn — cần phân biệt
"Không có sự cố nghiêm trọng" — đo theo incident, bỏ qua lỗi nhỏ tích lũykhông có cú ngã lớn ≠ đang tốt; có thể bạn đang tốn năng lượng liên tục cho những lỗi nhỏ mà không nhận ra tổng cộng là bao nhiêu
"Tôi cảm thấy năng suất hơn" — đo cảm giác, không đo đầu racảm giác năng suất thường đến từ busyness, không phải output — busy ≠ productive, với hoặc không có agent

Không phải để bác bỏ những nhận xét trên — chúng đều có thông tin. Nhưng chúng đo thứ dễ nhận ra, không phải thứ quan trọng. Và đo thứ dễ nhận ra thay vì thứ quan trọng là cách chính xác nhất để tin mình đang tiến bộ khi thực ra đang đứng yên.

04Không đo được thì không cải thiện được — theo hướng mình muốn

Có một điều thực ra ngay cả người dùng agent lâu năm cũng hay bỏ qua: agent không tự học từ những lỗi nó đã làm với bạn. Mỗi session bắt đầu lại từ đầu. Sự cải thiện trong workflow giữa bạn và agent chỉ đến từ một chiều: bạn thay đổi cách giao việc, cách check, cách thiết lập context.

Điều đó nghĩa là nếu bạn không đang theo dõi mình đang thay đổi điều gì — thực ra không có gì đang thay đổi. Bạn đang làm đúng y hệt tháng trước, chỉ là cảm giác quen hơn nên tưởng là tốt hơn.

Catch rate, rework rate, autonomy ceiling. Ba con số đó không yêu cầu nhiều. Nhưng chúng cho bạn một thứ cảm giác không có: một khoảng cách để so sánh, và một hướng để thực sự đi về phía trước.

c
Người viết

Mỗi câu chuyện ở đây gói một bài học đã trả giá để học.

craftagentmột người vừa xây vừa học
36bài11cụmVI·ENsong ngữ