Bạn không để ý khi nào task đó trở thành bình thường.
Trước đây, với những việc phức tạp, bạn đọc lại kỹ trước khi dùng. Rồi một ngày bạn cần kết quả nhanh — bạn lướt qua và mọi thứ vẫn ổn. Rồi lại ổn. Rồi thêm vài lần nữa vẫn ổn. Thói quen cũ mờ dần không phải vì bạn quyết định bỏ — mà vì nó bị reinforced ra đi.
Không có khoảnh khắc rõ ràng. Chỉ có một ngày bạn nhìn lại và nhận ra: những gì bạn giao hôm nay, một năm trước bạn sẽ tự làm.
Không phải tiến bộ đơn thuần. Đó cũng có thể là khoảnh khắc bạn bước vào bẫy.
01Sự tự tin tăng theo kết quả. Sự hiệu chỉnh tăng theo hiểu biết. Hai cái không đồng tốc.
Có hai thứ bạn xây khi làm với agent lâu: sự tự tin và sự hiệu chỉnh.
Sự tự tin lớn theo kết quả. Mỗi lần agent làm đúng, bạn cảm thấy chắc hơn một chút. Rất tự nhiên — đây là cách não học từ phản hồi tích cực.
Sự hiệu chỉnh lớn theo hiểu biết về cách agent thất bại. Không chỉ là "nó đã sai lần đó" — mà là tại sao nó sai, loại task nào nó hay sai, dấu hiệu nào xuất hiện trước khi nó sai. Cái này không tự đến chỉ từ kết quả tốt.
Vấn đề là sau ba tháng, bạn thường có nhiều kết quả tốt hơn là nhiều insight về failure mode. Sự tự tin tăng nhanh. Sự hiệu chỉnh tăng chậm hơn nhiều.
Khoảng trống giữa hai đường đó là chỗ giai đoạn 3 sống.
Người ở giai đoạn 3 không phải người không cẩn thận. Họ tin có căn cứ — chỉ là căn cứ của họ chủ yếu là "nó đã làm tốt nhiều lần". Mà căn cứ đó không đủ khi bạn bắt đầu giao task ở vùng chưa test.
02Bốn hành vi cho thấy confidence đang vượt qua calibration
Những dấu hiệu này không xuất hiện to và rõ. Chúng len lỏi.
Không cần đủ cả bốn. Nếu bạn nhận ra một thứ trong đây và nó quen — đó là đủ để dừng lại hỏi.
03Thoát ra không phải là cẩn thận hơn — mà là cập nhật model nhanh hơn
Cái ngộ nhận phổ biến: thoát khỏi giai đoạn 3 nghĩa là verify nhiều hơn, chậm lại. Không phải vậy.
Thoát khỏi giai đoạn 3 nghĩa là tốc độ học về failure mode theo kịp tốc độ tích lũy kết quả tốt. Bạn vẫn làm nhanh — bạn chỉ cập nhật model nhanh hơn mỗi khi gặp kết quả bất ngờ, dù bất ngờ theo hướng nào.
Hai thói quen thực tế:
Không phải test để kiểm tra agent — test để kiểm tra calibration của bạn. Nếu kết quả test nhỏ ngạc nhiên bạn theo bất kỳ hướng nào, bạn chưa có đủ model để giao task thật với stakes cao. Làm thêm một vòng nhỏ trước khi leo lên task thật.
Không chỉ khi agent sai — cả khi nó đúng theo cách bạn không dự đoán. Mỗi lần bất ngờ là cơ hội cập nhật model, không phải chỉ ghi nhận kết quả. Thói quen này là thứ làm calibration tăng theo kịp confidence.
Hai thói quen này không làm bạn chậm lại đáng kể. Chúng làm khoảng trống giữa confidence và calibration hẹp lại theo thời gian thay vì mở rộng.
04Mỗi domain mới là một tháng thứ ba mới
Bẫy này không chỉ xảy ra một lần. Mỗi khi bạn mở rộng sang domain mới, loại task khác, hoặc agent khác — vòng lặp có thể bắt đầu lại.
Sự tự tin xây lại nhanh, dựa trên pattern từ context cũ. Calibration cho domain mới bắt đầu từ đầu. Khoảng trống mở ra.
Biết điều đó không phải để lo. Mà để nhận ra khi nào mình đang ở giai đoạn mới của chu kỳ, và khi đó nên dựa vào test nhỏ thay vì uy tín từ context cũ.
Khoảng trống giữa confidence và calibration là phần bình thường của quá trình học. Cái nguy hiểm là khi bạn không biết khoảng trống đó đang rộng ra — và bước qua nó như thể không có.