Agent của bạn giỏi việc quen — bạn đã thấy nó làm trăm lần. Rồi bạn giao một việc ở miền hoàn toàn mới và mặc định nó cũng giỏi y vậy. Cùng một con agent, nhưng giỏi review code không có nghĩa là giỏi phân tích pháp lý hay đọc số liệu ngành lạ. Bạn chỉ phát hiện khi nó đã làm xong nguyên việc lớn — và sai theo kiểu bạn không ngờ.
Người làm lâu không tin thẳng vào miền mới. Họ thử một mảnh nhỏ trước, quan sát cách agent tiếp cận, rồi mới chỉnh mức tin. Không phải vì nghi ngờ — vì cùng một model behave khác nhau tùy domain, và một mảnh nhỏ cho bạn biết khác chỗ nào trước khi nó kịp đắt.
✕ Giao thẳng việc lớn
✓ Thử mảnh nhỏ trước
Dán nó ở lần đầu giao một loại việc mới, không phải mỗi lần. Mấu chốt là bắt nó lộ cách nghĩ chứ không chỉ đưa kết quả — vì cái bạn đang đo không phải "kết quả đúng không", mà "cách nó tiếp cận có khớp cái miền này thật sự cần không". Một mảnh nhỏ làm đúng cách đáng tin hơn một mảnh lớn ra kết quả đúng nhờ may.