Tôi có một câu hỏi thực tế về kỹ thuật tính năng ... nói rằng tôi muốn dự đoán giá nhà bằng cách sử dụng hồi quy logistic và sử dụng một loạt các tính năng bao gồm mã zip. Sau đó, bằng cách kiểm tra mức độ quan trọng của tính năng, tôi nhận thấy zip là một tính năng khá tốt, vì vậy tôi quyết định thêm một số tính năng dựa trên zip - ví dụ: tôi đến văn phòng điều tra dân số và nhận thu nhập trung bình, dân số, số trường và số của bệnh viện của mỗi zip. Với bốn tính năng mới này, tôi thấy các mô hình biểu diễn tốt hơn bây giờ. Vì vậy, tôi thêm nhiều tính năng liên quan đến zip hơn nữa ... Và chu trình này cứ lặp đi lặp lại. Cuối cùng, mô hình sẽ bị chi phối bởi các tính năng liên quan đến zip, phải không?
Những câu hỏi của tôi:
- Liệu nó có ý nghĩa làm những điều này ở nơi đầu tiên?
- Nếu có, làm thế nào để tôi biết khi nào là thời điểm tốt để dừng chu kỳ này?
- Nếu không, tai sao không?