Làm thế nào để mô hình biến mục tiêu giới hạn?

Tôi có 5 biến và tôi đang cố gắng dự đoán biến mục tiêu của mình phải nằm trong phạm vi từ 0 đến 70.

Làm cách nào để sử dụng mẩu thông tin này để mô hình hóa mục tiêu của tôi tốt hơn?

regression bounds

— người dùng333
nguồn

Câu trả lời:

Bạn không nhất thiết phải làm bất cứ điều gì. Có thể dự đoán sẽ hoạt động tốt. Ngay cả khi extrapolates dự đoán các giá trị bên ngoài phạm vi, có thể kẹp những dự đoán đến phạm vi (có nghĩa là, sử dụng $\max(0, \min(70, \hat{y}))$ thay vì ) sẽ làm tốt. Xác nhận chéo mô hình để xem liệu điều này hoạt động. $\hat{y}$

Tuy nhiên, phạm vi hạn chế làm tăng khả năng có mối quan hệ phi tuyến giữa biến phụ thuộc ( $y$ ) và biến độc lập ( $x_i$ ). Một số chỉ số bổ sung của điều này bao gồm:

Biến thể lớn hơn trong giá trị còn lại khi đang ở giữa phạm vi của nó, so với sự thay đổi trong dư ở hai đầu của dãy núi này. $\hat{y}$
Lý do lý thuyết cho các mối quan hệ phi tuyến tính cụ thể.
Bằng chứng về đặc tả sai mô hình (thu được theo các cách thông thường).
Ý nghĩa của các điều khoản bậc hai hoặc bậc cao trong . $x_i$

Xem xét biểu thức lại phi tuyến của trong trường hợp bất kỳ điều kiện nào trong số các điều kiện này được giữ. $y$

Có nhiều cách để thể hiện lại để tạo thêm mối quan hệ tuyến tính với . Chẳng hạn, bất kỳ hàm tăng được xác định trong khoảng đều có thể được "gấp lại" để tạo hàm tăng đối xứng thông qua . Nếu trở nên lớn và âm tùy ý khi đối số của nó tiến đến , phiên bản gấp của sẽ ánh xạ $y$ $x_i$ $f$ $[0,70]$ $y \to f(y) - f(70-y)$ $f$ $0$ $f$ $[0,70]$ vào tất cả các số thực. Ví dụ về các chức năng như vậy bao gồm logarit và bất kỳ công suất âm nào. Sử dụng logarit tương đương với "liên kết logit" được đề xuất bởi @ user603. Một cách khác là để là CDF nghịch đảo của bất kỳ phân phối xác suất nào và xác định . Sử dụng phân phối chuẩn cho phép chuyển đổi "probit". $G$ $f(y) = G(y/70)$

Một cách để khai thác các họ biến đổi là thử nghiệm: thử biến đổi có khả năng, thực hiện hồi quy nhanh của biến đổi so với và kiểm tra các phần dư: chúng có vẻ độc lập với các giá trị dự đoán của (homoscedastic và không tương thích ). Đây là những dấu hiệu của một mối quan hệ tuyến tính với các biến độc lập. Nó cũng giúp, nếu phần dư của các giá trị dự đoán được chuyển đổi ngược có xu hướng nhỏ. Điều này cho thấy sự chuyển đổi đã được cải thiện sự phù hợp. Để chống lại tác động của các ngoại lệ, hãy sử dụng các phương pháp hồi quy mạnh mẽ như bình phương tối thiểu lặp lại . $y$ $x_i$ $y$

— whuber
nguồn

+1 Câu trả lời tuyệt vời! Bạn có thể ngoại suy hoặc đưa ra một trích dẫn tại sao "sự thay đổi lớn hơn của các giá trị còn lại khi y_hat ở giữa phạm vi của nó, so với sự thay đổi của phần dư ở hai đầu của phạm vi" là một dấu hiệu của sự không tuyến tính?

— Andy McKenzie

@Andy Về lý thuyết, tính không đồng nhất như vậy không có mối liên hệ trực tiếp với phi tuyến, nhưng trong thực tế, người ta thường quan sát thấy rằng một phép biến đổi ổn định phương sai có xu hướng tuyến tính hóa các mối quan hệ. Bất kỳ đường cong nào tăng liên tục từ mức tối thiểu (như 0) đến mức tối đa (như 70) sẽ có độ dốc tối đa ở đâu đó ở giữa phạm vi đó, thường cũng dẫn đến phương sai dư lớn hơn ở đó. Đó là lý do tại sao chúng ta sẽ thấy các phần dư xuất hiện nhiều phương sai ở giữa và ít hơn ở phần cuối. Nếu điều đó là không như vậy, chúng ta có thể hy vọng cho mối quan hệ tuyến tính với untransformed biến.

— whuber

Điều quan trọng là phải xem xét tại sao các giá trị của bạn bị giới hạn trong phạm vi 0-70. Ví dụ: nếu chúng là số câu trả lời đúng trong bài kiểm tra 70 câu hỏi, thì bạn nên xem xét các mô hình cho các biến "số lần thành công", chẳng hạn như hồi quy nhị thức quá mức. Những lý do khác có thể dẫn bạn đến các giải pháp khác.

— Aniko
nguồn

Chuyển đổi dữ liệu: sắp xếp lại dữ liệu của bạn để nằm trong $[0,1]$ và mô hình hóa nó bằng mô hình glm với liên kết logit.

Chỉnh sửa: Khi bạn chia tỷ lệ lại một vectơ (tức là chia tất cả các phần tử cho mục nhập lớn nhất), theo quy tắc, trước khi bạn thực hiện điều đó, hãy sàng lọc (nhãn cầu) cho các ngoại lệ.

CẬP NHẬT

Giả sử bạn có quyền truy cập vào R, tôi sẽ thực hiện phần mô hình hóa với thói quen glm mạnh mẽ , xem $\verb+glmrob()+$ trong gói $\verb+robustbase+$ .

— người dùng603
nguồn

Việc kẹp dữ liệu theo khuyến nghị ở đây sẽ làm sai lệch độ dốc trong hồi quy.

— whuber

Ngoài ra, tôi không thấy giá trị ngay lập tức trong việc kẹp dựa trên các lượng tử mẫu, khi phạm vi thực sự của dữ liệu được biết là một tiên nghiệm.

— Đức hồng y

@Cardinal Điểm chính là (ví dụ) có thể 99% dữ liệu nằm trong [0,1] và các giá trị còn lại bằng 70: một ràng buộc nhỏ gọn trong phạm vi không đảm bảo không có ngoại lệ! Do đó, tôi đồng ý với tinh thần của lời khuyên được cung cấp bởi @ user603, mặc dù tôi lo ngại về sự thiên vị có thể có trong phương pháp đề xuất.

— whuber

@whuber: Xu hướng của tôi trong cài đặt như vậy sẽ là sử dụng GLM có khả năng chống lại các ngoại lệ thay vì hình thức kẹp này. Sau đó, để mô hình phù hợp điều chỉnh thông qua hệ số "chặn" và hệ số "độ dốc".

— Đức hồng y

@Cardinal Có, đó là một giải pháp hợp lệ. Tôi hy vọng việc sử dụng GLM như vậy vẫn sẽ được kèm theo các thủ tục chẩn đoán để kiểm tra tính tuyến tính (gần đúng) và tính độc lập của phần dư.

— whuber