Tôi có 5 biến và tôi đang cố gắng dự đoán biến mục tiêu của mình phải nằm trong phạm vi từ 0 đến 70.
Làm cách nào để sử dụng mẩu thông tin này để mô hình hóa mục tiêu của tôi tốt hơn?
Tôi có 5 biến và tôi đang cố gắng dự đoán biến mục tiêu của mình phải nằm trong phạm vi từ 0 đến 70.
Làm cách nào để sử dụng mẩu thông tin này để mô hình hóa mục tiêu của tôi tốt hơn?
Câu trả lời:
Bạn không nhất thiết phải làm bất cứ điều gì. Có thể dự đoán sẽ hoạt động tốt. Ngay cả khi extrapolates dự đoán các giá trị bên ngoài phạm vi, có thể kẹp những dự đoán đến phạm vi (có nghĩa là, sử dụng thay vì y ) sẽ làm tốt. Xác nhận chéo mô hình để xem liệu điều này hoạt động.
Tuy nhiên, phạm vi hạn chế làm tăng khả năng có mối quan hệ phi tuyến giữa biến phụ thuộc ( ) và biến độc lập ( ). Một số chỉ số bổ sung của điều này bao gồm:
Biến thể lớn hơn trong giá trị còn lại khi y đang ở giữa phạm vi của nó, so với sự thay đổi trong dư ở hai đầu của dãy núi này.
Lý do lý thuyết cho các mối quan hệ phi tuyến tính cụ thể.
Bằng chứng về đặc tả sai mô hình (thu được theo các cách thông thường).
Ý nghĩa của các điều khoản bậc hai hoặc bậc cao trong .
Xem xét biểu thức lại phi tuyến của trong trường hợp bất kỳ điều kiện nào trong số các điều kiện này được giữ.
Có nhiều cách để thể hiện lại để tạo thêm mối quan hệ tuyến tính với x i . Chẳng hạn, bất kỳ hàm tăng f nào được xác định trong khoảng [ 0 , 70 ] đều có thể được "gấp lại" để tạo hàm tăng đối xứng thông qua y → f ( y ) - f ( 70 - y ) . Nếu f trở nên lớn và âm tùy ý khi đối số của nó tiến đến 0 , phiên bản gấp của f sẽ ánh xạ [ 0 , 70 ]vào tất cả các số thực. Ví dụ về các chức năng như vậy bao gồm logarit và bất kỳ công suất âm nào. Sử dụng logarit tương đương với "liên kết logit" được đề xuất bởi @ user603. Một cách khác là để là CDF nghịch đảo của bất kỳ phân phối xác suất nào và xác định f ( y ) = G ( y / 70 ) . Sử dụng phân phối chuẩn cho phép chuyển đổi "probit".
Một cách để khai thác các họ biến đổi là thử nghiệm: thử biến đổi có khả năng, thực hiện hồi quy nhanh của biến đổi so với x i và kiểm tra các phần dư: chúng có vẻ độc lập với các giá trị dự đoán của y (homoscedastic và không tương thích ). Đây là những dấu hiệu của một mối quan hệ tuyến tính với các biến độc lập. Nó cũng giúp, nếu phần dư của các giá trị dự đoán được chuyển đổi ngược có xu hướng nhỏ. Điều này cho thấy sự chuyển đổi đã được cải thiện sự phù hợp. Để chống lại tác động của các ngoại lệ, hãy sử dụng các phương pháp hồi quy mạnh mẽ như bình phương tối thiểu lặp lại .
Điều quan trọng là phải xem xét tại sao các giá trị của bạn bị giới hạn trong phạm vi 0-70. Ví dụ: nếu chúng là số câu trả lời đúng trong bài kiểm tra 70 câu hỏi, thì bạn nên xem xét các mô hình cho các biến "số lần thành công", chẳng hạn như hồi quy nhị thức quá mức. Những lý do khác có thể dẫn bạn đến các giải pháp khác.
Chuyển đổi dữ liệu: sắp xếp lại dữ liệu của bạn để nằm trong và mô hình hóa nó bằng mô hình glm với liên kết logit.
Chỉnh sửa: Khi bạn chia tỷ lệ lại một vectơ (tức là chia tất cả các phần tử cho mục nhập lớn nhất), theo quy tắc, trước khi bạn thực hiện điều đó, hãy sàng lọc (nhãn cầu) cho các ngoại lệ.
CẬP NHẬT
Giả sử bạn có quyền truy cập vào R, tôi sẽ thực hiện phần mô hình hóa với thói quen glm mạnh mẽ , xem trong gói .