Làm thế nào để mở rộng các quan sát mới để đưa ra dự đoán khi mô hình được gắn dữ liệu tỷ lệ?


13

Tôi hiểu khái niệm nhân rộng ma trận dữ liệu để sử dụng trong mô hình hồi quy tuyến tính. Ví dụ: trong R bạn có thể sử dụng:

scaled.data <- scale(data, scale=TRUE)

Câu hỏi duy nhất của tôi là, đối với các quan sát mới mà tôi muốn dự đoán các giá trị đầu ra, chúng được chia tỷ lệ chính xác như thế nào? Nó sẽ là , scaled.new <- (new - mean(data)) / std(data)?


1
Để lấy lại các giá trị chỉ cần làm y = y_esc * sd(y) + mean(y), nhưng điều đó sẽ gây rối với các thuộc tính mô hình mà tôi đoán, vì vậy tôi cũng đang chờ câu trả lời kỹ thuật hơn!
Fernando

Tôi không muốn các giá trị trở lại, tôi muốn biết làm thế nào các trường hợp mới có thể được thu nhỏ chính xác theo cùng một cách. Tôi đã chỉnh sửa câu hỏi của tôi dựa trên nhận xét của bạn.
SamuelNLP

Câu trả lời:


13

Câu trả lời ngắn cho câu hỏi của bạn là, có - biểu thức đó cho tỷ lệ. Mới là chính xác (ngoại trừ bạn muốn sdthay vì std).

Có thể đáng lưu ý rằng thang đo có các đối số tùy chọn mà bạn có thể sử dụng:

scaled.new <- scale(new, center = mean(data), scale = sd(data))

Ngoài ra, đối tượng được trả về theo tỷ lệ (scaleed.data) có các thuộc tính giữ định tâm số và tỷ lệ được sử dụng (nếu có), mà bạn có thể sử dụng:

scaled.new <- scale(new, attr(scaled.data, "scaled:center"), attr(scaled.data, "scaled:scale"))

Lợi thế của điều đó xuất hiện khi dữ liệu gốc có nhiều hơn một cột, do đó, có nhiều phương tiện và / hoặc độ lệch chuẩn cần xem xét.


Tôi ước có một cách đơn giản hơn để làm điều này, nhưscaled.new <- scale(new, use.attrs = scaled.data)
lời giới thiệu

@wordsforthewise Sẽ không khó để viết một trình bao bọc cho scale.default để đạt được điều đó. Tôi nghi ngờ rằng R-core sẽ ưu tiên cao cho nó.
20637

Vâng. Nếu tôi có thể tìm ra cách đóng góp cho R-core và tìm thời gian để làm điều đó, tôi có thể làm điều đó.
lời giới thiệu
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.