Hầu hết mọi thứ tôi đọc về hồi quy tuyến tính và GLM đều hiểu rõ điều này: trong đó là hàm không tăng hoặc không giảm của và là tham số bạn ước tính và kiểm tra các giả thuyết về. Có hàng tá hàm liên kết và biến đổi của và để biến thành hàm tuyến tính của .f ( x , β ) x β y x y f ( x , β )
Bây giờ, nếu bạn loại bỏ yêu cầu không tăng / không giảm đối với , tôi chỉ biết có hai lựa chọn để phù hợp với mô hình tuyến tính tham số: hàm trig và đa thức. Cả hai đều tạo ra sự phụ thuộc nhân tạo giữa từng dự đoán và toàn bộ , khiến chúng trở nên không phù hợp trừ khi có những lý do trước đó để tin rằng dữ liệu của bạn thực sự được tạo ra bởi một quá trình đa chu kỳ hoặc đa thức.y X
Đây không phải là một số loại trường hợp cạnh bí truyền. Đó là mối quan hệ thực tế, thông thường giữa nước và năng suất cây trồng (một khi các ô đủ sâu dưới nước, năng suất cây trồng sẽ bắt đầu giảm dần), hoặc giữa lượng calo tiêu thụ vào bữa sáng và hiệu suất trong bài kiểm tra toán học, hoặc số công nhân trong một nhà máy và số lượng vật dụng họ sản xuất ... trong ngắn hạn, hầu hết mọi trường hợp thực tế sử dụng mô hình tuyến tính nhưng với dữ liệu bao phủ một phạm vi đủ rộng để bạn vượt qua lợi nhuận giảm dần thành lợi nhuận âm.
Tôi đã cố gắng tìm kiếm các thuật ngữ 'lõm', 'lồi', 'đường cong', 'không đơn điệu', 'bồn tắm' và tôi quên mất bao nhiêu người khác. Vài câu hỏi liên quan và thậm chí ít câu trả lời có thể sử dụng. Vì vậy, trong điều kiện thực tế, nếu bạn có dữ liệu sau (mã R, y là hàm của biến liên tục x và nhóm biến rời rạc):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Trước tiên, bạn có thể thử chuyển đổi Box-Cox và xem liệu nó có ý nghĩa cơ học hay không, và bạn có thể phù hợp với mô hình bình phương nhỏ nhất phi tuyến với chức năng liên kết logistic hoặc tiệm cận.
Vì vậy, tại sao bạn nên từ bỏ hoàn toàn các mô hình tham số và quay lại phương thức hộp đen như splines khi bạn phát hiện ra rằng tập dữ liệu đầy đủ trông như thế này ...
plot(y~x,updown,col=group);
Câu hỏi của tôi là:
- Những thuật ngữ nào tôi nên tìm kiếm để tìm các hàm liên kết đại diện cho lớp các mối quan hệ chức năng này?
hoặc là
- Tôi nên đọc và / hoặc tìm kiếm gì để tự dạy mình cách thiết kế các hàm liên kết với lớp mối quan hệ chức năng này hoặc mở rộng các mối quan hệ hiện có chỉ dành cho phản hồi đơn điệu?
hoặc là
- Heck, ngay cả những gì thẻ StackExchange thích hợp nhất cho loại câu hỏi này!
R
Mã của bạn có lỗi cú pháp: group
không nên trích dẫn. (2) Cốt truyện rất đẹp: các chấm đỏ thể hiện mối quan hệ tuyến tính trong khi các điểm đen có thể phù hợp theo nhiều cách, bao gồm hồi quy tuyến tính từng phần (thu được với mô hình thay đổi) và thậm chí có thể theo cấp số nhân. Tuy nhiên, tôi không khuyến nghị những điều này bởi vì các lựa chọn mô hình hóa phải được thông báo bằng sự hiểu biết về những gì tạo ra dữ liệu và được thúc đẩy bởi các lý thuyết trong các ngành liên quan. Họ có thể là một khởi đầu tốt hơn cho nghiên cứu của bạn.