Các nhà thống kê cho rằng người ta không thể tưới cây, hay tôi chỉ sử dụng thuật ngữ tìm kiếm sai cho hồi quy curvilinear?


18

Hầu hết mọi thứ tôi đọc về hồi quy tuyến tính và GLM đều hiểu rõ điều này: trong đó là hàm không tăng hoặc không giảm của và là tham số bạn ước tính và kiểm tra các giả thuyết về. Có hàng tá hàm liên kết và biến đổi của và để biến thành hàm tuyến tính của .f ( x , β ) x β y x y f ( x , β )y=f(x,β)f(x,β)xβyxyf(x,β)

Bây giờ, nếu bạn loại bỏ yêu cầu không tăng / không giảm đối với , tôi chỉ biết có hai lựa chọn để phù hợp với mô hình tuyến tính tham số: hàm trig và đa thức. Cả hai đều tạo ra sự phụ thuộc nhân tạo giữa từng dự đoán và toàn bộ , khiến chúng trở nên không phù hợp trừ khi có những lý do trước đó để tin rằng dữ liệu của bạn thực sự được tạo ra bởi một quá trình đa chu kỳ hoặc đa thức.y Xf(x,β)yX

Đây không phải là một số loại trường hợp cạnh bí truyền. Đó là mối quan hệ thực tế, thông thường giữa nước và năng suất cây trồng (một khi các ô đủ sâu dưới nước, năng suất cây trồng sẽ bắt đầu giảm dần), hoặc giữa lượng calo tiêu thụ vào bữa sáng và hiệu suất trong bài kiểm tra toán học, hoặc số công nhân trong một nhà máy và số lượng vật dụng họ sản xuất ... trong ngắn hạn, hầu hết mọi trường hợp thực tế sử dụng mô hình tuyến tính nhưng với dữ liệu bao phủ một phạm vi đủ rộng để bạn vượt qua lợi nhuận giảm dần thành lợi nhuận âm.

Tôi đã cố gắng tìm kiếm các thuật ngữ 'lõm', 'lồi', 'đường cong', 'không đơn điệu', 'bồn tắm' và tôi quên mất bao nhiêu người khác. Vài câu hỏi liên quan và thậm chí ít câu trả lời có thể sử dụng. Vì vậy, trong điều kiện thực tế, nếu bạn có dữ liệu sau (mã R, y là hàm của biến liên tục x và nhóm biến rời rạc):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Phân tán

Trước tiên, bạn có thể thử chuyển đổi Box-Cox và xem liệu nó có ý nghĩa cơ học hay không, và bạn có thể phù hợp với mô hình bình phương nhỏ nhất phi tuyến với chức năng liên kết logistic hoặc tiệm cận.

Vì vậy, tại sao bạn nên từ bỏ hoàn toàn các mô hình tham số và quay lại phương thức hộp đen như splines khi bạn phát hiện ra rằng tập dữ liệu đầy đủ trông như thế này ...

plot(y~x,updown,col=group);

Câu hỏi của tôi là:

  • Những thuật ngữ nào tôi nên tìm kiếm để tìm các hàm liên kết đại diện cho lớp các mối quan hệ chức năng này?

hoặc là

  • Tôi nên đọc và / hoặc tìm kiếm gì để tự dạy mình cách thiết kế các hàm liên kết với lớp mối quan hệ chức năng này hoặc mở rộng các mối quan hệ hiện có chỉ dành cho phản hồi đơn điệu?

hoặc là

  • Heck, ngay cả những gì thẻ StackExchange thích hợp nhất cho loại câu hỏi này!

4
Tôi không biết bạn đang hỏi gì. Bạn muốn phù hợp với một hàm không đơn điệu của ... chính xác thì vấn đề của bạn với hồi quy đa thức hay hồi quy sin là gì ?? Ngoài ra ... "chức năng liên kết" ... bạn tiếp tục sử dụng từ đó ... Tôi không nghĩ nó có nghĩa như bạn nghĩ. x
Jake Westfall

5
(1) RMã của bạn có lỗi cú pháp: groupkhông nên trích dẫn. (2) Cốt truyện rất đẹp: các chấm đỏ thể hiện mối quan hệ tuyến tính trong khi các điểm đen có thể phù hợp theo nhiều cách, bao gồm hồi quy tuyến tính từng phần (thu được với mô hình thay đổi) và thậm chí có thể theo cấp số nhân. Tuy nhiên, tôi không khuyến nghị những điều này bởi vì các lựa chọn mô hình hóa phải được thông báo bằng sự hiểu biết về những gì tạo ra dữ liệu và được thúc đẩy bởi các lý thuyết trong các ngành liên quan. Họ có thể là một khởi đầu tốt hơn cho nghiên cứu của bạn.
whuber

1
@ xin cảm ơn! Đã sửa mã. Về động lực lý thuyết: những thứ này đến từ đâu? Các cộng tác viên khoa học băng ghế dự bị của tôi sẽ vui vẻ phân đôi các biến dự đoán và thực hiện các thử nghiệm t trên chúng. Vì vậy, tôi tìm cách ngăn chặn lãng phí dữ liệu bằng cách tìm mối quan hệ toán học nắm bắt quá trình chuyển đổi từ "y tương quan dương với x" sang "y có ít phản ứng với x" thành "y tương quan nghịch với x". Không làm được điều đó, tôi sẽ phải tóm tắt lại những gì, ví dụ, Michaelis và Menten đã làm gì khi họ tìm thấy mối quan hệ giữa enzyme, cơ chất và sản phẩm.
F1r3br4 và

1
Là những điểm mà những điều đó 'kink' được biết trước?
Glen_b -Reinstate Monica

3
+1 cho tiêu đề khiêu khích và theo dõi thực sự có ý nghĩa
Stumpy Joe Pete

Câu trả lời:


45

Các nhận xét trong câu hỏi về chức năng liên kết và tính đơn điệu là một cá trích đỏ. Cơ bản chúng có vẻ là một giả định ngầm rằng một mô hình khái quát hóa tuyến tính (GLM), bằng cách bày tỏ sự mong đợi của một phản ứng như một hàm số đơn điệu f của một tổ hợp tuyến tính X β của giải thích các biến X , là không đủ linh hoạt để chiếm phi phản ứng đơn điệu. Điều đó không đúng.YfXβX


Có lẽ một ví dụ làm việc sẽ chiếu sáng điểm này. Trong một nghiên cứu năm 1948 (được công bố vào năm 1977 và không bao giờ được đánh giá ngang hàng), J. Tolkien đã báo cáo kết quả của một thí nghiệm tưới cây trong đó 13 nhóm hoa hướng dương ( Helianthus Gondorensis ) đã được cung cấp lượng nước kiểm soát bắt đầu từ lúc nảy mầm trong ba tháng của sự tăng trưởng. Tổng số tiền được áp dụng thay đổi từ một inch đến 25 inch với gia số hai inch.

Hình 1

Có một phản ứng tích cực rõ ràng đối với việc tưới nước và một phản ứng tiêu cực mạnh mẽ đối với việc tưới nước quá mức. Công trình trước đó, dựa trên các mô hình động lực học giả thuyết về vận chuyển ion, đã đưa ra giả thuyết rằng hai cơ chế cạnh tranh có thể giải thích cho hành vi này: một cơ chế dẫn đến phản ứng tuyến tính với một lượng nước nhỏ (như được đo bằng tỷ lệ sống sót của log), trong khi cơ chế kia - -an yếu tố ức chế - hành động theo cấp số nhân (đó là một hiệu ứng phi tuyến tính mạnh). Với một lượng lớn nước, yếu tố ức chế sẽ lấn át các tác động tích cực của nước và làm tăng đáng kể tỷ lệ tử vong.

κYnx

Nhị thức(n,f(β0+β1x-β2điểm kinh nghiệm(κx)))
fxκβ0β1β2f-1(E[Y])x1β0xβ1-điểm kinh nghiệm(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Không có khó khăn kỹ thuật; việc tính toán chỉ mất 1/30 giây.

Hình 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Câu trả lời cho các câu hỏi là:

Những thuật ngữ nào tôi nên tìm kiếm để tìm các hàm liên kết đại diện cho lớp các mối quan hệ chức năng này?

Không có : đó không phải là mục đích của chức năng liên kết.

Tôi nên ... tìm kiếm gì để ... mở rộng [các chức năng liên kết] hiện chỉ dành cho các phản hồi đơn điệu?

Không có gì : điều này dựa trên sự hiểu lầm về cách các câu trả lời được mô hình hóa.

Rõ ràng, trước tiên người ta nên tập trung vào những biến giải thích sẽ sử dụng hoặc xây dựng khi xây dựng mô hình hồi quy. Như được đề xuất trong ví dụ này, hãy tìm hướng dẫn từ kinh nghiệm và lý thuyết trong quá khứ.


câu trả lời tuyệt vời Đây có phải là dữ liệu thực tế từ tiểu thuyết?
Cam.Davidson.Pilon

1
@Cam Dữ liệu không được đưa vào lần cắt cuối cùng :-). (Bối cảnh khá là tặc lưỡi, tôi sợ.)
whuber

1
κ

5
κκχ2(1)

1
@zipzapboing Ví dụ tôi đưa ra ở đây rất đặc biệt vì nó được thông báo bởi một lý thuyết cơ bản. Khi có thông tin như vậy, nó có thể là một hướng dẫn mạnh mẽ để chọn một mô hình. Tuy nhiên, trong nhiều trường hợp, không có thông tin như vậy, hoặc người ta chỉ hy vọng rằng phản ứng dự kiến ​​có thể thay đổi đơn điệu với các biến hồi quy. Có lẽ lý do cơ bản nhất mà người ta có thể chỉ ra là hy vọng rằng phản hồi thay đổi khác nhau với các biến hồi quy và đối với phạm vi của các biến hồi quy trong dữ liệu, sự thay đổi trong đạo hàm là nhỏ: một phản ứng tuyến tính sẽ gần đúng như vậy.
whuber

9

Trông có vẻ tội lỗi với cái cây đang chết trên bàn của mình .... dường như không

Trong các bình luận, @whuber nói rằng "các lựa chọn mô hình hóa phải được thông báo bằng sự hiểu biết về những gì tạo ra dữ liệu và được thúc đẩy bởi các lý thuyết trong các ngành liên quan", mà bạn đã hỏi về cách thực hiện điều này.

Động học Michaelis và Menten thực sự là một ví dụ khá hữu ích. Những phương trình này có thể được bắt nguồn bằng cách bắt đầu với một số giả định (ví dụ, chất nền ở trạng thái cân bằng với phức chất của nó, enzyme không được tiêu thụ) và một số nguyên tắc đã biết (quy luật của hành động khối lượng). Sinh học toán học của Murray: Một bài giới thiệu đi qua đạo hàm trong chương 6 (Tôi cá là nhiều cuốn sách khác cũng vậy!).

Tổng quát hơn, nó giúp xây dựng một "tiết mục" của các mô hình và giả định. Tôi chắc rằng lĩnh vực của bạn có một số mô hình thường được chấp nhận, được thử nghiệm theo thời gian. Ví dụ, nếu một cái gì đó đang sạc hoặc xả, tôi sẽ đạt được một hàm mũ để mô hình điện áp của nó như là một hàm của thời gian. Ngược lại, nếu tôi thấy một hình dạng giống như hàm mũ trong một biểu đồ thời gian điện áp, thì dự đoán đầu tiên của tôi là một thứ gì đó trong mạch đang phóng điện và nếu tôi không biết nó là gì, tôi sẽ cố gắng tìm ra nó. Lý tưởng nhất, lý thuyết có thể giúp bạn xây dựng mô hình và đề xuất các thí nghiệm mới.

y= =k-(x+h)2CO2 bắt từ thoát hơi nước?) và lũ lụt (vi khuẩn ăn rễ cây?) có thể gợi ý một hình thức cụ thể cho từng mảnh.


8

Tôi có một phản hồi khá không chính thức từ quan điểm của một người đã dành một nửa cuộc đời khoa học của mình tại băng ghế dự bị và nửa còn lại ở máy tính, chơi với các số liệu thống kê. Tôi đã cố gắng đưa vào một bình luận, nhưng nó quá dài.

Bạn thấy đấy, nếu tôi là một nhà khoa học quan sát loại kết quả mà bạn đang nhận được, tôi sẽ rất vui mừng. Các mối quan hệ đơn điệu khác nhau là nhàm chán và khó phân biệt. Tuy nhiên, loại mối quan hệ mà bạn chỉ cho chúng tôi đề xuất một hiệu ứng rất đặc biệt. Nó cho chúng ta một sân chơi tuyệt vời cho các nhà lý luận để đưa ra các giả thuyết về mối quan hệ là gì, nó thay đổi như thế nào ở các thái cực. Nó cung cấp một sân chơi tuyệt vời cho các nhà khoa học băng ghế dự bị để tìm hiểu những gì đang xảy ra và thử nghiệm rộng rãi về các điều kiện.

Theo một nghĩa nào đó, tôi muốn có trường hợp bạn đang trình bày và không biết làm thế nào để phù hợp với một mô hình đơn giản (nhưng có thể đưa ra một giả thuyết mới) hơn là có một mối quan hệ đơn giản, dễ mô hình nhưng khó điều tra một cách máy móc. Tuy nhiên, tôi chưa gặp trường hợp nào như vậy trong thực tế.

Cuối cùng, có thêm một sự cân nhắc. Nếu bạn đang tìm kiếm một bài kiểm tra cho thấy màu đen khác với màu đỏ (trong dữ liệu của bạn) - với tư cách là một nhà khoa học băng ghế dự bị, tôi nói tại sao thậm chí còn bận tâm? Nó đủ rõ ràng từ hình.


5

Đối với dữ liệu như vậy, có lẽ tôi ít nhất sẽ xem xét các spline tuyến tính.

Bạn có thể làm những việc trong lm hoặc glm đủ dễ dàng.

Nếu bạn thực hiện một cách tiếp cận như vậy, vấn đề của bạn sẽ là chọn số lượng nút và vị trí nút; một giải pháp có thể là xem xét một số lượng lớn các vị trí có thể, và sử dụng một cái gì đó như Lasso hoặc các phương pháp chính quy và lựa chọn khác để xác định một tập hợp nhỏ; bạn sẽ cần phải tính đến ảnh hưởng của lựa chọn đó trong suy luận.


Nhưng về cơ bản, không phải hồi quy spline nói rằng "có một hàm chưa biết mô tả hình dạng của phản hồi và chúng ta sẽ chỉ kiểm tra các giả thuyết về cách các biến khác dịch chuyển đường cong này lên / xuống hoặc nghiêng nó"? Điều gì xảy ra nếu một điều trị làm thay đổi hình dạng - làm thế nào để diễn giải một thuật ngữ tương tác như vậy nếu nó có ý nghĩa?
F1r3br4nd

2
Làm thế nào chung là thay thế? Ngay cả đối với trường hợp chung, có nhiều cách tiếp cận khác nhau, trong đó bạn có thể so sánh sự phù hợp với giả định các hàm không theo tỷ lệ giống hệt như so với các hàm riêng biệt. Các mô hình phụ gia và mô hình phụ gia tổng quát có thể đối phó với các so sánh như vậy.
Glen_b -Reinstate Monica

Như một ví dụ về trường hợp tổng quát hơn bạn thảo luận (với các tài liệu tham khảo thảo luận về nhiều cách tiếp cận khác nhau), nếu bạn có thể nắm bắt được nó, hãy xem bài viết này J.Roca-Pardiñas et al (2006) "Dựa trên Bootstrap phương pháp kiểm tra các tương tác theo từng đường cong trong các mô hình phụ gia tổng quát: đánh giá hoạt động thần kinh vỏ não trước trán liên quan đến việc ra quyết định ", Thống kê trong Y học , 30 tháng 7; 25 (14): 2483-501. Trong bài báo đó, họ sử dụng bootstrapping (và binning để giảm gánh nặng tính toán), nhưng có những cách tiếp cận khác được đề cập ở đó.
Glen_b -Reinstate Monica

Một tài liệu tham khảo cơ bản và cũ hơn sẽ là một cái gì đó giống như Hastie và Tibshirani (1990), Mô hình phụ gia tổng quát (ví dụ, xem p265). Ngoài ra, hãy xem đây , cụ thể, phương trình cuối cùng trên slide 34. Khoảng đó nó cũng giải thích làm thế nào để phù hợp với một mô hình như vậy sử dụng gamtrong gói R mgcv.
Glen_b -Reinstate Monica

2

Tôi không có thời gian để đọc toàn bộ bài viết của bạn, nhưng dường như mối quan tâm chính của bạn là các hình thức phản hồi chức năng có thể thay đổi với các phương pháp điều trị. Có các kỹ thuật để xử lý vấn đề này, nhưng chúng đòi hỏi nhiều dữ liệu.
Để ví dụ cụ thể của bạn:

G là tăng trưởng W là nước T đang điều trị

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

Thập kỷ vừa qua đã chứng kiến ​​rất nhiều nghiên cứu về hồi quy bán đảo, và những chú bò này về các dạng chức năng đang ngày càng dễ quản lý hơn. Nhưng vào cuối ngày, các số liệu thống kê đang chơi với các con số và chỉ hữu ích khi nó xây dựng trực giác về các hiện tượng được quan sát. Điều này đến lượt nó đòi hỏi phải hiểu về cách mà các con số đang được chơi với. Giai điệu bài đăng của bạn cho thấy sự sẵn lòng ném em bé ra ngoài bằng nước tắm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.