Khi nào nên sử dụng GAM vs GLM


13

Tôi nhận ra đây có thể là một câu hỏi có khả năng rộng, nhưng tôi đã tự hỏi liệu có những giả định khái quát nào cho thấy việc sử dụng GAM (mô hình phụ gia tổng quát) trên GLM (mô hình tuyến tính tổng quát) không?

Một số người gần đây đã nói với tôi rằng GAM chỉ nên được sử dụng khi tôi giả sử cấu trúc dữ liệu là "phụ gia", tức là tôi mong đợi các bổ sung của x để dự đoán y. Một người khác chỉ ra rằng GAM thực hiện một loại phân tích hồi quy khác với GLM và GLM được ưa thích khi tuyến tính có thể được giả định.

Trước đây, tôi đã sử dụng GAM cho dữ liệu sinh thái, ví dụ:

  • thời gian liên tục
  • khi dữ liệu không có hình dạng tuyến tính
  • Tôi đã có nhiều x để dự đoán y của mình mà tôi nghĩ rằng có một số tương tác phi tuyến mà tôi có thể hình dung bằng cách sử dụng "các ô bề mặt" cùng với một bài kiểm tra thống kê

Tôi rõ ràng không có hiểu biết lớn về những gì GAM làm khác với GLM. Tôi tin rằng đây là một thử nghiệm thống kê hợp lệ, (và tôi thấy sự gia tăng sử dụng GAM, ít nhất là trong các tạp chí sinh thái), nhưng tôi cần biết rõ hơn khi sử dụng được chỉ định qua các phân tích hồi quy khác.


GAM được sử dụng khi bộ dự báo tuyến tính phụ thuộc tuyến tính vào các hàm trơn chưa biết của một số biến dự đoán.
dùng2974951

1
Sự khác biệt là mờ khi bạn có thể biểu diễn các biến số, ví dụ bằng một spline cũng trong GLM.
Michael M

3
Mặc dù sự khác biệt là mờ nhạt, nhưng gam có thể thể hiện sự tương tác theo cách của smm vì không cần phải nghiện quá nghiêm ngặt, sự khác biệt lớn là trong suy luận: gam cần các phương pháp đặc biệt, vì ước tính không được thực hiện thông qua chiếu, mà thông qua làm mịn. Điều đó không có nghĩa gì trong thực tế, tôi không hiểu.
kjetil b halvorsen

GLM GAM.
usεr11852 nói Phục hồi Monic

Câu trả lời:


13

Sự khác biệt chính là trong khi các dạng tuyến tính "cổ điển" hoặc tuyến tính tổng quát, các mô hình giả định một dạng tuyến tính cố định hoặc một số dạng tham số khác của mối quan hệ giữa biến phụ thuộc và biến số, GAM không giả sử bất kỳ dạng cụ thể nào của điều này mối quan hệ, và có thể được sử dụng để tiết lộ và ước tính các hiệu ứng phi tuyến tính của hiệp phương sai trên biến phụ thuộc. Chi tiết hơn, trong khi ở (tổng quát) mô hình tuyến tính các dự đoán tuyến tính là một tổng trọng số của n biến số, ΣTôi= =1nβTôixTôi , trong Gams thuật ngữ này được thay thế bằng một khoản chức năng mượt mà, ví dụ như ΣTôi= =1nΣj= =1qβTôiSj(xTôi) , nơi mà cácS1(),Giáo dục,Sq() là hàm mịn cơ sở (ví dụ splines khối) vàqlà kích thước cơ sở. Bằng cách kết hợp các chức năng cơ bản, GAM có thể đại diện cho một số lượng lớn mối quan hệ chức năng (để làm như vậy, họ dựa vào giả định rằng mối quan hệ thực sự có thể sẽ diễn ra suôn sẻ, thay vì lung lay). Chúng thực chất là một phần mở rộng của GLM, tuy nhiên chúng được thiết kế theo cách làm cho chúng đặc biệt hữu ích trong việc phát hiện ra các hiệu ứng phi tuyến của các hiệp phương số và để thực hiện theo cách "tự động" (từ bài viết gốc của Hastie và Tibshirani, chúng có ' lợi thế của việc hoàn toàn tự động, tức là không cần công việc "thám tử" về phía thống kê ' ).


2
Chà, nhưng như đã nói trong các bình luận, tất cả những điều đó có thể được thực hiện với glm cũng ... Tôi nghi ngờ sự khác biệt chính là thực dụng. Việc triển khai R thực hiện mgcvrất nhiều thứ bạn không thể làm với glm, nhưng cũng có thể được thực hiện trong khung đó ...
kjetil b halvorsen

Có, tôi đồng ý với bạn, GAM là một phần mở rộng của GLM. Tuy nhiên, câu hỏi đặt ra là khi nào nên sử dụng GAM và khi nào nên sử dụng GLM, và dường như với tôi rằng op có nghĩa là các dạng GLM "cổ điển", thường không bao gồm một bộ chức năng cơ bản như các công cụ dự đoán và không được sử dụng để tiết lộ / mối quan hệ phi tuyến gần đúng chưa biết.
matteo

cảm ơn - điều này rất hữu ích và vâng, tôi đã nói về GLM cổ điển
mluerig

@ matteo chỉ còn hai điều nữa: i) chính xác ý bạn là gì bởi "mối quan hệ thực sự có khả năng sẽ suôn sẻ, thay vì ngọ nguậy"? và ii) "đặc biệt hữu ích cho việc phát hiện ra các hiệu ứng phi tuyến của các hiệp phương số" - làm thế nào một người sẽ mô tả / định lượng phi tuyến (ví dụ với mgcv)?
mluerig

Mối quan hệ thực sự có thể không thực sự suôn sẻ, tuy nhiên, GAM thường kiểm soát mức độ phức tạp của mô hình bằng cách thêm hình phạt "tính linh hoạt" trong quá trình tối đa hóa khả năng (thường được thực hiện theo tỷ lệ bình phương tích hợp của đạo hàm thứ hai của hàm ước tính). Các hiệu ứng phi tuyến của hiệp phương số có nghĩa là ảnh hưởng của một biến số cụ thể đến biến phụ thuộc có thể, chẳng hạn, không tăng / giảm đơn điệu với giá trị biến, nhưng có hình dạng không xác định, ví dụ với cực đại cục bộ, cực tiểu, điểm uốn ,. ..
matteo

12

Tôi nhấn mạnh rằng GAM linh hoạt hơn nhiều so với GLM và do đó cần được chăm sóc nhiều hơn trong việc sử dụng chúng. Với sức mạnh lớn hơn đến trách nhiệm lớn hơn.

Bạn đề cập đến việc sử dụng chúng trong sinh thái học, mà tôi cũng đã nhận thấy. Tôi đã ở Costa Rica và thấy một số loại nghiên cứu trong một khu rừng nhiệt đới nơi một số học sinh tốt nghiệp đã ném một số dữ liệu vào GAM và chấp nhận các bộ làm mịn phức tạp điên rồ của nó bởi vì phần mềm đã nói như vậy. Điều đó thật đáng buồn, ngoại trừ sự thật hài hước / đáng ngưỡng mộ rằng họ nghiêm túc đưa vào một chú thích ghi lại sự thật rằng họ đã sử dụng một GAM và các máy làm mịn bậc cao có kết quả.

Bạn không cần phải hiểu chính xác cách GAM hoạt động để sử dụng chúng, nhưng bạn thực sự cần phải suy nghĩ về dữ liệu của mình, vấn đề hiện tại, lựa chọn tự động các tham số của phần mềm như đơn hàng mượt mà hơn, lựa chọn của bạn (những gì bạn làm rõ, tương tác, nếu một cách mượt mà là hợp lý, v.v.) và tính hợp lý của kết quả của bạn.

Làm nhiều âm mưu và nhìn vào các đường cong làm mịn của bạn. Họ có phát điên ở những khu vực có ít dữ liệu không? Điều gì xảy ra khi bạn chỉ định một thứ tự thấp hơn mượt mà hoặc loại bỏ hoàn toàn làm mịn? Là một mức độ 7 thực tế mượt mà hơn cho biến đó, nó có quá mức mặc dù đảm bảo rằng nó xác nhận chéo các lựa chọn của nó? Bạn có đủ dữ liệu? Nó có chất lượng cao hay ồn ào?

Tôi thích GAM và nghĩ rằng họ bị đánh giá thấp về khám phá dữ liệu. Chúng chỉ siêu linh hoạt và nếu bạn cho phép bản thân khoa học mà không cần nghiêm ngặt, chúng sẽ đưa bạn đi xa hơn vào vùng hoang dã thống kê hơn là các mô hình đơn giản hơn như GLM.


Tôi tưởng tượng rằng tôi thường làm những gì mà những học sinh tốt nghiệp đó đã làm: ném dữ liệu của tôi vào một trò chơi và bị lóa mắt bởi cách mgcvxử lý tốt dữ liệu của tôi. Tôi cố gắng thận trọng với các tham số của mình và tôi kiểm tra xem các giá trị dự đoán phù hợp với dữ liệu của tôi như thế nào. ý kiến ​​của bạn là một lời nhắc tốt để nghiêm ngặt hơn một chút - và cuối cùng có thể nhận được cuốn sách gỗ simon!
mluerig

Heck, tôi sẽ đi xa hơn để sử dụng một công cụ mượt mà hơn để khám phá một biến số, và sau đó sửa các mức độ tự do ở một giá trị thấp hoặc loại bỏ sự trơn tru và sử dụng, như một thuật ngữ bình phương nếu cơ bản mượt mà hơn là bậc hai. Một phương trình bậc hai có ý nghĩa cho một hiệu ứng tuổi, ví dụ.
Wayne

@Wayne, tôi đến đây chính xác để có câu trả lời về khám phá dữ liệu liên quan đến GAM và thấy bạn đã chỉ ra điều đó. Làm thế nào để bạn sử dụng GAM để khám phá dữ liệu? Và làm thế nào bạn sẽ quyết định xem có cần GAM hay không, hoặc GLM có đủ không. Sẽ thật hợp lý khi chỉ cần chạy một GAM đơn giản trong đó bạn chạy phản hồi và lần lượt từng dự đoán tiềm năng, vẽ sơ đồ đó và xem liệu mối quan hệ có đảm bảo một GAM (tức là mối quan hệ phi tuyến tính và không đơn điệu) không?
Tilen

5

Tôi không có danh tiếng để chỉ cần thêm một bình luận. Tôi hoàn toàn đồng ý với nhận xét của Wayne: Với sức mạnh lớn hơn sẽ có trách nhiệm cao hơn . GAM có thể rất linh hoạt và chúng ta thường nhận / xem các bộ làm mịn phức tạp . Sau đó, tôi đặc biệt khuyên các nhà nghiên cứu hạn chế mức độ tự do (số lượng nút) của các chức năng trơn tru và kiểm tra các cấu trúc mô hình khác nhau (tương tác / không tương tác, v.v.).

GAM có thể được xem xét ở giữa các cách tiếp cận theo mô hình (mặc dù đường viền mờ tôi sẽ bao gồm GLM trong nhóm đó) và các cách tiếp cận dựa trên dữ liệu (ví dụ: Mạng thần kinh nhân tạo hoặc Rừng ngẫu nhiên, người đảm nhận hoàn toàn các hiệu ứng của các biến phi tuyến tính). Theo đó, tôi không hoàn toàn đồng ý với Hastie và Tibshirani vì GAM vẫn cần một số công việc thám tử (Hy vọng không ai giết tôi vì đã nói như vậy).

Từ góc độ sinh thái, tôi khuyên bạn nên sử dụng gói lừa đảo R để tránh các bộ làm mịn phức tạp biến không đáng tin cậy này . Nó được phát triển bởi Natalya Pya và Simon Wood và nó cho phép hạn chế các đường cong mượt mà thành các hình dạng mong muốn (ví dụ như không đơn phương hoặc đơn điệu), ngay cả đối với các tương tác hai chiều. Tôi nghĩ GLM trở thành một sự thay thế nhỏ sau khi hạn chế hình dạng của các chức năng trơn tru nhưng đây chỉ là ý kiến ​​cá nhân của tôi.

Pya, N., Wood, SN, 2015. Hình dạng mô hình phụ gia bị ràng buộc. Thống kê Tính toán. 25 (3), 543 trận559. 10.1007 / s11222-013-9448-7

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.