Xây dựng mô hình và lựa chọn bằng cách sử dụng Hosmer et al. 2013. Hồi quy logistic ứng dụng trong R


17

Đây là bài viết đầu tiên của tôi trên StackExchange, nhưng tôi đã sử dụng nó như một tài nguyên trong một thời gian dài, tôi sẽ cố gắng hết sức để sử dụng định dạng phù hợp và thực hiện các chỉnh sửa phù hợp. Ngoài ra, đây là một câu hỏi đa phần. Tôi không chắc mình nên chia câu hỏi thành nhiều bài khác nhau hay chỉ một bài. Vì các câu hỏi là tất cả từ một phần trong cùng một văn bản, tôi nghĩ rằng nó sẽ phù hợp hơn để đăng dưới dạng một câu hỏi.

Tôi đang nghiên cứu sử dụng môi trường sống của một loài động vật có vú lớn cho Luận văn thạc sĩ. Mục tiêu của dự án này là cung cấp cho các nhà quản lý rừng (những người rất có thể không phải là nhà thống kê) một khung thực tế để đánh giá chất lượng môi trường sống trên vùng đất mà họ quản lý liên quan đến loài này. Loài vật này tương đối khó nắm bắt, một chuyên gia về môi trường sống và thường nằm ở vùng sâu vùng xa. Một số nghiên cứu tương đối đã được thực hiện liên quan đến sự phân bố của các loài, đặc biệt là theo mùa. Một số động vật được gắn vòng cổ GPS trong thời gian một năm. Một trăm địa điểm (50 mùa hè và 50 mùa đông) đã được chọn ngẫu nhiên từ dữ liệu cổ áo GPS của mỗi loài động vật. Ngoài ra, 50 điểm được tạo ngẫu nhiên trong phạm vi nhà của mỗi con vật để phục vụ như các địa điểm "có sẵn" hoặc "giả vắng mặt".

Đối với mỗi vị trí, một số biến môi trường sống được lấy mẫu tại hiện trường (đường kính cây, lớp phủ ngang, mảnh vụn gỗ thô, v.v.) và một số biến được lấy mẫu từ xa thông qua GIS (độ cao, khoảng cách đến đường, độ chắc chắn, v.v.). Các biến chủ yếu là liên tục ngoại trừ 1 biến phân loại có 7 cấp độ.

Mục tiêu của tôi là sử dụng mô hình hồi quy để xây dựng các hàm chọn tài nguyên (RSF) để mô hình xác suất sử dụng tương đối của các đơn vị tài nguyên. Tôi muốn xây dựng một RSF theo mùa (mùa đông và mùa hè) cho quần thể động vật (kiểu thiết kế I) cũng như từng con vật riêng lẻ (kiểu thiết kế III).

Tôi đang sử dụng R để thực hiện phân tích thống kê.

Các văn bản chính tôi đã được sử dụng là ...

  • "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Hồi quy logistic ứng dụng. Wiley, Chicester".

Phần lớn các ví dụ trong Hosmer et al. sử dụng STATA, tôi cũng đã được sử dụng 2 văn bản sau đây để tham khảo với R .

  • "Crawley, MJ 2005. Số liệu thống kê: phần giới thiệu sử dụng RJ Wiley, Chichester, West Sussex, England."
  • "Plant, RE 2012. Phân tích dữ liệu không gian trong sinh thái và nông nghiệp bằng cách sử dụng R. CRC Press, London, GBR."

Tôi hiện đang làm theo các bước trong Chương 4 của Hosmer et al. cho "Lựa chọn đồng biến có mục đích" và có một vài câu hỏi về quy trình. Tôi đã phác thảo một vài bước đầu tiên trong văn bản dưới đây để hỗ trợ cho các câu hỏi của tôi.

  1. Bước 1: Một phân tích không thể thay đổi của từng biến độc lập (Tôi đã sử dụng một hồi quy logistic không thể thay đổi). Bất kỳ biến nào có kiểm tra không biến đổi có giá trị p nhỏ hơn 0,25 nên được đưa vào mô hình đa biến đầu tiên.
  2. Bước 2: Điều chỉnh mô hình đa biến có chứa tất cả các biến số được xác định để đưa vào bước 1 và để đánh giá tầm quan trọng của từng hiệp phương sử dụng giá trị p của thống kê Wald của nó. Các biến không đóng góp ở mức ý nghĩa truyền thống nên được loại bỏ và một mô hình mới phù hợp. Mô hình mới hơn, nhỏ hơn nên được so sánh với mô hình cũ, lớn hơn bằng cách sử dụng thử nghiệm tỷ lệ khả năng từng phần.
  3. Bước 3: So sánh các giá trị của các hệ số ước tính trong mô hình nhỏ hơn với các giá trị tương ứng của chúng từ mô hình lớn. Bất kỳ biến nào có hệ số đã thay đổi đáng kể về độ lớn nên được thêm lại vào mô hình vì nó quan trọng trong ý nghĩa cung cấp sự điều chỉnh cần thiết về tác động của các biến còn lại trong mô hình. Chuyển qua các bước 2 và 3 cho đến khi có vẻ như tất cả các biến quan trọng được đưa vào mô hình và những biến bị loại trừ là không quan trọng về mặt lâm sàng và / hoặc thống kê. Ôm et et. sử dụng " delta-beta-hat-trăm " làm thước đo sự thay đổi cường độ của các hệ số. Họ đề xuất một sự thay đổi đáng kể khi tỷ lệ phần trăm-mũ-beta là> 20%. Ôm et et. định nghĩa delta-beta-hat-phần trăm. Nơiθ1là hệ số từ mô hình nhỏ hơn vàβ1là hệ số từ mô hình lớn hơn.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. Bước 4: Thêm từng biến không được chọn trong Bước 1 vào mô hình thu được ở cuối bước 3, từng biến một và kiểm tra tầm quan trọng của nó bằng giá trị p thống kê Wald hoặc kiểm tra tỷ lệ khả năng từng phần nếu đó là phân loại biến với hơn 2 cấp độ. Bước này rất quan trọng để xác định các biến mà bản thân chúng không liên quan đáng kể đến kết quả nhưng có đóng góp quan trọng khi có các biến khác. Chúng tôi đề cập đến mô hình ở cuối Bước 4 là mô hình hiệu ứng chính sơ bộ .
  5. Bước 5-7: Tôi chưa tiến triển đến thời điểm này vì vậy tôi sẽ bỏ các bước này ngay bây giờ hoặc lưu chúng cho một câu hỏi khác.

Những câu hỏi của tôi:

  1. Trong bước 2, điều gì sẽ phù hợp như một mức ý nghĩa truyền thống, giá trị p <0,05 một cái gì đó lớn hơn như <0,25?
  2. Ở bước 2 một lần nữa, tôi muốn đảm bảo mã R mà tôi đang sử dụng để kiểm tra khả năng một phần là chính xác và tôi muốn đảm bảo rằng tôi đang diễn giải kết quả chính xác. Đây là những gì tôi đã và đang thực hiện anova(smallmodel,largemodel,test='Chisq')Nếu giá trị p là đáng kể (<0,05) Tôi thêm biến trở lại mô hình, nếu nó không đáng kể tôi có tiến hành xóa không?
  3. Trong bước 3, tôi có một câu hỏi liên quan đến delta-beta-hat-Perc và khi nào thì thích hợp để thêm một biến loại trừ trở lại mô hình. Ví dụ, tôi loại trừ một biến từ mô hình và nó thay đổi cho một biến khác nhau bằng cách> 20%. Tuy nhiên, biến với sự thay đổi> 20% trong delta beta % có vẻ là không đáng kể và trông như thể nó sẽ bị loại khỏi mô hình trong vài chu kỳ tiếp theo của bước 2 và 3. Làm thế nào tôi có thể đưa ra quyết định nếu cả hai biến nên được bao gồm hoặc loại trừ khỏi mô hình? Bởi vì tôi đang tiến hành bằng cách loại trừ 1 biến tại một thời điểm bằng cách xóa các biến có ý nghĩa ít nhất trước tiên, tôi do dự để loại trừ một biến không theo thứ tự.Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


Vì tò mò loài nào mà bạn đang học?
dự báo

Câu trả lời:


23

Pβ


3
Có, kiến ​​thức về miền + một liều tin tưởng lành mạnh vào sự đơn giản, ví dụ: không giả sử các biến liên tục hoạt động tuyến tính trừ khi bạn có dữ liệu trước biểu thị tuyến tính.
Frank Harrell

6
OP đang trích dẫn một văn bản chính trong phiên bản thứ ba của nó với các tác giả đã có những đóng góp lớn cho lĩnh vực này. Các điểm khác trong câu hỏi được thảo luận trong các văn bản có ảnh hưởng khác (Agresti, Gelman). Tôi đưa ra điều này không phải vì tôi đồng ý với chiến lược này, mà là để lưu ý rằng những chiến lược này được khuyên dùng trong các văn bản chính thống gần đây của các nhà thống kê đáng kính. Tóm lại: mặc dù có rất nhiều tài liệu tư vấn chống lại điều này, nó dường như không bị cộng đồng thống kê từ chối.
12:30

2
Đó là khá sai lầm trong quan điểm khiêm tốn của tôi. Các chiến lược được đẩy rất mạnh trong một số văn bản chưa bao giờ được xác nhận. Các tác giả không tin vào mô phỏng tự đặt mình vào nguy cơ ủng hộ việc sử dụng các phương pháp không hoạt động như quảng cáo.
Frank Harrell

2
Vâng tôi biết. Tôi thường xuyên đề cập đến văn bản và giấy tờ của bạn và một trong những nguồn mà tôi đã sử dụng để đi đến kết luận của mình không đồng ý với chiến lược trên. Tôi chỉ đơn giản là truyền đạt tình trạng khó xử của người dùng ứng dụng. Chúng tôi không thể kiểm tra tất cả mọi thứ. Chúng tôi dựa vào các chuyên gia, chẳng hạn như bạn.
julieth

3
@GNG: FH đề cập đến mô phỏng như một cách thể hiện rằng phương pháp tiếp cận lựa chọn mô hình này thực sự làm những gì nó phải làm (có lẽ là để cải thiện độ chính xác của dự đoán mô hình của bạn) trong các ứng dụng điển hình. Các câu hỏi (sắc sảo) của bạn nêu bật sự bao gồm biến tùy ý, đặc biệt, tự nhiên của nó dựa trên số lượng các bài kiểm tra quan trọng không xác định ở cấp độ "truyền thống" không thể được hiển thị bằng lý thuyết để đảm bảo tối ưu hóa mọi thứ.
Scortchi - Tái lập Monica

5

Các phương pháp được chỉ định cho lựa chọn biến bằng cách sử dụng thống kê như P, hồi quy từng bước trong văn bản cổ điển mà Hosmer et al nên tránh bằng mọi giá.

Gần đây, tôi tình cờ thấy một bài báo được xuất bản trên tạp chí quốc tế về dự báo tiêu đề " Ảo tưởng về khả năng dự đoán " và một bài bình luận về bài viết này của Keith ord . Tôi rất muốn giới thiệu cả hai bài viết này vì chúng cho thấy rõ rằng sử dụng thống kê hồi quy thường gây hiểu nhầm. Follwiên là một ảnh chụp màn hình bài viết của Keith Ord cho thấy bằng cách mô phỏng tại sao bước hồi quy khôn ngoan (sử dụng thống kê p) cho lựa chọn biến là xấu.

nhập mô tả hình ảnh ở đây

Một bài viết tuyệt vời khác của Scott Armstrong xuất hiện trong cùng một số tạp chí cho thấy lý do tại sao một người nên rất thận trọng khi sử dụng phân tích hồi quy trên dữ liệu phi thực nghiệm với nghiên cứu trường hợp. Kể từ khi tôi đọc những bài viết này, tôi tránh sử dụng phân tích hồi quy để rút ra những suy luận nguyên nhân về dữ liệu phi thực nghiệm. Là một học viên, tôi ước mình đã đọc những bài báo như thế này trong nhiều năm, điều đó sẽ cứu tôi khỏi những quyết định tồi tệ và tránh những sai lầm tốn kém.

Về vấn đề cụ thể của bạn, tôi không nghĩ các thử nghiệm ngẫu nhiên là có thể trong trường hợp của bạn, vì vậy tôi khuyên bạn nên sử dụng xác thực chéo để chọn các biến. Một ví dụ rất hay đã có sẵn trong cuốn sách trực tuyến miễn phí này về cách bạn sẽ sử dụng độ chính xác dự đoán để chọn các biến. Nó cũng có nhiều phương pháp chọn lọc khác, nhưng tôi hạn chế để xác nhận chéo.

Cá nhân tôi thích câu trích dẫn từ Armstrong "Ở đâu đó tôi gặp phải ý tưởng rằng các số liệu thống kê được cho là hỗ trợ truyền thông. Các phương pháp hồi quy phức tạp và một loạt các số liệu thống kê chẩn đoán đã đưa chúng ta đi theo hướng khác"

Dưới đây là ý kiến ​​của riêng tôi. Tôi không phải là một nhà thống kê.

  • Là một nhà sinh vật học tôi nghĩ bạn sẽ đánh giá cao điểm này. Bản chất là rất phức tạp, giả sử chức năng logistic và không có tương tác giữa các biến không xảy ra trong tự nhiên. Ngoài ra, hồi quy logistic có các giả định sau :

  • Các xác suất có điều kiện thực sự là một hàm logistic của các biến độc lập.

  • Không có biến quan trọng được bỏ qua. Không có biến ngoại lai được bao gồm.

  • Các biến độc lập được đo mà không có lỗi.
  • Các quan sát là độc lập.
  • Các biến độc lập không phải là sự kết hợp tuyến tính của nhau.

Tôi muốn giới thiệu cây phân loại và hồi quy (GIỎI (r)) như là một thay thế cho hồi quy logistic cho loại phân tích này vì nó là giả định miễn phí:

  1. Không tham số / Hướng dữ liệu / Không có giả định rằng xác suất đầu ra của bạn tuân theo chức năng logistic.
  2. Phi tuyến tính
  3. cho phép tương tác biến phức tạp.
  4. Cung cấp các cây trực quan có thể giải thích cao mà một người không thống kê như các nhà quản lý rừng sẽ đánh giá cao.
  5. Dễ dàng xử lý các giá trị còn thiếu.
  6. Không cần phải là một nhà thống kê để sử dụng GIỎI !!
  7. tự động chọn các biến bằng xác nhận chéo.

GIỎ HÀNG là thương hiệu của Salford Systems. Xem video này để giới thiệu và lịch sử của GIỎI. Ngoài ra còn có các video khác như giỏ hàng - lai lai regrssion logistic trong cùng một trang web. Tôi sẽ kiểm tra xem nó ra. một thông tin mã nguồn mở trong R được gọi là Tree và có nhiều gói khác như rigs có sẵn trong R. Nếu tôi tìm thấy thời gian, tôi sẽ đăng ví dụ đầu tiên trong văn bản của Homser bằng cách sử dụng GIỎ HÀNG. Nếu bạn khăng khăng sử dụng hồi quy logistic, thì ít nhất tôi sẽ sử dụng các phương thức như GIỎI để chọn các biến và sau đó áp dụng hồi quy logistic.

Cá nhân tôi thích GIỎI hơn hồi quy logistic vì những lợi thế đã nói ở trên. Tuy nhiên, tôi vẫn sẽ thử cả hồi quy logistic và hồi quy lai hoặc GIỎI-Logistc, và xem cái nào mang lại độ chính xác dự đoán tốt hơn và quan trọng hơn là khả năng diễn giải tốt hơn và chọn cái mà bạn cảm thấy sẽ "truyền đạt" dữ liệu rõ ràng hơn.

Ngoài ra, FYI Cart đã bị từ chối bởi các tạp chí thống kê lớn và cuối cùng các nhà phát minh của Cart đã đưa ra một chuyên khảo. GIỎI mở đường cho các thuật toán học máy hiện đại và rất thành công như Random Forest (r), Gradient Boosting Machines (GBM), Splive Regive Regression Splression đều được sinh ra. Randomforest và GBM chính xác hơn GIỎI nhưng ít diễn giải hơn (như hộp đen) so với GIỎ HÀNG.

Hy vọng điều này là hữu ích. Hãy cho tôi biết nếu bạn thấy bài viết này hữu ích?


8
Không. Mô hình logistic không đưa ra nhiều giả định hơn các mô hình khác. Giả định duy nhất chính của nó làY

3
Câu trả lời này nhảy từ những bình luận chung chung, nhiều trong số đó dường như không gây tranh cãi với tôi, đến một sự chứng thực rất cụ thể và khá cá nhân của GIỜ là phương pháp được lựa chọn. Bạn được quyền theo quan điểm của bạn, vì những người khác sẽ có quyền phản đối của họ. Đề nghị của tôi là bạn đánh dấu hương vị hai mặt của câu trả lời của bạn rõ ràng hơn.
Nick Cox

2
Hồi quy logistic là một mô hình tuyến tính tổng quát, nhưng mặt khác nó có thể phòng thủ được, thực sự có động lực như một mô hình phi tuyến tự nhiên (theo nghĩa là nó phù hợp với các đường cong hoặc tương đương, không phải là đường hoặc tương đương, trong không gian thông thường) rất phù hợp với phản ứng nhị phân. Sự hấp dẫn đối với sinh học ở đây là hai lưỡi; mô hình logistic lịch sử cho phản ứng nhị phân được lấy cảm hứng từ mô hình cho sự tăng trưởng logistic (ví dụ như dân số) trong sinh học!
Nick Cox

Soyer et al. giấy, giấy Armstrong, và bình luận đều rất tốt. Tôi đã đọc qua chúng vào cuối tuần này. Cảm ơn bạn đã gợi ý cho họ. Không phải là một nhà thống kê, tôi không thể bình luận về việc sử dụng GIỎI qua hồi quy logistic. Tuy nhiên, câu trả lời của bạn được viết rất tốt, hữu ích và đã nhận được những bình luận sâu sắc. Tôi đã đọc các phương pháp học máy như GIỎI, MaxEnt và tăng cường cây hồi quy và đang lên kế hoạch thảo luận với ủy ban của tôi để hiểu rõ hơn. Khi tôi có thời gian rảnh, video GIỎI cũng thú vị.
GNG

3
Với một nụ cười, tôi nghĩ rằng chúng ta có thể đảo ngược nhận xét của bạn về các mô hình tuyến tính và khẳng định rằng không phải là giả định, hay thậm chí là giả định, GIỜ cho rằng thực tế giống như một cái cây (còn gì nữa không?). Nếu bạn nghĩ rằng thiên nhiên là một sự liên tục thay đổi trơn tru, bạn nên chạy theo hướng ngược lại.
Nick Cox

3

Tôi nghĩ rằng bạn đang cố gắng dự đoán sự hiện diện của các loài bằng cách tiếp cận hiện diện / nền tảng, được ghi lại rõ ràng trên các tạp chí như Phương pháp trong Sinh thái học và Tiến hóa, Sinh thái học, v.v. Có lẽ gói tháo gỡ R rất hữu ích cho vấn đề của bạn. Nó bao gồm một họa tiết đẹp. Sử dụng tháo dỡ hoặc gói tương tự khác ngụ ý để thay đổi cách tiếp cận vấn đề của bạn, nhưng tôi tin rằng đáng để xem xét.


2
Điều gì giữ bạn khỏi chỉ định một mô hình? Tại sao sự không chắc chắn lớn trong những gì nên có trong mô hình? Tại sao cần lựa chọn mô hình bằng GLM?
Frank Harrell

1
Tôi sợ bạn trộn lẫn một số khái niệm. (1) trong thực tế tối đa là dữ liệu hiện diện / dữ liệu nền hoặc dữ liệu hiện diện / giả giả. Vì vậy, maxent sử dụng dữ liệu chỉ hiện diện và thêm một số điểm từ cảnh quan, nghĩa là sự vắng mặt của nền / giả. Vì vậy, nó có thể được sử dụng trong trường hợp của bạn. (2) GLM được thiết kế để sử dụng khi vắng mặt 'thật'. Tuy nhiên, GLM đã được điều chỉnh cho dữ liệu hiện diện / giả giả. (3) gói tháo dỡ cung cấp cây hồi quy tăng cường nhưng không chỉ. Bạn cũng có thể phù hợp với GLM, chỉ cần làm theo một trong những họa tiết của gói (có 2).
Hugo

1
Nếu câu hỏi của bạn là về những biến bạn nên đưa vào như dự đoán, hãy xem các tài liệu sau: Sheppard 2013. Việc lựa chọn biến khí hậu ảnh hưởng đến dự đoán phân bố loài như thế nào? Một nghiên cứu trường hợp về ba loại cỏ dại mới ở New Zealand. Nghiên cứu cỏ dại; Harris, et al. 2013. Được hay không tồn tại? Lựa chọn biến có thể thay đổi số phận dự kiến ​​của một loài bị đe dọa dưới khí hậu trong tương lai. Ecol. Quản lý. Phục hồi.
Hugo

2
Ý nghĩ rằng các kỹ thuật lựa chọn biến bằng cách nào đó làm giảm quá mức là lạ. Sự tiết kiệm rõ ràng của các biến từ việc giảm mô hình hoàn toàn chỉ là ảo tưởng khi việc giảm xuất phát từ chính dữ liệu.
Frank Harrell

1
@GNG: "sự không chắc chắn của tôi về để lại tất cả các biến trong mô hình xuất phát từ tất cả mọi thứ tôi đã được dạy về cộng tuyến và over-fitting" - Liệu mô hình của bạn chứa dự đoán cao thẳng hàng? mô hình của bạn quá phù hợp?
Scortchi - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.