Đây là bài viết đầu tiên của tôi trên StackExchange, nhưng tôi đã sử dụng nó như một tài nguyên trong một thời gian dài, tôi sẽ cố gắng hết sức để sử dụng định dạng phù hợp và thực hiện các chỉnh sửa phù hợp. Ngoài ra, đây là một câu hỏi đa phần. Tôi không chắc mình nên chia câu hỏi thành nhiều bài khác nhau hay chỉ một bài. Vì các câu hỏi là tất cả từ một phần trong cùng một văn bản, tôi nghĩ rằng nó sẽ phù hợp hơn để đăng dưới dạng một câu hỏi.
Tôi đang nghiên cứu sử dụng môi trường sống của một loài động vật có vú lớn cho Luận văn thạc sĩ. Mục tiêu của dự án này là cung cấp cho các nhà quản lý rừng (những người rất có thể không phải là nhà thống kê) một khung thực tế để đánh giá chất lượng môi trường sống trên vùng đất mà họ quản lý liên quan đến loài này. Loài vật này tương đối khó nắm bắt, một chuyên gia về môi trường sống và thường nằm ở vùng sâu vùng xa. Một số nghiên cứu tương đối đã được thực hiện liên quan đến sự phân bố của các loài, đặc biệt là theo mùa. Một số động vật được gắn vòng cổ GPS trong thời gian một năm. Một trăm địa điểm (50 mùa hè và 50 mùa đông) đã được chọn ngẫu nhiên từ dữ liệu cổ áo GPS của mỗi loài động vật. Ngoài ra, 50 điểm được tạo ngẫu nhiên trong phạm vi nhà của mỗi con vật để phục vụ như các địa điểm "có sẵn" hoặc "giả vắng mặt".
Đối với mỗi vị trí, một số biến môi trường sống được lấy mẫu tại hiện trường (đường kính cây, lớp phủ ngang, mảnh vụn gỗ thô, v.v.) và một số biến được lấy mẫu từ xa thông qua GIS (độ cao, khoảng cách đến đường, độ chắc chắn, v.v.). Các biến chủ yếu là liên tục ngoại trừ 1 biến phân loại có 7 cấp độ.
Mục tiêu của tôi là sử dụng mô hình hồi quy để xây dựng các hàm chọn tài nguyên (RSF) để mô hình xác suất sử dụng tương đối của các đơn vị tài nguyên. Tôi muốn xây dựng một RSF theo mùa (mùa đông và mùa hè) cho quần thể động vật (kiểu thiết kế I) cũng như từng con vật riêng lẻ (kiểu thiết kế III).
Tôi đang sử dụng R để thực hiện phân tích thống kê.
Các văn bản chính tôi đã được sử dụng là ...
- "Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013. Hồi quy logistic ứng dụng. Wiley, Chicester".
Phần lớn các ví dụ trong Hosmer et al. sử dụng STATA, tôi cũng đã được sử dụng 2 văn bản sau đây để tham khảo với R .
- "Crawley, MJ 2005. Số liệu thống kê: phần giới thiệu sử dụng RJ Wiley, Chichester, West Sussex, England."
- "Plant, RE 2012. Phân tích dữ liệu không gian trong sinh thái và nông nghiệp bằng cách sử dụng R. CRC Press, London, GBR."
Tôi hiện đang làm theo các bước trong Chương 4 của Hosmer et al. cho "Lựa chọn đồng biến có mục đích" và có một vài câu hỏi về quy trình. Tôi đã phác thảo một vài bước đầu tiên trong văn bản dưới đây để hỗ trợ cho các câu hỏi của tôi.
- Bước 1: Một phân tích không thể thay đổi của từng biến độc lập (Tôi đã sử dụng một hồi quy logistic không thể thay đổi). Bất kỳ biến nào có kiểm tra không biến đổi có giá trị p nhỏ hơn 0,25 nên được đưa vào mô hình đa biến đầu tiên.
- Bước 2: Điều chỉnh mô hình đa biến có chứa tất cả các biến số được xác định để đưa vào bước 1 và để đánh giá tầm quan trọng của từng hiệp phương sử dụng giá trị p của thống kê Wald của nó. Các biến không đóng góp ở mức ý nghĩa truyền thống nên được loại bỏ và một mô hình mới phù hợp. Mô hình mới hơn, nhỏ hơn nên được so sánh với mô hình cũ, lớn hơn bằng cách sử dụng thử nghiệm tỷ lệ khả năng từng phần.
- Bước 3: So sánh các giá trị của các hệ số ước tính trong mô hình nhỏ hơn với các giá trị tương ứng của chúng từ mô hình lớn. Bất kỳ biến nào có hệ số đã thay đổi đáng kể về độ lớn nên được thêm lại vào mô hình vì nó quan trọng trong ý nghĩa cung cấp sự điều chỉnh cần thiết về tác động của các biến còn lại trong mô hình. Chuyển qua các bước 2 và 3 cho đến khi có vẻ như tất cả các biến quan trọng được đưa vào mô hình và những biến bị loại trừ là không quan trọng về mặt lâm sàng và / hoặc thống kê. Ôm et et. sử dụng " delta-beta-hat-trăm " làm thước đo sự thay đổi cường độ của các hệ số. Họ đề xuất một sự thay đổi đáng kể khi tỷ lệ phần trăm-mũ-beta là> 20%. Ôm et et. định nghĩa delta-beta-hat-phần trăm là . Nơiθ1là hệ số từ mô hình nhỏ hơn vàβ1là hệ số từ mô hình lớn hơn.
- Bước 4: Thêm từng biến không được chọn trong Bước 1 vào mô hình thu được ở cuối bước 3, từng biến một và kiểm tra tầm quan trọng của nó bằng giá trị p thống kê Wald hoặc kiểm tra tỷ lệ khả năng từng phần nếu đó là phân loại biến với hơn 2 cấp độ. Bước này rất quan trọng để xác định các biến mà bản thân chúng không liên quan đáng kể đến kết quả nhưng có đóng góp quan trọng khi có các biến khác. Chúng tôi đề cập đến mô hình ở cuối Bước 4 là mô hình hiệu ứng chính sơ bộ .
- Bước 5-7: Tôi chưa tiến triển đến thời điểm này vì vậy tôi sẽ bỏ các bước này ngay bây giờ hoặc lưu chúng cho một câu hỏi khác.
Những câu hỏi của tôi:
- Trong bước 2, điều gì sẽ phù hợp như một mức ý nghĩa truyền thống, giá trị p <0,05 một cái gì đó lớn hơn như <0,25?
- Ở bước 2 một lần nữa, tôi muốn đảm bảo mã R mà tôi đang sử dụng để kiểm tra khả năng một phần là chính xác và tôi muốn đảm bảo rằng tôi đang diễn giải kết quả chính xác. Đây là những gì tôi đã và đang thực hiện
anova(smallmodel,largemodel,test='Chisq')
Nếu giá trị p là đáng kể (<0,05) Tôi thêm biến trở lại mô hình, nếu nó không đáng kể tôi có tiến hành xóa không? - Trong bước 3, tôi có một câu hỏi liên quan đến delta-beta-hat-Perc và khi nào thì thích hợp để thêm một biến loại trừ trở lại mô hình. Ví dụ, tôi loại trừ một biến từ mô hình và nó thay đổi cho một biến khác nhau bằng cách> 20%. Tuy nhiên, biến với sự thay đổi> 20% trong delta beta % có vẻ là không đáng kể và trông như thể nó sẽ bị loại khỏi mô hình trong vài chu kỳ tiếp theo của bước 2 và 3. Làm thế nào tôi có thể đưa ra quyết định nếu cả hai biến nên được bao gồm hoặc loại trừ khỏi mô hình? Bởi vì tôi đang tiến hành bằng cách loại trừ 1 biến tại một thời điểm bằng cách xóa các biến có ý nghĩa ít nhất trước tiên, tôi do dự để loại trừ một biến không theo thứ tự.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])