Làm thế nào để thực hiện hồi quy logistic trong R khi kết quả là phân số (tỷ lệ của hai lần đếm)?


24

Tôi đang xem xét một bài báo có thí nghiệm sinh học sau đây. Một thiết bị được sử dụng để phơi bày các tế bào với các mức độ căng thẳng khác nhau của chất lỏng. Khi ứng suất cắt lớn hơn được áp dụng cho các tế bào, nhiều trong số chúng bắt đầu tách ra khỏi chất nền. Ở mỗi cấp độ ứng suất cắt, họ đếm các ô còn lại và vì họ biết tổng số ô được gắn vào lúc đầu, họ có thể tính toán một phần đính kèm phân đoạn (hoặc tách ra).

Nếu bạn vẽ biểu đồ phần tuân thủ so với ứng suất cắt, kết quả là một đường cong logistic. Về lý thuyết, mỗi ô riêng lẻ là một quan sát đơn lẻ, nhưng rõ ràng có hàng ngàn hoặc hàng chục nghìn ô, do đó, tập dữ liệu sẽ là khổng lồ, nếu nó được thiết lập theo cách thông thường (với mỗi hàng là một quan sát).

Vì vậy, một cách tự nhiên, câu hỏi của tôi (như đã nêu trong tiêu đề) nên có ý nghĩa ngay bây giờ. Làm thế nào để chúng ta thực hiện hồi quy logistic bằng cách sử dụng kết quả phân đoạn như DV? Có một số biến đổi tự động có thể được thực hiện trong glm?

Dọc theo cùng một dòng, nếu có khả năng có 3 phép đo (phân số) trở lên, làm thế nào để thực hiện điều này cho hồi quy logistic đa thức?


Dưới đây là một số ví dụ liên quan đến hồi quy logistic kết quả đa biến:http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
marbel

1
Những gì bạn mô tả không có vẻ như bạn sẽ có những quan sát độc lập (vì các tế bào có lẽ không được gắn lại khi độ cắt tăng lên, số lượng vẫn được gắn ở mỗi cài đặt ứng suất cao hơn không được nhiều hơn số trước đó); sự phụ thuộc này phải được tính đến. (Nó gợi nhớ đến tình huống với các đường cong tăng trưởng.) --- bạn không thể cắm các số vào GLM như thể chúng độc lập ... và dường như không có câu trả lời nào giải quyết vấn đề này.
Glen_b -Reinstate Monica

2
@Glen_b Mỗi thí nghiệm sẽ được thực hiện với các ô khác nhau, tức là bắt đầu bằng tệp đính kèm "100%" và áp dụng một giá trị khác nhau của ứng suất cắt.
thecity2

À được rồi. Điều đó sẽ cho kết quả độc lập.
Glen_b -Reinstate Monica

Câu trả lời:


37

Các glmchức năng trong Rphép 3 cách để xác định công thức cho một mô hình hồi quy logistic.

Phổ biến nhất là mỗi hàng của khung dữ liệu đại diện cho một quan sát duy nhất và biến phản hồi là 0 hoặc 1 (hoặc một yếu tố có 2 cấp độ hoặc biến thiên khác chỉ có 2 giá trị duy nhất).

Một tùy chọn khác là sử dụng ma trận 2 cột làm biến trả lời với cột đầu tiên là tổng số 'thành công' và cột thứ hai là tổng số 'thất bại'.

Bạn cũng có thể chỉ định phản hồi là tỷ lệ giữa 0 và 1, sau đó chỉ định một cột khác là 'trọng số' cho tổng số tỷ lệ đó là từ (vì vậy, phản hồi là 0,3 và trọng số 10 là 3 ' thành công 'và 7' thất bại ').

Một trong hai cách cuối cùng sẽ phù hợp với những gì bạn đang cố gắng thực hiện, cách cuối cùng có vẻ trực tiếp nhất cho cách bạn mô tả dữ liệu của mình.


9

Khi bắt đầu, nếu bạn có một biến phụ thuộc là tỷ lệ, bạn có thể sử dụng Beta Regression. Điều này không mở rộng (với kiến ​​thức hạn chế của tôi) thành nhiều tỷ lệ.

Để biết tổng quan về Beta Regression và triển khai R, hãy xem betareg .


Cảm ơn! Trông giống như những gì tôi cần cho trường hợp nhị thức.
thecity2

2

Tôi đã sử dụng nnet::multinom(gói nnet là một phần của MASS) cho mục đích tương tự, nó chấp nhận đầu vào liên tục trong [0, 1].

Nếu bạn cần một tài liệu tham khảo: C. Beleites et.al.: Phân loại phổ Raman của các mô tế bào hình sao: sử dụng thông tin tham khảo mềm. Bioanal Chem, 2011, Tập. 400 (9), trang 2801-2816


Tuyệt quá! Tôi có gói đó và không nhận ra nó có khả năng này.
thecity2

@cbeleites: Nó có cho phép người phụ thuộc được [0,1] không? Tôi mặc dù đó là một chức năng cho một phụ thuộc danh nghĩa (các yếu tố dự đoán nên được thu nhỏ thành [0,1] ...
B_Miner

@B_Miner: có, người phụ thuộc có thể ở [0, 1]. Các chức năng phù hợp với một mạng lưới thần kinh nhân tạo mà không có lớp ẩn và với sigmoid logistic. Và vâng, nên mở rộng các yếu tố dự đoán thành [0, 1] để hội tụ tốt hơn.
cbeleites hỗ trợ Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.