Xây dựng mô hình tuyến tính cho tỷ lệ so với tỷ lệ phần trăm?


20

Giả sử tôi muốn xây dựng một mô hình để dự đoán một số loại tỷ lệ hoặc tỷ lệ phần trăm. Ví dụ: giả sử tôi muốn dự đoán số lượng con trai so với con gái sẽ tham dự một bữa tiệc và các tính năng của bữa tiệc tôi có thể sử dụng trong mô hình là những thứ như số lượng quảng cáo cho bữa tiệc, quy mô của địa điểm, cho dù có sẽ là bất kỳ loại rượu nào trong bữa tiệc, v.v. (Đây chỉ là một ví dụ trang điểm; các tính năng không thực sự quan trọng.)

Câu hỏi của tôi là: sự khác biệt giữa dự đoán tỷ lệ so với tỷ lệ phần trăm và mô hình của tôi thay đổi như thế nào tùy thuộc vào việc tôi chọn gì? Cái này tốt hơn những cái khác phải không? Là một số chức năng khác tốt hơn một trong hai? (Tôi không thực sự quan tâm đến số lượng cụ thể của tỷ lệ so với tỷ lệ phần trăm; tôi chỉ muốn có thể xác định bên nào có nhiều khả năng là "bữa tiệc của con trai" so với "bên cô gái".) Ví dụ: Tôi Suy nghĩ:

  • Nếu tôi muốn dự đoán tỷ lệ phần trăm (giả sử, # boys / (# boys + # girls)do tính năng phụ thuộc của tôi bị giới hạn trong khoảng từ 0 đến 1, tôi có lẽ nên sử dụng một cái gì đó như hồi quy logistic thay vì hồi quy tuyến tính.
  • Nếu tôi muốn dự đoán tỷ lệ (giả sử, # boys / # girlshoặc # boys / (1 + # girls)để tránh sai số chia cho 0), thì tính năng phụ thuộc của tôi là dương, vậy tôi có nên áp dụng một số loại chuyển đổi (log?) Trước khi sử dụng hồi quy tuyến tính không? (Hoặc một số mô hình khác? Loại mô hình hồi quy nào được sử dụng cho dữ liệu dương, không đếm được?)
  • Có phải nói chung là tốt hơn để dự đoán (nói) tỷ lệ phần trăm thay vì tỷ lệ, và nếu vậy, tại sao?

Tùy thuộc vào ứng dụng cụ thể của bạn và những gì bạn đang cố gắng mô hình hóa, bạn nên xem xét sử dụng Phân tích dữ liệu tổng hợp ( en.wikipedia.org/wiki/Composinating_data ); có một số điều tinh tế cần xem xét khi các tính năng (biến độc lập) tổng hợp lại. Xin vui lòng xem công việc của John Aitchison.
ctbrown

Câu trả lời:


9

pMột (so với B). Ước tính củap sau đó là phần ước tính.

Tuy nhiên, lưu ý: không phải là tiêu chuẩn để tạo mô hình tuyến tính cho một phân số; phổ biến hơn là một mô hình tuyến tính tổng quát , là một mô hình tuyến tính cùng với chức năng "liên kết" phi tuyến tính, điều khiển phạm vi của mô hình mong muốn (ở đây[0,1]).

Mô hình phổ biến nhất cho phân số là (như bạn đã lưu ý) hồi quy logistic, cho phép bạn sử dụng các biến hồi quy trên dòng thực nhưng có một phân số bị hạn chế để sống trên [0,1]. Tuy nhiên, hồi quy logistic về mặt kỹ thuật là một mô hình cho dữ liệu nhị phân, nghĩa là bạn quan sát một chuỗi các sự kiện trong đó mỗi đầu vào (tập hợp các biến độc lập) tạo ra một quan sát độc lập về0 hoặc là 1. Đối với trường hợp bạn chỉ có một dân số được chia thành hai lớp khác nhau (nghĩa là bạn không có các biến hồi quy riêng cho từng thành viên của dân số), bạn có thể muốn hồi quy nhị thức .

Điều đó đang được nói, có lẽ không có gì ngăn bạn viết ra một mô hình tuyến tính tổng quát (GLM) cho các tỷ lệ. (Hồi quy logistic và nhị thức cũng là GLM). Bạn cần chọn ánh xạ hàm từ không gian đầu vào sang không gian của các tỷ lệ có thể (ví dụ:đăng nhập), sau đó viết ra khả năng của bạn theo tỷ lệ kết quả.


15

Báo lại câu trả lời đầu tiên. Đừng bận tâm để chuyển đổi - chỉ cần mô hình hóa số lượng và đồng biến trực tiếp.

Nếu bạn làm điều đó và phù hợp với mô hình hồi quy Binomial (hoặc tương đương logistic) với cô gái nam, bạn sẽ chọn hàm liên kết thông thường cho các mô hình đó, mặc nhiên đã phù hợp với tỷ lệ (được làm mịn bằng log) của con trai với con gái. Đó là dự đoán tuyến tính.

Lý do chính để mô hình đếm trực tiếp thay vì tỷ lệ hoặc tỷ lệ là bạn không bị mất thông tin. Theo trực giác, bạn sẽ tự tin hơn rất nhiều về các suy luận từ tỷ lệ quan sát là 1 (con trai với con gái) nếu xuất phát từ việc nhìn thấy 100 chàng trai và 100 cô gái so với khi nhìn thấy 2 và 2. Do đó, nếu bạn có đồng biến thì bạn sẽ có nhiều hơn thông tin về tác dụng của chúng và có khả năng là một mô hình dự đoán tốt hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.