Giả sử tôi muốn xây dựng một mô hình để dự đoán một số loại tỷ lệ hoặc tỷ lệ phần trăm. Ví dụ: giả sử tôi muốn dự đoán số lượng con trai so với con gái sẽ tham dự một bữa tiệc và các tính năng của bữa tiệc tôi có thể sử dụng trong mô hình là những thứ như số lượng quảng cáo cho bữa tiệc, quy mô của địa điểm, cho dù có sẽ là bất kỳ loại rượu nào trong bữa tiệc, v.v. (Đây chỉ là một ví dụ trang điểm; các tính năng không thực sự quan trọng.)
Câu hỏi của tôi là: sự khác biệt giữa dự đoán tỷ lệ so với tỷ lệ phần trăm và mô hình của tôi thay đổi như thế nào tùy thuộc vào việc tôi chọn gì? Cái này tốt hơn những cái khác phải không? Là một số chức năng khác tốt hơn một trong hai? (Tôi không thực sự quan tâm đến số lượng cụ thể của tỷ lệ so với tỷ lệ phần trăm; tôi chỉ muốn có thể xác định bên nào có nhiều khả năng là "bữa tiệc của con trai" so với "bên cô gái".) Ví dụ: Tôi Suy nghĩ:
- Nếu tôi muốn dự đoán tỷ lệ phần trăm (giả sử,
# boys / (# boys + # girls)
do tính năng phụ thuộc của tôi bị giới hạn trong khoảng từ 0 đến 1, tôi có lẽ nên sử dụng một cái gì đó như hồi quy logistic thay vì hồi quy tuyến tính. - Nếu tôi muốn dự đoán tỷ lệ (giả sử,
# boys / # girls
hoặc# boys / (1 + # girls)
để tránh sai số chia cho 0), thì tính năng phụ thuộc của tôi là dương, vậy tôi có nên áp dụng một số loại chuyển đổi (log?) Trước khi sử dụng hồi quy tuyến tính không? (Hoặc một số mô hình khác? Loại mô hình hồi quy nào được sử dụng cho dữ liệu dương, không đếm được?) - Có phải nói chung là tốt hơn để dự đoán (nói) tỷ lệ phần trăm thay vì tỷ lệ, và nếu vậy, tại sao?