Sử dụng phân vị như dự đoán - ý tưởng tốt?


9

Tôi đang suy nghĩ về một vấn đề là dự đoán nhật ký (chi tiêu) của khách hàng bằng cách sử dụng hồi quy tuyến tính.

Tôi đang xem xét những tính năng nào được sử dụng làm đầu vào và tự hỏi liệu có ổn không khi sử dụng phần trăm của một biến làm đầu vào.

Ví dụ, tôi có thể sử dụng doanh thu của các công ty làm đầu vào. Điều tôi băn khoăn là liệu tôi có thể sử dụng phần trăm doanh thu của công ty thay thế hay không.

Một ví dụ khác là phân loại ngành công nghiệp phân loại (NAICS) - nếu tôi xem xét chi tiêu trung bình cho mỗi mã NAICS và sau đó gán từng mã NAICS cho Perc Phần trăm NAICS ', đó có phải là biến giải thích hợp lệ tôi có thể sử dụng không?

Chỉ tự hỏi nếu có bất kỳ vấn đề cần lưu ý khi sử dụng phần trăm? Có phải trong một số cách tương đương với một loại quy mô tính năng?


2
Nếu bạn có dữ liệu gốc, tại sao bạn muốn sử dụng phần trăm? Có lẽ đó không phải là một ý tưởng hay, bởi vì phần trăm chỉ là số đo, không phải là số đo. Nhưng tôi không chắc về sự thiên vị / hiệu quả.
hplieninger

9
XX

1
nếu bạn có thể phân cụm hợp lý biến công nghiệp của mình theo nhóm, ví dụ 4, hãy sử dụng mã giả (hoặc bất kỳ sơ đồ mã hóa phù hợp nào khác) và bạn đã hoàn thành. Đó là cách tôi sẽ làm.
hplieninger

3
Tôi không thể nghĩ ra lý do tại sao phân vị sẽ liên quan tuyến tính với biến phụ thuộc. Nếu bạn có thể nghĩ về một cái, thì nó có thể ổn (và vui lòng cập nhật câu hỏi của bạn với lý do của bạn)
Peter Flom

1
Nếu bạn muốn sử dụng mã NAICS làm proxy cho chi tiêu của công ty, thì bạn có thể làm như vậy bằng cách sử dụng chi tiêu trung bình trong mã NAICS của nó - không cần sử dụng phần trăm.
Scortchi - Phục hồi Monica

Câu trả lời:


1

Nếu mô hình của bạn đòi hỏi một số loại cuộc thi trong doanh thu của công ty, bạn có thể sử dụng phần trăm. Phần trăm log có vẻ có ý nghĩa hơn, các lượng tử sẽ không có giá trị tuyến tính, hoặc tôi nghĩ vậy.

Trong câu chuyện này, bạn bao gồm ln (%) của các công ty có doanh thu theo công ty quan sát. Câu chuyện là với doanh thu cao có danh tiếng tốt hơn các công ty có doanh thu thấp và mối quan hệ "có nhiều hơn đối thủ" này có liên quan, chứ không phải mức độ doanh thu. Tôi có thể thấy đây là một phần quan trọng của sự công nhận và xây dựng thương hiệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.