Hồi quy tuyến tính hoặc hồi quy logistic thông thường để dự đoán xếp hạng rượu vang (từ 0 và 10)


18

Tôi có dữ liệu rượu từ đây bao gồm 11 biến độc lập số với xếp hạng phụ thuộc được liên kết với mỗi mục có giá trị từ 0 đến 10. Điều này làm cho nó trở thành một bộ dữ liệu tuyệt vời để sử dụng mô hình hồi quy để điều tra mối quan hệ giữa các biến và liên kết Xếp hạng. Tuy nhiên, liệu hồi quy tuyến tính có phù hợp không, hay tốt hơn là sử dụng hồi quy logistic đa biến / có trật tự?

Hồi quy logistic có vẻ tốt hơn khi đưa ra các danh mục cụ thể, nghĩa là không phải là biến phụ thuộc liên tục nhưng (1) có 11 danh mục (hơi nhiều?) Và (2) khi kiểm tra, chỉ có dữ liệu cho 6-7 loại đó, tức là còn lại 5-4 loại không có ví dụ trong bộ dữ liệu.

Mặt khác, hồi quy tuyến tính nên ước tính tuyến tính xếp hạng trong khoảng 0-10, có vẻ gần với những gì tôi đang cố gắng tìm hiểu; nhưng biến phụ thuộc không liên tục trong tập dữ liệu.

Đó là cách tiếp cận tốt hơn? Lưu ý: Tôi đang sử dụng R để phân tích

Chỉnh sửa, giải quyết một số điểm được đề cập trong câu trả lời:

  • Không có mục tiêu kinh doanh vì đây thực sự là một khóa học đại học. Nhiệm vụ là phân tích một bộ dữ liệu về sự lựa chọn bất cứ cách nào tôi thấy phù hợp.
  • Phân phối xếp hạng có vẻ bình thường (biểu đồ / qq-lô). Các giá trị thực tế trong bộ dữ liệu nằm trong khoảng từ 3-8 (mặc dù về mặt kỹ thuật là 0-10).

Câu trả lời:


9

Một mô hình logit được đặt hàng phù hợp hơn vì bạn có một biến phụ thuộc là xếp hạng, 7 tốt hơn 4 chẳng hạn. Vì vậy, có một trật tự rõ ràng.

Điều này cho phép bạn có được một xác suất cho mỗi thùng. Có một vài giả định mà bạn cần phải tính đến. Bạn có thể có một cái nhìn ở đây .

Một trong những giả định cơ bản của hồi quy logistic (và probit pro) là mối quan hệ giữa mỗi cặp nhóm kết quả là như nhau. Nói cách khác, hồi quy logistic thứ tự giả định rằng các hệ số mô tả mối quan hệ giữa, giả sử, thấp nhất so với tất cả các loại cao hơn của biến trả lời giống như các mô tả mối quan hệ giữa loại thấp nhất tiếp theo và tất cả các loại cao hơn, v.v. Điều này được gọi là giả định tỷ lệ cược tỷ lệ hoặc giả định hồi quy song song.

Một số mã:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

Bạn có thể có giải thích thêm ở đây , ở đây , ở đây hoặc ở đây .

Hãy nhớ rằng bạn sẽ cần phải chuyển đổi các hệ số của mình thành tỷ lệ cược và sau đó đến xác suất để có một sự giải thích rõ ràng về mặt xác suất.

Theo cách đơn giản (và đơn giản), bạn có thể tính toán những điều này bằng cách:

exp(βTôi)= =ÔiddSRmộttTôio

exp(β1)Σexp(βTôi)= =ProbmộtbTôitôiTôity

(Đừng muốn quá kỹ thuật)


4

Tôi muốn cung cấp một cái nhìn khác cho vấn đề: Trong thế giới thực, ít gặp phải câu hỏi này, bởi vì những gì cần làm là tùy thuộc vào nhu cầu kinh doanh .

Câu hỏi thiết yếu trong thế giới thực là phải làm gì sau khi có được dự đoán?

  • Giả sử doanh nghiệp muốn bỏ rượu "chất lượng thấp". Sau đó, chúng ta cần một số định nghĩa về "mức độ tệ như thế nào là xấu" (giả sử chất lượng dưới ). Với định nghĩa, nên sử dụng hồi quy logistic nhị phân, vì quyết định là nhị phân. (thùng rác hoặc giữ, không có gì ở giữa).2

  • Giả sử doanh nghiệp muốn chọn một số loại rượu hảo hạng để gửi đến ba loại nhà hàng. Sau đó, phân loại nhiều lớp sẽ là cần thiết.

Tóm lại, tôi muốn lập luận rằng những gì cần làm thực sự phụ thuộc vào nhu cầu sau khi có được dự đoán, thay vì chỉ nhìn vào thuộc tính của biến trả lời.


1

Mặc dù một mô hình logit được đặt hàng (như chi tiết bởi @ adrian1121) sẽ phù hợp nhất về mặt giả định mô hình, tôi nghĩ rằng hồi quy tuyến tính cũng có một số lợi thế.

  1. Dễ giải thích . Mô hình tuyến tính dễ giải thích hơn mô hình logit được đặt hàng.
  2. Sự thoải mái của các bên liên quan . Người dùng của mô hình có thể thoải mái hơn với hồi quy tuyến tính vì họ có nhiều khả năng biết nó là gì.
  3. Khác biệt hơn (đơn giản hơn). Mô hình đơn giản hơn có thể thực hiện tốt, xem chủ đề liên quan .

Thực tế là hầu hết các câu trả lời là từ 3-8, gợi ý cho tôi rằng một mô hình tuyến tính có thể thực hiện phù hợp với nhu cầu của bạn. Tôi không nói nó "tốt hơn", nhưng nó có thể là một cách tiếp cận thực tế hơn.


0

Về nguyên tắc hình logit có vẻ phù hợp, nhưng 10 (hoặc thậm chí 7) loại là khá nhiều.

1 / Cuối cùng, sẽ hợp lý khi thực hiện mã hóa lại (ví dụ: xếp hạng 1-4 sẽ được hợp nhất thành 1 phương thức duy nhất, nói "xếp hạng thấp")?

2 / Phân phối xếp hạng là gì? Nếu phân phối khá tốt, thì hồi quy tuyến tính sẽ làm tốt công việc (xem mô hình xác suất tuyến tính ).

3 / Nếu không, tôi sẽ sử dụng một thứ hoàn toàn khác gọi là " hồi quy beta " - Thang đánh giá 11 điểm là một cái gì đó khá chi tiết so với thang điểm 5 cổ điển - Tôi nghĩ có thể chấp nhận coi thang điểm đánh giá là "cường độ" scale trong đó 0 = Null và 1 = Full / Perfect - Bằng cách này, về cơ bản, bạn sẽ cho rằng thang đo của mình loại khoảng (chứ không phải thứ tự), nhưng với tôi nghe có vẻ chấp nhận được.


3
Tại sao 10 (hoặc 7) loại rất nhiều? Có một số lý do kỹ thuật cơ bản tại sao 10 danh mục sẽ không hành xử phù hợp trong một mô hình logit được đặt hàng, hoặc bạn đang nói từ một quan điểm hoàn toàn thực tế? (ví dụ: những cân nhắc tương tự với câu trả lời hxd1011 đã đưa ra.)
RM

Không có lý do kỹ thuật miễn là dữ liệu cho phép ước tính một logit được đặt hàng (OL) với các danh mục "rất nhiều". Tuy nhiên, việc chỉ định một mô hình OL với 11 danh mục ngụ ý ước tính 10 thuật ngữ "không đổi" (nghĩa là các tham số ngưỡng) - Nghe có vẻ rất nhiều đối với tôi, đặc biệt nếu một số danh mục không được thể hiện tốt trong cơ sở dữ liệu - Cảm giác ruột của tôi là mô hình OL cho 11 danh mục bị giết quá nhiều, tôi sẽ coi xếp hạng là biến liên tục hoặc thu gọn một số phương thức để chỉ định mô hình OL tinh vi hơn (và có lẽ có ý nghĩa hơn).
Umka

-1

Tôi không phải là một chuyên gia về hồi quy logistic, nhưng tôi sẽ nói rằng bạn muốn sử dụng đa thức vì biến phụ thuộc rời rạc của bạn.

Hồi quy tuyến tính có thể đưa ra các hệ số có thể được ngoại suy ra khỏi các ranh giới có thể có của biến phụ thuộc của bạn (nghĩa là sự gia tăng của biến độc lập sẽ dẫn đến một biến phụ thuộc ra khỏi ranh giới của bạn cho hệ số hồi quy đã cho).

Hồi quy đa cực sẽ đưa ra các xác suất khác nhau cho các kết quả khác nhau của biến phụ thuộc của bạn (tức là hệ số hồi quy của bạn sẽ cho bạn cách họ tăng xác suất để cho điểm cao hơn, mà không bị điểm số vượt quá giới hạn).


3
Multinomial là tốt cho nhiều loại không có thứ tự. Logistic thông thường (những gì OP đề xuất trong câu hỏi) là tốt cho nhiều danh mục được đặt hàng.
Gregor --reinstate Monica--

-1

Một khả năng khác là sử dụng Rừng ngẫu nhiên. Có hai cách để đo lường "tầm quan trọng" của một biến trong Khu rừng ngẫu nhiên:

  1. XjXjXjYX
  2. XjXj

Rừng ngẫu nhiên cũng có thể tuân theo một loại trực quan hóa dữ liệu được gọi là "biểu đồ phụ thuộc một phần". Xem hướng dẫn chuyên sâu này để biết thêm chi tiết.

Sự phụ thuộc một phần và tầm quan trọng hoán vị không đặc trưng cho các mô hình Rừng ngẫu nhiên, nhưng mức độ phổ biến của chúng tăng lên cùng với sự phổ biến của Rừng ngẫu nhiên vì tính hiệu quả của việc tính toán chúng cho các mô hình Rừng ngẫu nhiên.


1
Tôi biết đó là một câu trả lời hơi tiếp tuyến, nhưng tôi muốn biết lý do tại sao điều này bị hạ thấp. Có đúng không?
Shadowtalker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.