Tôi đạt được gì nếu tôi coi kết quả là thứ tự thay vì phân loại?


12

Có các phương pháp khác nhau để dự đoán các biến số thứ tự và phân loại.

Điều tôi không hiểu, là sự khác biệt này quan trọng như thế nào. Có một ví dụ đơn giản nào có thể làm rõ những gì sai nếu tôi bỏ đơn đặt hàng? Trong hoàn cảnh nào nó không quan trọng? Ví dụ, nếu các biến độc lập cũng là tất cả phân loại / thứ tự, liệu có sự khác biệt?

Câu hỏi liên quan này tập trung vào loại biến độc lập. Ở đây tôi hỏi về các biến kết quả.

Chỉnh sửa: Tôi thấy điểm sử dụng cấu trúc đơn hàng làm giảm số lượng tham số mô hình, nhưng tôi vẫn không thực sự bị thuyết phục.

Dưới đây là một ví dụ (được lấy từ phần giới thiệu về hồi quy logistic có trật tự , theo như tôi có thể thấy hồi quy logistic thông thường không hoạt động tốt hơn hồi quy logistic đa phương:

library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))

ordered_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- polr(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

multinomial_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- multinom(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

n <- 100

polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))

trong đó cho thấy sự phân phối số lượng dự đoán đúng (trong số 40) của cả hai thuật toán.

polr_vs_multinom

Edit2: Khi tôi sử dụng làm phương pháp cho điểm như sau

return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))

và phạt các dự đoán "rất sai", polr vẫn có vẻ tệ, tức là cốt truyện ở trên không thay đổi nhiều.


1
Ví dụ của bạn sử dụng quy tắc chấm điểm không liên tục, nói chung không phải là cơ sở tốt để so sánh các bộ dự đoán (nó tùy ý và thiếu sức mạnh và độ chính xác).
Frank Harrell

Tôi giả sử bạn có thể phải thực thi biến đầu ra là một ordered factor, điều này sẽ cải thiện kết quả: gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)nhưng nó không có gì khác biệt. Nếu bạn nhìn vào độ chính xác, hai cái này khá giống nhau. Độ chính xác không phải là một số liệu tốt để chỉ dựa vào.
Zhubarb

Câu trả lời:


10

Có sức mạnh chính và lợi ích chính xác từ việc coi Y là thứ tự khi thích hợp. Điều này phát sinh từ số lượng tham số trong mô hình thấp hơn nhiều (theo hệ số k trong đó k là một ít hơn số lượng danh mục của Y). Có một số mô hình thứ tự. Được sử dụng phổ biến nhất là tỷ lệ cược tỷ lệ và mô hình logistic tỷ lệ tiếp tục.


1
+1 Việc giảm các tham số cũng có nghĩa là các mô hình thứ tự có thể dễ dàng hơn nhiều để phù hợp.
JMS

4

Nếu bạn bỏ qua tính chất có trật tự của các biến, các phương thức thích hợp vẫn sẽ cung cấp phân tích chính xác, nhưng lợi thế của việc sử dụng các phương thức cho dữ liệu theo thứ tự là chúng cung cấp thông tin lớn hơn về thứ tự và độ lớn của các biến quan trọng.


Tôi không thể xem thông tin nào về đơn hàng được cung cấp.
Karsten W.

1
Giả sử một biến có ba cấp độ, thấp, trung bình, cao. Một phân tích thứ tự có thể cho thấy không có sự khác biệt giữa thấp & med, nhưng có ý nghĩa đối với cao. Ước tính tham số có thể cung cấp thông tin như 'khi biến X cao, hiệu ứng được ước tính lớn hơn 2,5 lần so với thấp hoặc trung bình' - do đó hướng & cường độ.
Murray

2

Nếu bạn muốn mô hình hóa dữ liệu và biến phân loại phụ thuộc không có thứ tự (danh nghĩa) thì bạn phải sử dụng mô hình logit đa phương. Nếu biến phụ thuộc không có thứ tự (thứ tự) thì bạn có thể sử dụng mô hình logit tích lũy (mô hình tỷ lệ cược tỷ lệ).

Đối với cá nhân tôi, tôi thấy kết quả dễ hiểu hơn nhiều đối với mô hình tỷ lệ cược so với mô hình đa quốc gia, đặc biệt là khi bạn muốn báo cáo kết quả cho người không hiểu biết về thống kê.

Đây không phải là mô hình duy nhất bạn có thể sử dụng nhưng chúng rất điển hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.