Có bao giờ có ý nghĩa để coi dữ liệu phân loại là liên tục?


57

Khi trả lời câu hỏi này trên dữ liệu rời rạc và liên tục, tôi khẳng định rõ ràng rằng hiếm khi có ý nghĩa để coi dữ liệu phân loại là liên tục.

Trên mặt của nó có vẻ như hiển nhiên, nhưng trực giác thường là một hướng dẫn kém cho thống kê, hoặc ít nhất là của tôi. Vì vậy, bây giờ tôi đang tự hỏi: nó có đúng không? Hoặc có những phân tích được thiết lập để chuyển đổi từ dữ liệu phân loại sang một số liên tục thực sự hữu ích? Nó sẽ làm cho một sự khác biệt nếu dữ liệu là thứ tự?


20
Câu hỏi này và các câu trả lời của nó nhắc nhở chúng ta về mức độ thô sơ và hạn chế sự phân chia biến số cổ xưa này thành tỷ lệ phân loại-quy tắc-khoảng cách thực sự. Nó có thể hướng dẫn những người ngây thơ về mặt thống kê, nhưng đối với nhà phân tích chu đáo hoặc có kinh nghiệm thì đó là một trở ngại, trở ngại trong cách thể hiện các biến theo cách phù hợp với dữ liệu và các quyết định được đưa ra với họ. Ai đó làm việc từ quan điểm sau này sẽ tự do di chuyển giữa các biểu diễn dữ liệu phân loại và "liên tục"; Đối với họ, câu hỏi này thậm chí không thể phát sinh! Thay vào đó, chúng ta nên hỏi: nó giúp như thế nào?
whuber

@whuber (+1) Ít nhất, có vẻ khó tối ưu hóa độ tin cậy đo lường và độ chính xác chẩn đoán cùng một lúc.
chl

Câu trả lời:


34

Tôi sẽ giả sử rằng một biến "phân loại" thực sự là viết tắt của một biến số thứ tự; mặt khác, nó không có ý nghĩa gì khi coi nó là một biến liên tục, trừ khi đó là biến nhị phân (được mã hóa 0/1) như được chỉ ra bởi @Rob. Sau đó, tôi sẽ nói rằng vấn đề không phải là cách chúng ta xử lý biến, mặc dù nhiều mô hình phân tích dữ liệu phân loại đã được phát triển cho đến nay - xem ví dụ: Phân tích dữ liệu phân loại theo thứ tự: Tổng quan và khảo sát gần đây phát triển từ Liu và Agresti--, hơn thang đo lường cơ bản mà chúng tôi giả định. Phản hồi của tôi sẽ tập trung vào điểm thứ hai này, mặc dù trước tiên tôi sẽ thảo luận ngắn gọn về việc gán điểm số cho các danh mục hoặc cấp độ khác nhau.

Bằng cách sử dụng mã hóa số đơn giản của một biến số thứ tự, bạn giả định rằng biến đó có các thuộc tính khoảng (theo nghĩa phân loại được đưa ra bởi Stevens, 1946). Từ góc độ lý thuyết đo lường (trong tâm lý học), điều này thường có thể là một giả định quá mạnh mẽ, nhưng đối với nghiên cứu cơ bản (nghĩa là khi một mục duy nhất được sử dụng để bày tỏ ý kiến ​​của một người về một hoạt động hàng ngày với từ ngữ rõ ràng), bất kỳ điểm số đơn điệu nào cũng cho kết quả tương đương . Cochran (1954) đã chỉ ra rằng

bất kỳ tập hợp điểm nào cũng cho một bài kiểm tra hợp lệ , miễn là chúng được xây dựng mà không cần tham khảo kết quả của thí nghiệm. Nếu tập hợp điểm kém, trong đó nó làm sai lệch một thang đo số thực sự làm cơ sở cho việc phân loại theo thứ tự, bài kiểm tra sẽ không nhạy cảm. Do đó, điểm số sẽ thể hiện cái nhìn sâu sắc nhất có sẵn về cách thức phân loại được xây dựng và sử dụng. (trang 436)

(Rất cám ơn @whuber đã nhắc nhở tôi về điều này trong suốt một trong những bình luận của anh ấy, điều đó đã khiến tôi đọc lại cuốn sách của Agresti, từ đó trích dẫn này.)

Trên thực tế, một số thử nghiệm xử lý các biến như ngầm định như thang đo khoảng: ví dụ: thống kê để kiểm tra xu hướng tuyến tính (thay thế cho tính độc lập đơn giản) dựa trên cách tiếp cận tương quan ( , Agresti, 2002, trang 87).M 2 = ( n - 1 ) r 2M2M2=(n1)r2

Chà, bạn cũng có thể quyết định mã hóa lại biến của mình trên một phạm vi không đều hoặc tổng hợp một số cấp độ của nó, nhưng trong trường hợp này, sự mất cân bằng mạnh mẽ giữa các danh mục được mã hóa lại có thể làm sai lệch các kiểm tra thống kê, ví dụ như kiểm tra xu hướng đã nói ở trên. Một cách khác để gán khoảng cách giữa các danh mục đã được đề xuất bởi @Jeromy, cụ thể là chia tỷ lệ tối ưu.

Bây giờ, hãy thảo luận về điểm thứ hai tôi đã thực hiện, đó là mô hình đo lường cơ bản. Tôi luôn do dự về việc thêm thẻ "psychometrics" khi tôi thấy loại câu hỏi này, bởi vì việc xây dựng và phân tích các thang đo được đưa ra theo Lý thuyết Tâm lý học (Nunnally và Bernstein, 1994, để có cái nhìn tổng quan gọn gàng). Tôi sẽ không tập trung vào tất cả các mô hình thực sự hướng đến Lý thuyết phản hồi vật phẩm và tôi vui lòng giới thiệu người đọc quan tâm đến hướng dẫn của I. Partchev, Hướng dẫn trực quan về lý thuyết phản hồi vật phẩm, để giới thiệu nhẹ nhàng về IRT và các tài liệu tham khảo (5-8) được liệt kê ở cuối cho các nguyên tắc phân loại IRT có thể. Rất ngắn gọn, ý tưởng là thay vì chỉ định khoảng cách tùy ý giữa các loại biến, bạn giả định thang đo tiềm ẩn và ước tính vị trí của chúng trên tính liên tục đó, cùng với khả năng hoặc trách nhiệm của cá nhân. Một ví dụ đơn giản đáng giá nhiều ký hiệu toán học, vì vậy, hãy xem xét mục sau (đến từ bảng câu hỏi chất lượng cuộc sống liên quan đến sức khỏe EORTC QLQ-C30 ):

Bạn có lo lắng không

được mã hóa theo thang điểm bốn, từ "Không hoàn toàn" đến "Rất nhiều". Điểm số thô được tính bằng cách gán điểm từ 1 đến 4. Điểm số trên các vật phẩm có cùng thang đo có thể được cộng lại với nhau để mang lại cái gọi là thang điểm, biểu thị thứ hạng của một người trên cấu trúc cơ bản (ở đây, một thành phần sức khỏe tâm thần ). Điểm số thang điểm tổng hợp như vậy là rất thực tế vì dễ dàng ghi điểm (đối với người hành nghề hoặc y tá), nhưng chúng không hơn gì một thang đo (có trật tự) rời rạc.

Chúng ta cũng có thể xem xét rằng xác suất xác nhận một loại phản ứng nhất định tuân theo một số mô hình logistic, như được mô tả trong hướng dẫn của I. Partchev, được đề cập ở trên. Về cơ bản, ý tưởng là một loại mô hình ngưỡng (dẫn đến công thức tương đương về các mô hình tỷ lệ cược tích lũy hoặc tỷ lệ tích lũy) và chúng tôi mô hình tỷ lệ cược trong một loại phản ứng thay vì trước hoặc tỷ lệ cược trên loại nhất định, có điều kiện về vị trí của đối tượng trên đặc điểm tiềm ẩn. Ngoài ra, chúng tôi có thể áp đặt rằng các danh mục phản hồi có khoảng cách đều nhau trên thang đo tiềm ẩn (đây là mô hình Thang đánh giá) - đó là cách chúng tôi thực hiện bằng cách gán điểm số cách đều đặn-- hoặc không (đây là mô hình Tín dụng một phần) .

Rõ ràng, chúng tôi không thêm nhiều vào Lý thuyết kiểm tra cổ điển, trong đó biến số thứ tự được coi là số. Tuy nhiên, chúng tôi giới thiệu một mô hình xác suất, trong đó chúng tôi giả sử thang đo liên tục (với các thuộc tính khoảng) và khi có thể tính các lỗi đo lường cụ thể và chúng tôi có thể cắm các điểm số này trong bất kỳ mô hình hồi quy nào.

Người giới thiệu

  1. SS Stevens. Về lý thuyết thang đo. Khoa học , 103 : 677-680, 1946.
  2. WG Nam Kỳ. Một số phương pháp tăng cường các thử nghiệm phổ biến . Sinh trắc học , 10 : 417-451, 1954.χ2
  3. J Nunnally và tôi Bernstein. Lý thuyết tâm lý học . McGraw-Hill, 1994
  4. Alan Agresti. Phân tích dữ liệu phân loại . Wiley, 1990.
  5. CR Rao và S Sinharay, biên tập viên. Sổ tay Thống kê, Tập. 26: Tâm lý học . Elsevier Science BV, Hà Lan, 2007.
  6. Một Boomsma, MAJ van Duijn và TAB Snijder. Tiểu luận về lý thuyết đáp ứng vật phẩm . Mùa xuân, 2001.
  7. D Thissen và L Steinberg. Một phân loại của các mô hình đáp ứng mục. Psychometrika , 51 (4) : 567 bóng577, 1986.
  8. P Mair và R Hatzinger. Mở rộng Rasch Làm mẫu: erm trọn gói cho việc áp dụng các mô hình IRT trong R . Tạp chí phần mềm thống kê , 20 (9) , 2007.

19

Nếu chỉ có hai loại, thì việc chuyển đổi chúng thành (0,1) có ý nghĩa. Trong thực tế, điều này thường được thực hiện khi biến giả kết quả được sử dụng trong các mô hình hồi quy.

Nếu có nhiều hơn hai loại, thì tôi nghĩ nó chỉ có ý nghĩa nếu dữ liệu là thứ tự, và sau đó chỉ trong những trường hợp rất cụ thể. Ví dụ, nếu tôi đang thực hiện hồi quy và khớp một hàm phi tuyến tính không đối xứng với biến số thứ tự-cum-số, tôi nghĩ rằng điều đó là ổn. Nhưng nếu tôi sử dụng hồi quy tuyến tính, thì tôi đang đưa ra các giả định rất mạnh mẽ về sự khác biệt tương đối giữa các giá trị liên tiếp của biến số thứ tự và tôi thường miễn cưỡng làm điều đó.


1
"[T] hen Tôi đang đưa ra các giả định rất mạnh mẽ về sự khác biệt tương đối giữa các giá trị liên tiếp của biến số thứ tự." Tôi nghĩ rằng đây là điểm quan trọng, thực sự. tức là bạn có thể lập luận mạnh mẽ như thế nào về sự khác biệt giữa các nhóm 1 và 2 tương đương với sự khác biệt giữa 2 và 3?
Freya Harrison

Tôi nghĩ bạn nên đưa ra một số giả định về cách phân phối biến liên tục và sau đó cố gắng điều chỉnh "biểu đồ" này của từng tần số biến phân loại (ý tôi là tìm độ rộng bin sẽ biến nó thành biểu đồ phù hợp). Tuy nhiên, tôi không phải là một chuyên gia trong lĩnh vực này, đó là một ý tưởng nhanh và bẩn.

Gọi lại các danh mục nhị phân là {0,1} có ý nghĩa, nhưng biến nó thành một khoảng [0,1] liên tục có vẻ như là một bước nhảy vọt. Trên mặt trận rộng hơn, tôi hoàn toàn miễn cưỡng với các trọng số cân bằng trừ khi có những lập luận mạnh mẽ từ mô hình.
walkytalky

18

Đó là thực tế phổ biến để coi các biến phân loại có thứ tự với nhiều loại là liên tục. Ví dụ về điều này:

  • Số mục đúng trong bài kiểm tra 100 mục
  • Thang đo tâm lý tổng hợp (ví dụ: đó là giá trị trung bình của 10 mục trên mỗi thang điểm năm)

Và bằng cách "xử lý như liên tục", tôi có nghĩa là bao gồm biến trong mô hình giả định một biến ngẫu nhiên liên tục (ví dụ, như một biến phụ thuộc trong hồi quy tuyến tính). Tôi cho rằng vấn đề là cần bao nhiêu điểm tỷ lệ để điều này trở thành một giả định đơn giản hóa hợp lý.

Một vài suy nghĩ khác:

  • Các mối tương quan đa âm cố gắng mô hình hóa mối quan hệ giữa hai biến số thứ tự theo các biến liên tục tiềm ẩn giả định.
  • Chia tỷ lệ tối ưu cho phép bạn phát triển các mô hình trong đó tỷ lệ của biến phân loại được phát triển theo cách hướng dữ liệu trong khi tôn trọng bất kỳ ràng buộc quy mô nào bạn áp đặt (ví dụ: quy tắc). Để có một giới thiệu tốt, xem De Leeuw và Mair (2009)

Người giới thiệu

  • De Leeuw, J., & Mair, P. (2009). Các phương thức Gifi để chia tỷ lệ tối ưu trong R: Các gói chính. Tạp chí phần mềm thống kê, sắp xuất bản, 1-30. PDF

7

Một ví dụ rất đơn giản thường bị bỏ qua nên nằm trong kinh nghiệm của nhiều độc giả liên quan đến các điểm hoặc điểm được trao cho công việc học tập. Thông thường các nhãn hiệu cho các bài tập riêng lẻ thực chất là các phép đo thứ tự dựa trên phán đoán, ngay cả khi theo quy ước, chúng được đưa ra dưới dạng (nói) phần trăm hoặc dấu trên thang điểm có tối đa 5 (có thể có cả dấu thập phân). Đó là, một giáo viên có thể đọc qua một bài tiểu luận hoặc luận văn hoặc luận án hoặc bài báo và quyết định rằng nó xứng đáng 42%, hoặc 4, hoặc bất cứ điều gì. Ngay cả khi các nhãn hiệu được dựa trên sơ đồ đánh giá chi tiết, thang đo vẫn nằm ở khoảng cách gốc từ thang đo khoảng cách hoặc tỷ lệ.

Nhưng sau đó, nhiều tổ chức đưa ra quan điểm rằng nếu bạn có đủ các điểm hoặc điểm này thì việc lấy trung bình (điểm trung bình, v.v.) là hoàn toàn hợp lý và thậm chí phân tích chúng chi tiết hơn. Vì vậy, tại một số điểm, các phép đo thứ tự biến thành một thang đo tóm tắt được xử lý như thể nó liên tục.

Những người sành điệu trớ trêu sẽ lưu ý rằng các khóa học thống kê ở nhiều Bộ môn hoặc Trường học thường dạy rằng đây là điều không rõ ràng nhất và sai lầm tồi tệ nhất, trong khi nó được thực hiện như một thủ tục toàn Đại học.


5

Trong phân tích xếp hạng theo tần suất, như với biểu đồ Pareto và các giá trị liên quan (ví dụ: có bao nhiêu danh mục chiếm 80% lỗi sản phẩm hàng đầu)


5
Điểm quan trọng và có thể được mở rộng: Nhiều mô hình cho bản lề dữ liệu thứ tự với ý tưởng rằng đó không phải là dữ liệu thứ tự mà là xác suất tích lũy của chúng có thể được mô hình hóa.
Nick Cox

4

Tôi sẽ đưa ra lập luận rằng việc đối xử với một biến thực sự không phân loại, không theo quy tắc đôi khi có thể có ý nghĩa.

Nếu bạn đang xây dựng các cây quyết định dựa trên các bộ dữ liệu lớn, có thể tốn kém về mặt sức mạnh xử lý và bộ nhớ để chuyển đổi các biến phân loại thành các biến giả. Hơn nữa, một số mô hình (ví dụ randomForesttrong R) không thể xử lý các biến phân loại với nhiều cấp độ.

Trong những trường hợp này, một mô hình dựa trên cây sẽ có thể xác định các danh mục cực kỳ quan trọng, NGAY CẢ NẾU chúng được mã hóa thành một biến liên tục. Một ví dụ giả định:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y là biến liên tục, a là biến liên tục và b là biến phân loại. Tuy nhiên, trong dat1b được coi là liên tục.

Gắn một cây quyết định vào 2 bộ dữ liệu này, chúng tôi thấy rằng điều đó dat1hơi tệ hơn dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Nếu bạn nhìn vào 2 mô hình, bạn sẽ thấy rằng chúng rất giống nhau, nhưng model1 bỏ lỡ tầm quan trọng của b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Tuy nhiên, model1 chạy trong khoảng 1/10 thời gian của model2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Tất nhiên bạn có thể điều chỉnh các tham số của vấn đề để tìm các tình huống dat2vượt xa dat1hoặc dat1vượt trội hơn một chút dat2.

Tôi không ủng hộ việc coi các biến phân loại là liên tục, nhưng tôi đã tìm thấy các tình huống làm như vậy đã giảm đáng kể thời gian phù hợp với các mô hình của tôi, mà không làm giảm độ chính xác dự đoán của chúng.


3

Một bản tóm tắt rất hay về chủ đề này có thể được tìm thấy ở đây:

mijkerhemtulla.socsci.uva.nl PDF

"Khi nào các biến phân loại có thể được coi là liên tục? So sánh các phương pháp ước lượng SEM liên tục và phân loại mạnh mẽ trong các điều kiện dưới tối ưu."

Mijke Rhemtulla, Patricia É. Brosseau-Liard và Victoria Savalei

Họ điều tra các phương pháp đáng giá khoảng 60 trang để làm như vậy và cung cấp thông tin chuyên sâu về việc khi nào nên thực hiện, phương pháp nào cần thực hiện và điểm mạnh và điểm yếu của từng phương pháp để phù hợp với tình huống cụ thể của bạn. Họ không bao gồm tất cả trong số họ (vì tôi đang học dường như có một số lượng không giới hạn), nhưng những người họ bảo hiểm họ che đậy tốt.


2

Có một trường hợp khác khi nó có ý nghĩa: khi dữ liệu được lấy mẫu từ dữ liệu liên tục (ví dụ thông qua bộ chuyển đổi tương tự sang số). Đối với các thiết bị cũ hơn, ADC thường là 10 bit, cung cấp dữ liệu thứ tự trên danh mục 1024, nhưng đối với hầu hết các mục đích có thể được coi là thực (mặc dù sẽ có một số tạo phẩm cho các giá trị ở gần mức thấp của thang đo). Ngày nay, ADC thường là 16 hoặc 24 bit. Vào thời điểm bạn nói về 65536 hoặc 16777216 "danh mục", bạn thực sự không gặp khó khăn gì khi coi dữ liệu là liên tục.


Tôi đồng ý mạnh mẽ với điểm mấu chốt của bạn, nhưng có thể nói rằng dữ liệu đó không bao giờ là thông thường để bắt đầu, chỉ bị loại bỏ. Điều trị tệ hại của tỷ lệ danh nghĩa-thứ tự-khoảng cách là đáng trách ở đây vì thường không chỉ ra rằng thứ tự ngụ ý rời rạc, nhưng không phải ngược lại. Một số là thứ tự, nhưng nó là khoảng và tỷ lệ quá.
Nick Cox

@Nick Bình thường ngụ ý rời rạc? Không cần thiết. Các biện pháp liên tục có thể là thông thường. Ví dụ, các biến số sinh lý như GSP hoặc nhịp tim là liên tục, nhưng là thước đo của các biến số tâm lý như lo lắng hoặc kích thích, chúng chỉ là thứ tự. Khái niệm thứ tự so với khoảng thực sự đề cập đến tính tuyến tính của hàm liên quan đến số đo với những gì nó dự định đo.
Ray Koopman

Đó là một nhận xét thú vị, nhưng một khi bạn đi vào lãnh thổ đó, tôi không thấy cách bạn có thể phân loại nhịp tim mà không có bằng chứng độc lập về sự lo lắng thực sự là gì và cuối cùng hầu hết các biến được coi là proxy đều không thể phân loại được. Bạn có thể từ chối sử dụng các phương pháp cho dữ liệu khoảng hoặc tỷ lệ bất cứ khi nào bạn chuyển sang liên quan đến thang đo chỉ là quy tắc không? Tôi không nghĩ dữ liệu hành xử khác đi vì những gì bạn định làm với chúng; đó không phải là vấn đề đối với tôi
Nick Cox

1
@Nick Câu hỏi đặt ra là liệu hàm liên quan đến giá trị đo được với giá trị "true" có đủ gần với tuyến tính hay không, điều đó sẽ không dẫn đến kết luận sai thực sự, hoặc phải được coi là chỉ đơn điệu. Thường có ít hoặc không có dữ liệu cứng để đưa ra quyết định; nó hầu như sẽ luôn là một cuộc gọi phán xét, về việc những người thông minh có thể phải đồng ý không đồng ý.
Ray Koopman

1
Tôi nghĩ rằng sự nhấn mạnh thông thường trong các cuộc thảo luận về thang đo lường trong thống kê là về các tính chất toán học của các biến và các phép toán hợp pháp cho mỗi biến số là gì. Thế là đủ tranh cãi. Mối quan tâm của khoa học về việc liệu một cái gì đó đo lường những gì được cho là tôi sẵn sàng đồng ý là cực kỳ quan trọng, nhưng tôi thấy đó là một lĩnh vực tranh luận khá khác biệt.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.