Tôi sẽ giả sử rằng một biến "phân loại" thực sự là viết tắt của một biến số thứ tự; mặt khác, nó không có ý nghĩa gì khi coi nó là một biến liên tục, trừ khi đó là biến nhị phân (được mã hóa 0/1) như được chỉ ra bởi @Rob. Sau đó, tôi sẽ nói rằng vấn đề không phải là cách chúng ta xử lý biến, mặc dù nhiều mô hình phân tích dữ liệu phân loại đã được phát triển cho đến nay - xem ví dụ: Phân tích dữ liệu phân loại theo thứ tự: Tổng quan và khảo sát gần đây phát triển từ Liu và Agresti--, hơn thang đo lường cơ bản mà chúng tôi giả định. Phản hồi của tôi sẽ tập trung vào điểm thứ hai này, mặc dù trước tiên tôi sẽ thảo luận ngắn gọn về việc gán điểm số cho các danh mục hoặc cấp độ khác nhau.
Bằng cách sử dụng mã hóa số đơn giản của một biến số thứ tự, bạn giả định rằng biến đó có các thuộc tính khoảng (theo nghĩa phân loại được đưa ra bởi Stevens, 1946). Từ góc độ lý thuyết đo lường (trong tâm lý học), điều này thường có thể là một giả định quá mạnh mẽ, nhưng đối với nghiên cứu cơ bản (nghĩa là khi một mục duy nhất được sử dụng để bày tỏ ý kiến của một người về một hoạt động hàng ngày với từ ngữ rõ ràng), bất kỳ điểm số đơn điệu nào cũng cho kết quả tương đương . Cochran (1954) đã chỉ ra rằng
bất kỳ tập hợp điểm nào cũng cho một
bài kiểm tra hợp lệ , miễn là chúng được xây dựng mà không cần tham khảo kết quả của thí nghiệm. Nếu tập hợp điểm kém, trong đó nó làm sai lệch một thang đo số thực sự làm cơ sở cho việc phân loại theo thứ tự, bài kiểm tra sẽ không nhạy cảm. Do đó, điểm số sẽ thể hiện cái nhìn sâu sắc nhất có sẵn về cách thức phân loại được xây dựng và sử dụng. (trang 436)
(Rất cám ơn @whuber đã nhắc nhở tôi về điều này trong suốt một trong những bình luận của anh ấy, điều đó đã khiến tôi đọc lại cuốn sách của Agresti, từ đó trích dẫn này.)
Trên thực tế, một số thử nghiệm xử lý các biến như ngầm định như thang đo khoảng: ví dụ: thống kê để kiểm tra xu hướng tuyến tính (thay thế cho tính độc lập đơn giản) dựa trên cách tiếp cận tương quan ( , Agresti, 2002, trang 87).M 2 = ( n - 1 ) r 2M2M2=(n−1)r2
Chà, bạn cũng có thể quyết định mã hóa lại biến của mình trên một phạm vi không đều hoặc tổng hợp một số cấp độ của nó, nhưng trong trường hợp này, sự mất cân bằng mạnh mẽ giữa các danh mục được mã hóa lại có thể làm sai lệch các kiểm tra thống kê, ví dụ như kiểm tra xu hướng đã nói ở trên. Một cách khác để gán khoảng cách giữa các danh mục đã được đề xuất bởi @Jeromy, cụ thể là chia tỷ lệ tối ưu.
Bây giờ, hãy thảo luận về điểm thứ hai tôi đã thực hiện, đó là mô hình đo lường cơ bản. Tôi luôn do dự về việc thêm thẻ "psychometrics" khi tôi thấy loại câu hỏi này, bởi vì việc xây dựng và phân tích các thang đo được đưa ra theo Lý thuyết Tâm lý học (Nunnally và Bernstein, 1994, để có cái nhìn tổng quan gọn gàng). Tôi sẽ không tập trung vào tất cả các mô hình thực sự hướng đến Lý thuyết phản hồi vật phẩm và tôi vui lòng giới thiệu người đọc quan tâm đến hướng dẫn của I. Partchev, Hướng dẫn trực quan về lý thuyết phản hồi vật phẩm, để giới thiệu nhẹ nhàng về IRT và các tài liệu tham khảo (5-8) được liệt kê ở cuối cho các nguyên tắc phân loại IRT có thể. Rất ngắn gọn, ý tưởng là thay vì chỉ định khoảng cách tùy ý giữa các loại biến, bạn giả định thang đo tiềm ẩn và ước tính vị trí của chúng trên tính liên tục đó, cùng với khả năng hoặc trách nhiệm của cá nhân. Một ví dụ đơn giản đáng giá nhiều ký hiệu toán học, vì vậy, hãy xem xét mục sau (đến từ bảng câu hỏi chất lượng cuộc sống liên quan đến sức khỏe EORTC QLQ-C30 ):
Bạn có lo lắng không
được mã hóa theo thang điểm bốn, từ "Không hoàn toàn" đến "Rất nhiều". Điểm số thô được tính bằng cách gán điểm từ 1 đến 4. Điểm số trên các vật phẩm có cùng thang đo có thể được cộng lại với nhau để mang lại cái gọi là thang điểm, biểu thị thứ hạng của một người trên cấu trúc cơ bản (ở đây, một thành phần sức khỏe tâm thần ). Điểm số thang điểm tổng hợp như vậy là rất thực tế vì dễ dàng ghi điểm (đối với người hành nghề hoặc y tá), nhưng chúng không hơn gì một thang đo (có trật tự) rời rạc.
Chúng ta cũng có thể xem xét rằng xác suất xác nhận một loại phản ứng nhất định tuân theo một số mô hình logistic, như được mô tả trong hướng dẫn của I. Partchev, được đề cập ở trên. Về cơ bản, ý tưởng là một loại mô hình ngưỡng (dẫn đến công thức tương đương về các mô hình tỷ lệ cược tích lũy hoặc tỷ lệ tích lũy) và chúng tôi mô hình tỷ lệ cược trong một loại phản ứng thay vì trước hoặc tỷ lệ cược trên loại nhất định, có điều kiện về vị trí của đối tượng trên đặc điểm tiềm ẩn. Ngoài ra, chúng tôi có thể áp đặt rằng các danh mục phản hồi có khoảng cách đều nhau trên thang đo tiềm ẩn (đây là mô hình Thang đánh giá) - đó là cách chúng tôi thực hiện bằng cách gán điểm số cách đều đặn-- hoặc không (đây là mô hình Tín dụng một phần) .
Rõ ràng, chúng tôi không thêm nhiều vào Lý thuyết kiểm tra cổ điển, trong đó biến số thứ tự được coi là số. Tuy nhiên, chúng tôi giới thiệu một mô hình xác suất, trong đó chúng tôi giả sử thang đo liên tục (với các thuộc tính khoảng) và khi có thể tính các lỗi đo lường cụ thể và chúng tôi có thể cắm các điểm số này trong bất kỳ mô hình hồi quy nào.
Người giới thiệu
- SS Stevens. Về lý thuyết thang đo. Khoa học , 103 : 677-680, 1946.
- WG Nam Kỳ. Một số phương pháp tăng cường các thử nghiệm phổ biến . Sinh trắc học , 10 : 417-451, 1954.χ2
- J Nunnally và tôi Bernstein. Lý thuyết tâm lý học . McGraw-Hill, 1994
- Alan Agresti. Phân tích dữ liệu phân loại . Wiley, 1990.
- CR Rao và S Sinharay, biên tập viên. Sổ tay Thống kê, Tập. 26: Tâm lý học . Elsevier Science BV, Hà Lan, 2007.
- Một Boomsma, MAJ van Duijn và TAB Snijder. Tiểu luận về lý thuyết đáp ứng vật phẩm . Mùa xuân, 2001.
- D Thissen và L Steinberg. Một phân loại của các mô hình đáp ứng mục. Psychometrika , 51 (4) : 567 bóng577, 1986.
- P Mair và R Hatzinger. Mở rộng Rasch Làm mẫu: erm trọn gói cho việc áp dụng các mô hình IRT trong R . Tạp chí phần mềm thống kê , 20 (9) , 2007.