Sự khác biệt nhóm về một mục Likert năm điểm


22

Tiếp theo từ câu hỏi này : Hãy tưởng tượng rằng bạn muốn kiểm tra sự khác biệt về xu hướng trung tâm giữa hai nhóm (ví dụ: nam và nữ) trên một mục Likert 5 điểm (ví dụ: sự hài lòng với cuộc sống: Không hài lòng với sự hài lòng). Tôi nghĩ rằng một bài kiểm tra t sẽ đủ chính xác cho hầu hết các mục đích, nhưng một bài kiểm tra bootstrap về sự khác biệt giữa các phương tiện nhóm thường sẽ cung cấp ước tính chính xác hơn về khoảng tin cậy. Kiểm tra thống kê nào bạn sẽ sử dụng?


2
Một câu hỏi liên quan: Mọi người thường sử dụng thử nghiệm Mann-Whitney không theo tỷ lệ cho loại dữ liệu này. Vì chỉ có năm giá trị có thể, sẽ có rất nhiều cấp bậc gắn liền. Thử nghiệm Mann-Whitney điều chỉnh các cấp bậc bị ràng buộc, nhưng điều chỉnh này có hiệu quả khi có một số lượng lớn các mối quan hệ không?
Harvey Motulsky

5
Bạn có thể quan tâm đến bài viết gần đây được xuất bản trong PARE, Các mục Likert năm điểm: t test so với Mann-Whitney-Wilcoxon , j.mp/biLWrA .
chl

Tôi không chắc kiểm tra chi bình phương có phù hợp hay không, nó kiểm tra xem có bất kỳ sự phụ thuộc nào giữa các nhóm và các mục không (phân phối khác nhau giữa các nhóm).
pe-pe-rry

Câu trả lời:


12

Clason & Dormody đã thảo luận về vấn đề kiểm tra thống kê cho các mục Likert ( Phân tích dữ liệu được đo bằng các mục loại Likert riêng lẻ ). Tôi nghĩ rằng một thử nghiệm bootstrapping là ổn khi hai bản phân phối trông giống nhau (hình chuông và phương sai bằng nhau). Tuy nhiên, một thử nghiệm cho dữ liệu phân loại (ví dụ: xu hướng hoặc thử nghiệm Fisher, hoặc hồi quy logistic thông thường) cũng rất thú vị vì nó cho phép kiểm tra phân phối phản hồi trên các loại mặt hàng, xem sách của Agresti về Phân tích dữ liệu phân loại (Chương 7 về các mô hình Logit cho đáp ứng đa phương thức ).

Ngoài ra, bạn có thể tưởng tượng các tình huống trong đó thử nghiệm t hoặc bất kỳ thử nghiệm không tham số nào khác sẽ thất bại nếu phân phối đáp ứng bị mất cân bằng mạnh giữa hai nhóm. Ví dụ: nếu tất cả những người thuộc nhóm A trả lời 1 hoặc 5 (theo tỷ lệ bằng nhau) trong khi tất cả những người trong nhóm B trả lời 3, thì bạn kết thúc với ý nghĩa trong nhóm giống hệt nhau và bài kiểm tra hoàn toàn không có ý nghĩa giả định homoscedasticity phần lớn bị vi phạm.


Bài báo Clason và Dormody có vẻ tốt. Nhận xét phân phối phản hồi của bạn là thú vị để suy ngẫm. Tôi đồng ý rằng sự khác biệt trong phân phối có thể được quan tâm. Nhưng nếu bạn chỉ quan tâm đến việc nhóm dân số có nghĩa là khác nhau hay không, thì việc phân phối đã tạo ra sự bình đẳng như vậy không quan trọng.
Jeromy Anglim

Trong trường hợp này, bạn đang giả định rằng thang đo Likert của bạn (nói cách khác, sự khác biệt về nhận thức giữa, ví dụ như rất hài lòng và "chỉ" hài lòng) hành xử lý tưởng và được coi là có cùng một ý nghĩa trong cả hai dân số. Do đó, bạn đang ngầm đưa ra giả định rằng đây là thang đo số, nhưng tôi đồng ý rằng điều này thường được coi là như vậy trong nghiên cứu ứng dụng, đặc biệt nếu những người tham gia đến từ cùng một quốc gia. Quan điểm của tôi chỉ là nhấn mạnh vào quan điểm phân tích dữ liệu phân loại, như thường thấy trong truyền thống Phân tích nhân tố, giống như trong câu trả lời của tôi cho Câu hỏi số 10.
chl

Tôi giả định rằng giá trị trung bình của mẫu phản ứng với vật phẩm Likert nói chung là một bản tóm tắt có ý nghĩa về vị trí của nhóm trên kích thước cơ bản. Thật thú vị khi nghĩ về ý nghĩa của một vật phẩm Likert sẽ thay đổi một cách có hệ thống giữa các nhóm. Tất nhiên, vấn đề này mở rộng ra ngoài các mục Likert, có thể là bất kỳ quy trình đo lường chủ quan nào.
Jeromy Anglim

8

Tùy thuộc vào kích thước của tập dữ liệu được đề cập, thử nghiệm hoán vị có thể thích hợp hơn với bootstrap ở chỗ nó có thể cung cấp một thử nghiệm chính xác cho giả thuyết (và CI chính xác).


4

IMHO bạn không thể sử dụng kiểm tra t cho thang đo Likert. Thang đo Likert là thứ tự và "chỉ biết" về mối quan hệ của các giá trị của một biến: ví dụ: "không hài lòng hoàn toàn" còn tệ hơn "không hài lòng". Mặt khác, một bài kiểm tra t cần tính toán phương tiện và hơn thế nữa và do đó cần dữ liệu khoảng. Bạn có thể ánh xạ điểm tỷ lệ Likert thành dữ liệu khoảng ("không hài lòng hoàn toàn" là 1, v.v.) nhưng không ai đảm bảo rằng "không hài lòng hoàn toàn" có cùng khoảng cách với "không hài lòng" bằng cách nào đó "không hài lòng" bằng cách nào đó "không hài lòng". Nhân tiện: sự khác biệt giữa "không hài lòng hoàn toàn" và "không hài lòng bằng cách nào đó" là gì? Vì vậy, cuối cùng, bạn sẽ thực hiện kiểm tra t trên các giá trị được mã hóa của dữ liệu thứ tự nhưng điều đó không có nghĩa gì cả.


9
... và nó thường được thực hiện. Một điều cần chỉ ra, và vâng, đây là một chút phạm vi, nếu bạn đang sử dụng một loại vật phẩm Likert duy nhất không phải là thang đo Likert. Sự khác biệt là có ý nghĩa (mặc dù người hỏi câu hỏi đang nói về một mặt hàng Likert và pháp lệnh là một vấn đề). Thang đo Likert là kết quả của việc tính tổng hoặc lấy trung bình một số vật phẩm Likert. Cách tiếp cận này được phát triển đặc biệt để bù lại mức độ mà dữ liệu thứ tự thực sự là thứ tự và làm cho nó hợp lý hơn khi được coi là nằm trên thang đo khoảng.
russellpierce

3

Nếu mỗi mục duy nhất trong bảng câu hỏi là thứ tự và tôi không nghĩ rằng điểm này có thể bị tranh cãi khi không có cách nào để biết liệu sự khác biệt định lượng giữa "đồng ý mạnh mẽ" và "đồng ý" có giống như giữa " không đồng ý mạnh mẽ "và" không đồng ý ", vậy thì tại sao việc tổng hợp tất cả các thang đo mức thứ tự này sẽ tạo ra một giá trị chia sẻ các thuộc tính của dữ liệu mức giữa các khoảng thời gian thực?

Ví dụ: nếu chúng tôi đang giải thích kết quả từ bản kiểm kê trầm cảm, thì điều đó không có nghĩa (ít nhất là với tôi) để nói rằng một người có điểm "20" thì trầm cảm gấp đôi so với người có điểm " 10 ". Điều này là do mỗi mục trong bảng câu hỏi không đo lường sự khác biệt thực tế về mức độ trầm cảm (giả sử rằng trầm cảm là một rối loạn hữu cơ ổn định, nội tâm) mà là đánh giá chủ quan của người đó về một thỏa thuận cụ thể. Khi được hỏi, "bạn sẽ chán nản như thế nào khi nói rằng tâm trạng của bạn đang ở mức 1-4, 1 là rất chán nản và 4 không bị suy giảm chút nào", làm sao tôi biết rằng đánh giá chủ quan của một người trả lời là 1 giống như người trả lời khác ? Hoặc làm thế nào tôi có thể biết nếu sự khác biệt giữa 4 và 3 giống như của 3 và 4 về người đó ' Mức độ trầm cảm hiện tại. Nếu chúng ta không thể biết bất kỳ điều nào trong số này, thì sẽ không có ý nghĩa gì khi coi tổng của tất cả các mục thứ tự này là dữ liệu mức độ. Ngay cả khi dữ liệu tạo thành phân phối bình thường, tôi không nghĩ rằng việc xử lý sự khác biệt giữa các điểm là dữ liệu ở mức khoảng thời gian nếu chúng được tính bằng cách cộng tất cả các phản hồi vào một mục thích hợp. Một phân phối dữ liệu bình thường chỉ có nghĩa là các phản hồi có thể là đại diện cho dân số lớn hơn; điều đó không có nghĩa là các giá trị thu được từ hàng tồn kho có chung các thuộc tính quan trọng của dữ liệu mức khoảng. Chúng tôi nghĩ rằng việc xử lý sự khác biệt giữa các điểm là dữ liệu mức khoảng thời gian là phù hợp nếu chúng được tính bằng cách thêm tất cả các phản hồi vào một mục thích. Một phân phối dữ liệu bình thường chỉ có nghĩa là các phản hồi có thể là đại diện cho dân số lớn hơn; điều đó không có nghĩa là các giá trị thu được từ hàng tồn kho có chung các thuộc tính quan trọng của dữ liệu mức khoảng. Chúng tôi nghĩ rằng việc xử lý sự khác biệt giữa các điểm là dữ liệu mức khoảng thời gian là phù hợp nếu chúng được tính bằng cách thêm tất cả các phản hồi vào một mục thích. Một phân phối dữ liệu bình thường chỉ có nghĩa là các phản hồi có thể là đại diện cho dân số lớn hơn; điều đó không có nghĩa là các giá trị thu được từ hàng tồn kho có chung các thuộc tính quan trọng của dữ liệu mức khoảng.

Chúng ta cần cẩn thận trong các ngành khoa học hành vi về cách chúng ta sử dụng số liệu thống kê để nói về các biến tiềm ẩn mà chúng ta đang nghiên cứu, vì không có cách nào trực tiếp để đo các cấu trúc giả định này, sẽ có vấn đề đáng kể khi chúng ta cố gắng định lượng chúng để kiểm tra tham số. Một lần nữa, đơn giản vì chúng ta đã gán các giá trị cho một tập hợp các phản hồi không có nghĩa là sự khác biệt giữa các giá trị này có ý nghĩa.


1
Nếu bạn hài lòng về tổng điểm vật phẩm, bạn đã giả định nhiều hơn mức độ đo lường nghiêm ngặt. Nói một cách chính xác, các biện pháp thông thường không thể được thêm vào hoặc tính trung bình một cách có ý nghĩa (tình cờ, Stevens rõ ràng về điều đó). Một khi bạn đã làm điều đó, coi điểm số kết quả là dữ liệu mức khoảng là hoàn toàn hợp lý.
Gala

0

Mô hình tỷ lệ cược tỷ lệ thuận tốt hơn sau đó kiểm tra t cho thang đo vật phẩm Likert.


1
Bạn có muốn giải thích lý do của bạn? Tôi có thể thấy làm thế nào một mô hình như vậy có thể cung cấp một mô hình chính xác hơn của các phản ứng quan sát được. Tuy nhiên, trong các tình huống nghiên cứu thực tế điển hình mà tôi đã thấy, các nhà nghiên cứu quan tâm đến việc liệu hai nhóm có khác nhau về giá trị trung bình hay không (ví dụ, nhóm đào tạo đã báo cáo hiệu suất cao hơn so với kiểm soát; ). Mô hình tỷ lệ cược tỷ lệ không kiểm tra chính xác câu hỏi này theo như tôi biết.
Jeromy Anglim

0

Tôi sẽ cố gắng giải thích mô hình tỷ lệ cược tỷ lệ trong bối cảnh này vì nó đã được đề xuất và chỉ ra trong ít nhất 2 câu trả lời cho câu hỏi này.

Bài kiểm tra điểm của mô hình tỷ lệ cược tương đương với bài kiểm tra tổng thứ hạng Wilcoxon.

Chính xác hơn, thống kê kiểm tra điểm số không có tác dụng của hiệp phương sai đơn trong mô hình hồi quy logistic tích lũy tỷ lệ cược (McCullagh 1980) cho kết quả thứ tự được hiển thị bằng với thống kê tổng kiểm tra xếp hạng Wilcoxon. (Bằng chứng trong phần mở rộng của bài kiểm tra Wilcoxon Rank-Sum cho dữ liệu khảo sát mẫu phức tạp .)

Giống như thử nghiệm tổng xếp hạng Wilcoxon, thử nghiệm này phát hiện xem hai mẫu được rút ra từ các bản phân phối khác nhau, bất kể giá trị dự kiến.

Thử nghiệm này không hợp lệ nếu bạn chỉ muốn phát hiện xem hai mẫu được rút ra từ các bản phân phối với các giá trị dự kiến ​​khác nhau, giống như thử nghiệm tổng xếp hạng Wilcoxon.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.