Làm thế nào để so sánh thang đo Likert với số lượng danh mục khác nhau theo thời gian?


8

Đặt Năm 1 là dữ liệu của năm ngoái và Năm 2 là dữ liệu của năm nay.

Giả sử rằng trong Năm 1, bạn có thang đo độ chính xác là 1-9 (Phân loại / Thông thường) và trong Năm 2, đối với cùng một câu hỏi, bạn có thang đo là 1-5 (Phân loại / Thông thường).

Điều gì sẽ là một trong những điều mà bạn sẽ cố gắng (nếu có) để so sánh giá trị hai năm của dữ liệu?

Những gì tôi đã làm cho đến nay:

  • So sánh các phân phối (hình dạng, xiên và kurtosis, bằng nhau về mặt thống kê)
  • Thay đổi tỷ lệ 1-9 thành 1-5 và các thay đổi YoY về tần số phù hợp với các kỳ vọng logic xuất phát từ các tin tức / sự kiện trong ngành và các kết quả nghiên cứu định tính.

Lưu ý: Đây không phải là bài tập về nhà. Nó cũng có thể không có câu trả lời chắc chắn. Nhưng, tôi cần một bàn tay!

Cảm ơn trước!


Tại sao bạn nói thang đo Likert và sau đó là Thể loại / Thông thường? Likert có nghĩa là khoảng cách thu nhỏ. Bạn có thể làm rõ điều này một chút?
Henrik

Để cụ thể hơn, tiêu đề nên được thay đổi thành "mục" Likert. Về điểm thứ hai của bạn, tôi nghĩ rằng nhiều người sẽ không đồng ý về việc liệu một mục Likert có trình bày dữ liệu khoảng thời gian hay thông thường hay không. Đối với câu hỏi của tôi, đó là một thang điểm thỏa thuận, từ không đồng ý mạnh mẽ đến đồng ý mạnh mẽ. Mỗi cấp độ thỏa thuận là một "phạm trù" và khoảng cách giữa là "thứ tự". Nhưng chúng ta đừng bị trói buộc trong ngữ nghĩa!
Brandon Bertelsen

@Henrik @Brandon Đã có một số cuộc thảo luận, được đặt dưới thẻ quy mô , về bản chất và cách xử lý thang / vật phẩm Likert.
chl

Câu trả lời:


5

Đây không phải là một câu trả lời hoàn chỉnh; chỉ một vài điểm:

  • Nếu bạn có thể quản lý cả hai phiên bản của thang đo cho một mẫu phụ, bạn có thể ước tính điểm số tương ứng trên hai định dạng phản hồi. Sau đó, bạn có thể áp dụng một công thức chuyển đổi hợp lý theo kinh nghiệm. Tôi có thể nghĩ ra một số cách để làm điều này. Tôi sẽ quan tâm nếu bất cứ ai có một bài viết học thuật về thực hành tốt nhất để làm điều này.

  • Nếu bạn thực hiện thay đổi kích thước đơn giản (1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9), không có gì đảm bảo rằng điều này là hợp lý. Vì một tuyên bố rộng (ít nhất là theo kinh nghiệm của tôi trong cài đặt tổ chức) thay đổi về từ ngữ và thay đổi trong tùy chọn tỷ lệ có thể có tác động lớn hơn đến phản hồi so với bất kỳ thay đổi thực tế nào trong thuộc tính quan tâm. Ít nhất bạn nên kiểm tra xem các neo tỷ lệ được sử dụng có gần tương đương trên hai định dạng phản hồi hay không.


Như một lưu ý cho nhận xét thứ hai của bạn. Các mỏ neo giống như trong năm trước của cuộc khảo sát. Về cơ bản, độ chi tiết của thang đo đã giảm.
Brandon Bertelsen

4

[Về mặt kỹ thuật, bạn đã có các mục khảo sát, không phải thang đo Likert; thứ hai được thời trang từ nhiều mặt hàng. Xem, ví dụ, Xây dựng thang đánh giá tổng hợp của Paul Spector {Sage}.]

Các bước bạn thực hiện sẽ cần phụ thuộc vào đối tượng mà bạn đang báo cáo. Nếu đó là học tập và nghiêm ngặt, như một ủy ban luận án, bạn có thể phải đối mặt với những thách thức đặc biệt. Nếu không, và nếu nó thoải mái với định dạng 1-5 phổ biến, tại sao không hủy bỏ để phù hợp với điều đó và sau đó báo cáo phương tiện và độ lệch chuẩn (đặc biệt là từ hình dạng, độ nghiêng và độ nhiễu không khác nhau từ năm này sang năm khác. là đủ bình thường có nghĩa là thể hiện chính xác xu hướng trung tâm?).

-> Tại sao tôi coi các biến của bạn là biến cấp độ? Những người theo chủ nghĩa thuần túy có thể nói rằng các biến cấp độ thứ tự không nên được báo cáo thông qua các phương tiện hoặc sd Vâng, ý kiến ​​của bạn đề xuất, mặc dù bạn sử dụng "phân loại / thứ tự", rằng bạn đang xử lý một mức đo lường thứ tự mà bạn thực sự cảm thấy thoải mái khi coi như là khoảng -cấp độ. Rốt cuộc, tại sao bạn lại đánh giá độ lệch hoặc kurtosis. Tôi đoán rằng khán giả của bạn cũng vậy, sẽ ổn với và sẽ có thể liên quan đến số liệu thống kê giữa các cấp như phương tiện.

Nghe có vẻ tốt là bạn đã khám phá dữ liệu đồ họa. Nếu bạn muốn vượt qua việc đánh giá mức độ khác biệt và tiến hành kiểm tra giả thuyết, tại sao không làm bài kiểm tra T (độc lập hoặc tương quan, tùy thuộc vào dữ liệu của bạn) so sánh điểm 1-5 trước và bài 1-5 điểm, và mang lại một khoảng tin cậy cho sự khác biệt trung bình. Ở đây tôi giả sử bạn đã có các mẫu ngẫu nhiên từ dân số.


Vâng, tôi nhận ra rằng tôi không "đáng lẽ" phải xem xét một số điều này cho dữ liệu thứ tự, nhưng thực sự, đó là công cụ duy nhất tôi có thể nghĩ ra để so sánh hai năm. Thực sự, tôi đã nhìn vào những thứ có thể so sánh các bản phân phối. Nhưng, tôi đoán phương tiện thử nghiệm có thể hợp lý - nhưng khoảng tin cậy có thể không nhất thiết bao gồm ý nghĩa của tôi vì đã có nhiều thay đổi về cấu trúc đối với ngành mà câu hỏi này đánh giá YoY.
Brandon Bertelsen

1

Xem xét chuyển đổi các phản hồi từ cả hai tập dữ liệu thành điểm z. Sẽ có một chất lượng đặc biệt cho bất kỳ loại thay đổi kích thước nào, nhưng ít nhất theo cách này bạn tránh xử lý một cách máy móc bất kỳ tập hợp cụ thể nào trên một mục tương đương với bất kỳ tập hợp cụ thể nào khác. Tôi chắc chắn sẽ đi theo con đường này nếu tôi đang sử dụng các mục làm yếu tố dự đoán hoặc biến kết quả trong bất kỳ loại phân tích phương sai nào. Nếu bạn đang làm bất cứ điều gì với thang đo tổng hợp - các thang đo tổng hợp các biện pháp tương tự - về cơ bản bạn có thể thực hiện những gì tôi đã đưa ra: hoặc bạn sẽ chuyển đổi các câu trả lời của mục thành điểm số z trước khi tóm tắt hoặc lấy ý nghĩa của chúng để hình thành thang đo tổng hợp; hoặc bạn sẽ tạo một thang đo với phân tích nhân tố hoặc một kỹ thuật khác sử dụng ma trận hiệp phương sai của các mục để xác định mối quan hệ của các phản ứng với chúng.


2
Dường như điều này sẽ buộc các so sánh hàng năm có các phương tiện và phương sai ngang nhau, loại bỏ một cách giả tạo hầu hết các thông tin về thay đổi thời gian.
whuber

thật. Tôi đã không nghĩ đến việc so sánh phương tiện của hai mẫu, trong trường hợp đó, việc chuyển đổi sang điểm z là tự lừa dối. Có sự khác biệt trong tâm trí-- ví dụ, đánh giá một hoặc nhiều yếu tố dự đoán liên quan đến điểm số của vật phẩm như thế nào trong cả hai hoặc cả hai kết hợp. Tôi có xu hướng nghĩ rằng ma trận hiệp phương sai là điều duy nhất người ta nên cố gắng học hỏi khi sử dụng vật phẩm Likeert (mọi người có xu hướng đầu tư các điểm vào thước đo với quá nhiều ý nghĩa - "nhưng tôi đi đến 11"). Hy vọng tôi đã không ném bất cứ ai theo dõi.
dmk38

Đồng ý một số so sánh bị mất. Tuy nhiên, phần lớn phân tích của tôi tập trung vào điểm số của nhà quảng cáo mạng hơn là phương tiện và phương sai. Vì vậy, tôi sẽ thử nó và xem những gì nó mang lại cho tôi. Chúc mừng cho các phản ứng.
Brandon Bertelsen

1

Tôi vừa phải giải quyết vấn đề chính xác này. Chúng tôi đã có thang điểm 9 được thay đổi thành thang điểm 5 trên thiết bị theo dõi trong 10 năm. Không chỉ vậy mà một số báo cáo cũng thay đổi. Và chúng tôi đã báo cáo như một dạng Điểm Quảng cáo Net.

Giải pháp chúng tôi đã sử dụng áp dụng một thiết kế được ghép nối bằng cách hỏi mỗi người trả lời một vài câu lệnh cũ theo cách cũ (cũng như tất cả cách mới). Chúng tôi chỉ hỏi một vài cách cũ chứ không phải tất cả trong số họ vì điều này giảm thiểu sự mệt mỏi của người trả lời. Sau đó, chúng tôi lấy từng điểm theo thang điểm 9 và thấy điểm trung bình trên điểm 5 và sử dụng điểm này để sửa cho thay đổi thang điểm VÀ thay đổi câu lệnh. Điều này khá giống với cái được gọi là "Phán đoán ngữ nghĩa của giá trị từ cố định" trong một số bài báo, nhưng thay vì sử dụng các chuyên gia để quyết định "giá trị từ", chúng tôi đã sử dụng dữ liệu thực tế của người trả lời.

Ví dụ: nếu điểm trung bình theo thang điểm 5 là 1,2 đối với những người trả lời 2 trên thang điểm 9 thì để chúng ta so sánh trực tiếp các năm với các thang điểm khác nhau trên thang điểm 5, chúng ta sẽ thay thế tất cả 2 điểm theo thang điểm 9 với 1,2, sau đó làm tương tự cho tất cả các điểm 9 và tiến hành như bình thường.

Chúng tôi đã làm một điều tương tự để báo cáo NPS. Nhưng trước tiên, chúng tôi đã chuyển đổi thang điểm 5 thành thang đo NPS là 1 (quảng bá), 0 (thụ động), -1 (gièm pha), ví dụ: nếu trung bình trên thang đo NPS là 0,9 cho thang điểm 2 trên thang điểm 9 thì chúng tôi đã thay thế nó với 0,9, sau đó làm tương tự cho tất cả các điểm 9 điểm, và sau đó tính toán NPS bình thường.

Để đánh giá hiệu quả của việc này, trước tiên, chúng tôi đã so sánh điểm NPS 'không quan tâm' bằng cách sử dụng thang điểm 9 và 5 để xem có thực sự có vấn đề gì không, và sau đó là điểm 'đã được sửa'. Tôi chưa có dữ liệu nhưng sẽ báo cáo lại khi chúng tôi làm!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.