Làm thế nào để tóm tắt dữ liệu phân loại?


13

Tôi đã phải vật lộn với vấn đề sau với hy vọng là một vấn đề dễ dàng cho các nhà thống kê (Tôi là một lập trình viên có một số tiếp xúc với số liệu thống kê).

Tôi cần tóm tắt các câu trả lời cho một cuộc khảo sát (để quản lý). Cuộc khảo sát có hơn 100 câu hỏi, được nhóm trong các lĩnh vực khác nhau (với khoảng 5 đến 10 câu hỏi cho mỗi khu vực). Tất cả các câu trả lời là phân loại (theo thang điểm thứ tự, chúng giống như "hoàn toàn không", "hiếm khi" ... "hàng ngày hoặc thường xuyên hơn").

Ban quản lý muốn có một bản tóm tắt cho từng lĩnh vực và đây là vấn đề của tôi: làm thế nào để tổng hợp các câu trả lời phân loại trong câu hỏi liên quan? . Các câu hỏi quá nhiều để tạo ra một biểu đồ hoặc thậm chí là một sơ đồ mạng cho mỗi khu vực. Tôi ủng hộ cách tiếp cận trực quan nếu có thể, so với, nói, các bảng có số (than ôi, chúng sẽ không đọc chúng).

Điều duy nhất tôi có thể đưa ra là đếm số lượng câu trả lời trong mỗi khu vực, sau đó vẽ biểu đồ.

Có bất cứ điều gì khác có sẵn cho dữ liệu phân loại?

Tôi sử dụng R, nhưng không chắc nó có liên quan hay không, tôi cảm thấy đây là một câu hỏi thống kê chung.


PCA / FA thì sao? Bạn sẽ thu nhỏ các biến tương quan thành các yếu tố và hoạt động từ đó ...
Roman Luštrik

điều này có thể là quá nhiều, nếu quản lý hỏi 'làm thế nào bạn có được các số tổng hợp?' họ sẽ muốn một kỹ thuật đơn giản hơn để họ có thể (cảm thấy họ) hiểu nó. Than ôi, thế giới thực :-( Cảm ơn, mặc dù vậy
wishihadabettername

Câu trả lời:


10

Bạn thực sự cần phải tìm ra câu hỏi mà bạn đang cố gắng trả lời là gì - hoặc câu hỏi nào mà quản lý quan tâm nhất. Sau đó, bạn có thể chọn các câu hỏi khảo sát phù hợp nhất với vấn đề của mình.

Không biết gì về vấn đề hoặc tập dữ liệu của bạn, đây là một số giải pháp chung:

  • Trực quan đại diện cho các câu trả lời như cụm. Yêu thích của tôi là bằng cách sử dụng dendrograms hoặc chỉ vẽ đồ thị trên trục xy (Google "phân tích cụm r" và đi đến kết quả đầu tiên của statmethods.net)
  • Xếp hạng các câu hỏi từ câu trả lời lớn nhất đến ít nhất "hàng ngày hoặc thường xuyên hơn". Đây là một ví dụ có thể không chính xác làm việc cho bạn nhưng có lẽ nó sẽ truyền cảm hứng cho bạn http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Crosstabs: nếu chẳng hạn, bạn có một câu hỏi "Bạn có thường xuyên đi làm muộn không?" và "Bạn có thường xuyên sử dụng Facebook không?," bằng cách xuyên qua hai câu hỏi mà bạn có thể tìm ra tỷ lệ phần trăm những người hiếm khi làm cả hai hoặc làm cả hai hàng ngày. (Google "r crosstabs" hoặc đi đến statmethods.net đã nói ở trên )
  • Correlograms. Tôi không có bất kỳ kinh nghiệm nào với những thứ này nhưng tôi cũng thấy nó trên trang web statmethods.net. Về cơ bản, bạn tìm thấy câu hỏi nào có mối tương quan cao nhất và sau đó tạo một bảng. Bạn có thể thấy điều này hữu ích mặc dù có vẻ như "bận rộn".

Tôi sẽ đánh dấu đây là câu trả lời; Có một vài gợi ý hay trong đó để tôi nghĩ cách áp dụng chúng.
wishihadabettername


8

Các tùy chọn tiêu chuẩn bao gồm:

  • lấy giá trị trung bình cho các vật phẩm trong một thang đo (ví dụ: nếu thang đo là 1 đến 5, giá trị trung bình sẽ là 1 đến 5)
  • chuyển đổi từng mục thành một số đo nhị phân (ví dụ: nếu mục> = 3, sau đó 1, khác 0) và sau đó lấy giá trị trung bình của phản ứng nhị phân này

Cho rằng bạn đang tổng hợp các mặt hàng và trên các mẫu người lớn trong tổ chức, cả hai tùy chọn ở trên (nghĩa là trung bình từ 1 đến 5 hoặc trung bình của tỷ lệ phần trăm trên một điểm) sẽ đáng tin cậy ở cấp độ tổ chức ( xem tại đây để biết thảo luận thêm ). Do đó, một trong hai tùy chọn trên về cơ bản là truyền đạt cùng một thông tin.

Nói chung tôi sẽ không lo lắng về thực tế rằng các mặt hàng là phân loại. Vào thời điểm bạn tạo thang đo bằng cách tổng hợp các mục và sau đó tổng hợp qua mẫu người trả lời của bạn, thang đo sẽ gần đúng với thang đo liên tục.

Quản lý có thể tìm thấy một số liệu dễ dàng hơn để giải thích. Khi tôi đạt điểm Chất lượng Giảng dạy (nghĩa là điểm hài lòng của học sinh trung bình là 100 học sinh), đó là điểm trung bình theo thang điểm từ 1 đến 5 và điều đó tốt. Trong nhiều năm sau khi nhìn thấy điểm số của riêng tôi từ năm này sang năm khác và cũng thấy một số chỉ tiêu cho trường đại học, tôi đã phát triển một khung tham chiếu về ý nghĩa của các giá trị khác nhau. Tuy nhiên, quản lý đôi khi thích nghĩ về tỷ lệ phần trăm tán thành một tuyên bố hoặc tỷ lệ phần trăm phản hồi tích cực ngay cả khi nó có ý nghĩa là tỷ lệ phần trăm trung bình.

Thách thức chính là đưa ra một số khung tham chiếu hữu hình cho điểm số. Quản lý sẽ muốn biết những con số thực sự có nghĩa là gì . Ví dụ: nếu đáp ứng trung bình cho thang đo là 4.2, thì điều đó có nghĩa là gì? Liệu nó có tốt không? Nó có tồi không? Có ổn không?

Nếu bạn đang sử dụng khảo sát trong nhiều năm hoặc trong các tổ chức khác nhau, thì bạn có thể bắt đầu phát triển một số định mức. Truy cập vào định mức là một lý do các tổ chức thường nhận được một nhà cung cấp khảo sát bên ngoài hoặc sử dụng một khảo sát tiêu chuẩn.

Bạn cũng có thể muốn chạy một phân tích nhân tố để xác nhận rằng việc gán các mục cho thang đo là hợp lý về mặt thực nghiệm.

Về phương pháp trực quan, bạn có thể có một biểu đồ đường hoặc thanh đơn giản với loại tỷ lệ trên trục x và điểm trên trục y. Nếu bạn có dữ liệu quy chuẩn, bạn cũng có thể thêm nó.


1

Đúng. Tôi thấy phân cụm là một cách tiếp cận rất hiệu quả để giảm dữ liệu để giảm dữ liệu khảo sát cho cả sự hiểu biết và trình bày quản lý.

Phân tích lớp tiềm ẩn (coi thang đo phản ứng là thứ tự) hoặc phương tiện k (coi chúng là liên tục) có thể được xem như là một hình thức nén thông tin . Phân loại người trả lời vào phân khúc có khả năng nhất của họ thường mang lại một biến phân loại có giải thích trực quan khi được mô tả về các câu trả lời.

Sau đó, bạn có thể đặt tên cho các phân đoạn và sử dụng các biến đó để phân tích và trình bày mức tóm tắt.

Khớp một cụm cho các nhóm mặt hàng liên quan (ví dụ bên dưới) hoặc có thể tất cả cùng nhau.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Tôi thường sử dụng LatentGold, nhưng tìm FASTCLUS trong SAS là một phương tiện tốt.

Trước khi làm như vậy, bạn sẽ muốn xem xét điều chỉnh các câu trả lời của từng cá nhân để họ sử dụng thang đo (gây tranh cãi nhưng thực dụng). Một số người chỉ dựa vào một đầu của thang đo, hoặc tránh tiêu cực hoặc tích cực. Phân cụm phản ứng thô thường có xu hướng phân chia mọi người theo hành vi đó.

Tiêu chuẩn hóa câu trả lời của mỗi người trả lời theo ý nghĩa riêng của họ và phân cụm trên đó thường phơi bày các biến di chuyển cùng nhau theo những cách rất thú vị.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.