Do độ rộng bóng thấp có nghĩa là dữ liệu có ít cấu trúc bên dưới?


10

Tôi chưa quen với phân tích trình tự và tôi đã tự hỏi bạn sẽ phản ứng như thế nào nếu độ rộng hình trung bình (ASW) từ các phân tích cụm của ma trận độ không tương đồng dựa trên Kết hợp tối ưu thấp (khoảng.25). Nó có vẻ thích hợp để kết luận rằng có rất ít cấu trúc cơ bản cho phép các chuỗi được phân cụm? Bạn có thể bỏ qua ASW thấp dựa trên các thước đo khác về chất lượng cụm (tôi đã dán một số bên dưới)? Hoặc có khả năng các lựa chọn được thực hiện trong quá trình phân tích trình tự hoặc phân tích cụm tiếp theo có thể chịu trách nhiệm cho các số ASW thấp?

Mọi lơi đê nghị đêu nên được đanh gia cao. Cảm ơn.

Trong trường hợp cần thêm bối cảnh:

Tôi đang kiểm tra 624 chuỗi sự không phù hợp giữa giờ làm việc (nghĩa là không khớp giữa số giờ một người thích làm việc trong một tuần và số giờ họ làm việc thực tế) giữa những người ở độ tuổi 20. Tất cả các chuỗi tôi đang kiểm tra có độ dài 10. Đối tượng trình tự của tôi có năm trạng thái (M = muốn nhiều giờ hơn, S = muốn cùng giờ, F = muốn ít giờ hơn, O = ra khỏi lực lượng lao động và U = thất nghiệp ).

Tôi chưa thực hiện một kế toán có hệ thống về cách kết quả ASW thay đổi theo các cách tiếp cận khác nhau. Tuy nhiên, tôi đã thử chi phí indel thấp và trung bình (.1 và .6 của chi phí thay thế tối đa - Tôi quan tâm nhiều hơn đến thứ tự của các sự kiện so với thời gian của chúng) và các quy trình phân cụm khác nhau (phường, trung bình và pam). Ấn tượng chung của tôi là số ASW vẫn còn thấp.

Có lẽ kết quả ASW thấp có ý nghĩa. Tôi hy vọng các tiểu bang này sẽ có nhiều loại khác nhau và các tiểu bang có thể được lặp lại. Loại bỏ các quan sát trùng lặp chỉ làm giảm N từ 624 xuống còn 536. Nghiên cứu dữ liệu cho thấy thực sự có một chút sự đa dạng và trình tự mà tôi sẽ xem xét rất khác nhau, ví dụ, những người muốn cùng giờ trong toàn bộ thời gian, đã phát triển không khớp, giải quyết một sự không phù hợp, và dao động qua lại giữa việc có và không có sự không phù hợp. Có lẽ thiếu cụm phân biệt rõ ràng không giống như thiếu biến thể thú vị. Tuy nhiên, kết quả cụm yếu dường như rời bỏ tôi mà không có cách nào hay để tóm tắt các chuỗi.

Kết quả từ phương pháp của Ward với indel được đặt ở .1 chi phí thay thế của 2 Các thống kê này dường như cho thấy giải pháp 6 cụm có thể tốt. Tuy nhiên, ASW thấp - ít nhất là đối với các giải pháp có số lượng cụm hợp lý (2 hoặc 3 là quá ít).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

Câu trả lời:


11

ASW là thước đo sự gắn kết của một giải pháp phân cụm. Giá trị ASW cao có nghĩa là các cụm là đồng nhất (tất cả các quan sát đều gần trung tâm cụm) và chúng được phân tách tốt. Theo Kaufmann và Rousseuw (1990), giá trị dưới 0,25 có nghĩa là dữ liệu không có cấu trúc. Từ 0,25 đến 0,5, dữ liệu có thể được cấu trúc, nhưng nó cũng có thể là một tạo tác. Xin lưu ý rằng các giá trị này là chỉ định và không nên được sử dụng làm ngưỡng quyết định. Các giá trị này không được xác định theo lý thuyết (không dựa trên một số giá trị p) mà dựa trên kinh nghiệm của các tác giả. Do đó, theo các giá trị ASW thấp này, dữ liệu của bạn dường như không có cấu trúc. Nếu mục đích của phân tích cụm chỉ mang tính mô tả, thì bạn có thể lập luận rằng nó tiết lộ một số (nhưng chỉ một số) các mẫu nổi bật nhất. Tuy nhiên,

Bạn cũng có thể thử xem các giá trị ASW "trên mỗi cụm" (giá trị này được đưa ra bởi hàm wcClusterQuality). Có thể một số cụm của bạn được xác định rõ và một số cụm có thể là "giả" (ASW <0), dẫn đến giá trị ASW tổng thể thấp.

Bạn có thể thử sử dụng các chiến lược bootstrap, điều này sẽ cho bạn một gợi ý tốt hơn. Trong R, chức năng clusterboottrong gói fpccó thể được sử dụng cho mục đích này (xem trang trợ giúp). Tuy nhiên, nó không hoạt động với dữ liệu có trọng số. Nếu dữ liệu của bạn không có trọng số, tôi nghĩ rằng nó đáng để thử.

Cuối cùng, bạn có thể muốn xem xét kỹ hơn dữ liệu và phân loại của bạn. Có thể, danh mục của bạn quá không ổn định hoặc không được xác định rõ. Tuy nhiên, nó dường như không phải là trường hợp ở đây.

Như bạn đã nói, "thiếu cụm phân biệt rõ ràng không giống như thiếu biến thể thú vị". Có các phương pháp khác để phân tích sự thay đổi của trình tự của bạn, chẳng hạn như phân tích sai lệch. Những phương pháp này cho phép bạn nghiên cứu các liên kết giữa trình tự và các yếu tố giải thích. Ví dụ, bạn có thể thử xây dựng cây hồi quy chuỗi (hàm "seqtree" trong gói TraMineR).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.