Giả định phân tích cụm


16

Xin lỗi cho câu hỏi thô sơ, tôi chưa quen với hình thức phân tích này và hiểu biết rất hạn chế về các nguyên tắc cho đến nay.

Tôi chỉ tự hỏi nếu nhiều giả định tham số cho các thử nghiệm đa biến / đơn biến áp dụng cho phân tích Cụm? Nhiều nguồn thông tin tôi đã đọc liên quan đến phân tích cụm không xác định bất kỳ giả định nào.

Tôi đặc biệt quan tâm đến giả định về sự độc lập của các quan sát. Hiểu biết của tôi là việc vi phạm giả định này (ví dụ trong ANOVA và MAVOVA) là nghiêm trọng vì nó ảnh hưởng đến ước tính lỗi. Từ đọc của tôi cho đến nay, dường như phân tích cụm phần lớn là một kỹ thuật mô tả (chỉ liên quan đến suy luận thống kê trong một số trường hợp cụ thể). Theo đó, các giả định như tính độc lập và dữ liệu phân phối thông thường được yêu cầu?

Bất kỳ khuyến nghị của các văn bản thảo luận về vấn đề này sẽ được đánh giá rất cao. Cảm ơn nhiều.

Câu trả lời:


7

Chà, kỹ thuật phân cụm không giới hạn ở các phương pháp dựa trên khoảng cách , nơi chúng tôi tìm kiếm các nhóm đơn vị thống kê gần nhau một cách bất thường, theo nghĩa hình học. Ngoài ra còn có một loạt các kỹ thuật dựa trên mật độ (các cụm được xem là "vùng" trong không gian tính năng) hoặc phân phối xác suất .

Trường hợp thứ hai cũng được gọi là phân cụm dựa trên mô hình ; các nhà tâm lý học sử dụng thuật ngữ Phân tích hồ sơ tiềm ẩn để biểu thị trường hợp cụ thể này của Mô hình hỗn hợp hữu hạn , trong đó chúng tôi giả định rằng dân số bao gồm các nhóm không quan sát khác nhau, hoặc các lớp tiềm ẩn và mật độ chung của tất cả các biến số biểu hiện là một hỗn hợp của lớp này- Mật độ riêng. Thực hiện tốt có sẵn trong Mclust gói hoặc Mplus phần mềm. Có thể sử dụng các ma trận hiệp phương sai bất biến lớp khác nhau (trên thực tế, Mclust sử dụng tiêu chí BIC để chọn một ma trận tối ưu trong khi thay đổi số lượng cụm).

Mô hình lớp tiềm ẩn tiêu chuẩn cũng đưa ra giả định rằng dữ liệu được quan sát đến từ hỗn hợp các phân phối đa biến g đa biến. Một tổng quan tốt có sẵn trong phân tích cụm dựa trên Mô hình: Phòng thủ , bởi Gilles Celeux.

Thay vào đó, các phương pháp này dựa trên các giả định phân phối, điều này cũng cho thấy có thể sử dụng các thử nghiệm chính thức hoặc các chỉ số phù hợp để quyết định số lượng cụm hoặc lớp, vẫn là một vấn đề khó khăn trong phân tích cụm dựa trên khoảng cách, nhưng xem các bài viết sau đã thảo luận về vấn đề này:

  1. Handl, J., Knowles, J. và Kell, DB (2005). Xác nhận cụm tính toán trong phân tích dữ liệu sau genomic. Tin sinh học , 21 (15) , 3201-3212.
  2. Hennig, C. (2007) Đánh giá cụm sao về độ ổn định của cụm. Thống kê tính toán và phân tích dữ liệu , 52 , 258-271.
  3. Hennig, C. (2008) Điểm hòa tan và độ mạnh cô lập: tiêu chí độ mạnh cho các phương pháp phân tích cụm chung. Tạp chí phân tích đa biến , 99 , 1154-1176.

3

Có rất nhiều phương pháp phân cụm, có tính chất khám phá và tôi không nghĩ rằng bất kỳ phương pháp nào, dù là phân cấp hay dựa trên phân vùng, đều dựa trên loại giả định mà người ta phải đáp ứng để phân tích phương sai.

Xem tài liệu [MV] trong Stata để trả lời câu hỏi của bạn, tôi thấy câu trích dẫn thú vị này ở trang 85:

Mặc dù một số người đã nói rằng có nhiều phương pháp phân tích cụm như có những người thực hiện phân tích cụm. Đây là một cách nói thô thiển! Tồn tại vô số cách để thực hiện phân tích cụm so với những người thực hiện chúng.

Trong bối cảnh đó, tôi nghi ngờ rằng có bất kỳ giả định nào áp dụng trên phương pháp phân cụm. Phần còn lại của văn bản chỉ đặt ra một quy tắc chung rằng bạn cần một số dạng "thước đo độ không giống nhau", thậm chí không cần là một khoảng cách số liệu, để tạo các cụm.

Tuy nhiên, có một ngoại lệ, đó là khi bạn phân cụm các quan sát như là một phần của phân tích sau ước lượng. Trong Stata, vcelệnh đi kèm với cảnh báo sau, tại trang 86 của cùng một nguồn:

Nếu bạn đã quen thuộc với các lệnh ước lượng lớn của Stata, hãy cẩn thận để phân biệt giữa phân tích cụm (lệnh cụm) và tùy chọn vce (cụm clustvar) được phép với nhiều lệnh ước tính. Phân tích cụm tìm thấy các nhóm trong dữ liệu. Tùy chọn vce (cluster clustvar) được phép với các lệnh ước tính khác nhau cho thấy rằng các quan sát là độc lập giữa các nhóm được xác định bởi tùy chọn nhưng không nhất thiết phải độc lập trong các nhóm đó. Một biến nhóm được tạo bởi lệnh cluster sẽ hiếm khi thỏa mãn giả định đằng sau việc sử dụng tùy chọn vce (cluster clustvar).

Dựa vào đó, tôi cho rằng các quan sát độc lập không bắt buộc bên ngoài trường hợp cụ thể đó. Theo trực giác, tôi sẽ thêm rằng phân tích cụm thậm chí có thể được sử dụng cho mục đích chính xác là khám phá mức độ quan sát độc lập hay không.

Tôi sẽ kết thúc bằng cách đề cập rằng, tại trang 356 của Thống kê với Stata , Lawrence Hamilton đã đề cập đến các biến được tiêu chuẩn hóa như một khía cạnh "thiết yếu" của phân tích cụm, mặc dù ông không đi sâu hơn về vấn đề này.


2

Phân tích cụm không gian sử dụng các quan sát tham chiếu theo địa lý và là một tập hợp con của phân tích cụm không giới hạn trong phân tích thăm dò.

ví dụ 1

Nó có thể được sử dụng để làm cho các khu vực bầu cử công bằng.

Ví dụ 2

Các biện pháp tự tương quan không gian cục bộ được sử dụng trong phương pháp phân cụm AMOEBA . Aldstadt và Getis sử dụng các cụm kết quả để tạo ra ma trận trọng số không gian có thể được chỉ định trong hồi quy không gian để kiểm tra một giả thuyết.

Xem Aldstadt, Jared và Arthur Getis (2006) Sử dụng AMOEBA để tạo ma trận trọng số không gian và xác định các cụm không gian. Phân tích địa lý 38 (4) 327-343

Ví dụ 3

Phân tích cụm dựa trên các khu vực phát triển ngẫu nhiên với một bộ tiêu chí có thể được sử dụng như một phương pháp xác suất để chỉ ra sự không công bằng trong thiết kế các khu vực tổ chức như khu vực trường học hoặc khu bầu cử.


1

Phân tích cụm không liên quan đến kiểm tra giả thuyết mỗi se, nhưng thực sự chỉ là một tập hợp các thuật toán tương tự khác nhau để phân tích khám phá. Bạn có thể buộc kiểm tra giả thuyết phần nào nhưng kết quả thường không nhất quán, vì các thay đổi cụm rất nhạy cảm với các thay đổi trong tham số.

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htmlm#statug_introclus_sect010.htmlm

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.