Trong tập dữ liệu của tôi, chúng tôi có cả hai biến liên tục và tự nhiên rời rạc. Tôi muốn biết liệu chúng ta có thể thực hiện phân cụm theo phân cấp bằng cả hai loại biến không. Và nếu có, khoảng cách nào là phù hợp?
Trong tập dữ liệu của tôi, chúng tôi có cả hai biến liên tục và tự nhiên rời rạc. Tôi muốn biết liệu chúng ta có thể thực hiện phân cụm theo phân cấp bằng cả hai loại biến không. Và nếu có, khoảng cách nào là phù hợp?
Câu trả lời:
Một cách là sử dụng hệ số tương tự Gower là thước đo tổng hợp ; nó cần các biến định lượng (như thang đánh giá), nhị phân (như hiện tại / vắng mặt) và các biến danh nghĩa (như worker / teacher / clerk). Sau đó Podani đã thêm một tùy chọn để nhận các biến số thứ tự.2
Hệ số được hiểu dễ dàng ngay cả khi không có công thức; bạn tính giá trị tương tự giữa các cá nhân theo từng biến, lấy loại biến đó vào tài khoản và sau đó tính trung bình trên tất cả các biến. Thông thường, một chương trình tính toán Gower sẽ cho phép bạn tính các biến trọng số, nghĩa là đóng góp của chúng, cho công thức tổng hợp. Tuy nhiên, trọng số chính xác của các biến thuộc loại khác nhau là một vấn đề , không có hướng dẫn rõ ràng nào tồn tại, điều này làm cho Gower hoặc các chỉ số "tổng hợp" khác của các điểm gần nhau phải đối mặt.
Các khía cạnh của sự tương tự Gower ( ):
(Thật dễ dàng để mở rộng danh sách các loại. Ví dụ: người ta có thể thêm một triệu hồi cho các biến đếm, sử dụng khoảng cách bình phương chi bình thường được chuyển đổi thành tương tự.)
Hệ số nằm trong khoảng từ 0 đến 1.
" Khoảng cách Gower ". Không có các biến số thứ tự (nghĩa là sử dụng tùy chọn của Podani) hoạt động như khoảng cách Euclide, nó hỗ trợ đầy đủ không gian euclide. Nhưng chỉ là số liệu (hỗ trợ bất đẳng thức tam giác), không phải Euclide. Với các biến số thứ tự hiện tại (sử dụng tùy chọn của Podani) chỉ là số liệu, không phải là Euclide; và không phải là số liệu. Xem thêm .
Với khoảng cách euclide (khoảng cách hỗ trợ không gian Euclide), hầu như bất kỳ kỹ thuật phân cụm cổ điển nào cũng sẽ làm được. Bao gồm cả phương tiện K (nếu chương trình K-mean của bạn có thể xử lý ma trận khoảng cách, tất nhiên) và bao gồm các phương pháp phân cụm phân cấp của Ward, centroid, trung vị . Có thể sử dụng phương tiện K hoặc các phương pháp khác dựa trên khoảng cách Euclide với khoảng cách số liệu không phải là euclide có thể được chấp nhận theo phương pháp heuristur, có thể được chấp nhận. Với khoảng cách không số liệu, không có phương pháp nào có thể được sử dụng.
Đoạn trước nói về việc K-mean hoặc Ward hoặc cụm như vậy có hợp pháp hay không với khoảng cách Gower về mặt toán học (về mặt hình học). Từ quan điểm của thang đo ("tâm lý"), người ta không nên tính độ lệch trung bình hoặc độ lệch khoảng cách từ nó trong bất kỳ dữ liệu phân loại (danh nghĩa, nhị phân, cũng như thứ tự) nào; do đó, từ lập trường này, bạn chỉ có thể không xử lý hệ số Gower bằng K-mean, Ward, v.v. Quan điểm này cảnh báo rằng ngay cả khi có không gian Euclide, nó có thể được tạo hạt, không trơn tru ( xem liên quan ).
Gower JC Một hệ số tương tự chung và một số tính chất của nó // Biometrics, 1971, 27, 857-872
Podani, J. Kéo dài hệ số tương tự chung của Gower với các ký tự thứ tự // Taxon, 1999, 48, 331-340
Nếu bạn vấp phải câu hỏi này và đang băn khoăn không biết nên tải gói nào để sử dụng số liệu Gower trong R , thì cluster
gói đó có một hàm có tên là daisy () , theo mặc định sử dụng số liệu của Gower mỗi khi sử dụng các loại biến hỗn hợp. Hoặc bạn có thể tự đặt nó để sử dụng số liệu của Gower.
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
.