Gán trọng số cho các biến trong phân tích cụm


11

Tôi muốn gán các trọng số khác nhau cho các biến trong phân tích cụm của mình, nhưng chương trình của tôi (Stata) dường như không có tùy chọn cho việc này, vì vậy tôi cần phải thực hiện thủ công.

Tưởng tượng 4 biến A, B, C, D. Các trọng số cho các biến đó phải là

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Tôi tự hỏi liệu một trong hai cách tiếp cận sau đây có thực sự làm được mẹo hay không:

  1. Đầu tiên tôi chuẩn hóa tất cả các biến (ví dụ theo phạm vi của chúng). Sau đó, tôi nhân từng biến tiêu chuẩn với trọng lượng của chúng. Sau đó làm phân tích cụm.
  2. Tôi nhân tất cả các biến với trọng số của chúng và chuẩn hóa chúng sau đó. Sau đó làm phân tích cụm.

Hoặc là cả hai ý tưởng hoàn thành vô nghĩa?

[EDIT] Các thuật toán phân cụm (tôi thử 3 loại khác nhau) tôi muốn sử dụng là phương tiện k, liên kết trung bình có trọng số và liên kết trung bình. Tôi dự định sử dụng liên kết trung bình có trọng số để xác định một số cụm tốt mà tôi cắm vào k-nghĩa sau đó.


1
Cả hai cách nói chung đều không đúng. Nhân giá trị của các biến không tương đương với tầm quan trọng của biến trọng số cho việc phân cụm. Nếu chương trình không có tùy chọn trọng số, đôi khi bạn có thể thực hiện với dữ liệu như bạn muốn - nhưng điều này phụ thuộc vào bản chất chính xác của cụm của bạn. Vì vậy, hãy mô tả (trong câu hỏi của bạn) chi tiết về phân cụm của bạn: thuật toán và phương pháp bạn sẽ sử dụng.
ttnphns

2
Lưu ý rằng cách dễ nhất và phổ biến nhất cho các biến trọng số (và trọng số là số nguyên hoặc có thể được tạo thành số nguyên) sẽ chỉ đơn giản là truyền bá các biến nhân với các trọng số đó. Trong ví dụ của bạn, bạn có thể mất 50 As, 25 Bs, 10 Cs, 15 Ds trong cụm của bạn.
ttnphns

8
Hoặc, phương án thay thế: Nếu bạn sử dụng phân cụm dựa trên biện pháp euclide hoặc bạn sử dụng phương tiện k, nhân mỗi biến với căn bậc hai của trọng số của nó. Tất nhiên, phép nhân này phải được thực hiện sau bất kỳ quá trình tiền xử lý nào (như tiêu chuẩn hóa) mà bạn có thể muốn thực hiện trước khi phân cụm.
ttnphns

Câu trả lời:


7

Một cách để gán trọng số cho một biến là bằng cách thay đổi tỷ lệ của nó. Thủ thuật hoạt động cho các thuật toán phân cụm mà bạn đề cập, viz. k-nghĩa, liên kết trung bình có trọng số và liên kết trung bình.

Kaufman, Leonard và Peter J. Rousseeuw. " Tìm nhóm trong dữ liệu: Giới thiệu về phân tích cụm ." (2005) - trang 11:

Sự lựa chọn của các đơn vị đo lường làm tăng trọng số tương đối của các biến. Biểu thị một biến trong các đơn vị nhỏ hơn sẽ dẫn đến một phạm vi lớn hơn cho biến đó, sau đó sẽ có ảnh hưởng lớn đến cấu trúc kết quả. Mặt khác, bằng cách tiêu chuẩn hóa một nỗ lực để cung cấp cho tất cả các biến có trọng số bằng nhau, với hy vọng đạt được tính khách quan. Như vậy, nó có thể được sử dụng bởi một học viên không có kiến ​​thức trước. Tuy nhiên, về cơ bản, một số biến có thể quan trọng hơn các biến khác trong một ứng dụng cụ thể, và sau đó việc gán trọng số phải dựa trên kiến ​​thức về vấn đề (xem, ví dụ, Abrahamowicz, 1985).

Mặt khác, đã có những nỗ lực để đưa ra các kỹ thuật phân cụm độc lập với quy mô của các biến (Friedman và Rubin, 1967). Đề xuất của Hardy và Rasson (1982) là tìm kiếm một phân vùng làm giảm tối thiểu tổng khối lượng vỏ lồi của các cụm. Về nguyên tắc, một phương pháp như vậy là bất biến đối với các phép biến đổi tuyến tính của dữ liệu, nhưng thật không may, không có thuật toán nào tồn tại để thực hiện nó (ngoại trừ một phép tính gần đúng bị giới hạn ở hai chiều). Do đó, hiện tại tiến thoái lưỡng nan của tiêu chuẩn hóa là không thể tránh khỏi và các chương trình được mô tả trong cuốn sách này để lại sự lựa chọn cho người dùng

Abrahamowicz, M. (1985), Việc sử dụng thông tin pnon không số để đo lường sự khác biệt, bài trình bày tại Hội nghị châu Âu lần thứ tư của Hiệp hội tâm lý học và các hội phân loại, ngày 2 tháng 7, Cambridge (Anh).

Friedman, HP và Rubin, J. (1967), Về một số tiêu chí bất biến để phân nhóm dữ liệu. J. Amer. Thống kê. ASSOC6., 2, 1159-1178.

Hardy, A. và Rasson, JP (1982), Une nouvelle Phê duyệt des vấn đề phân loại automatique, Statist. Hậu môn. Donnies, 7, 41-56.


1
Tài liệu tham khảo đầu tiên của bạn được đọc sai bằng cách nào đó: Leonard Kaufman và Peter J. Rousseeuw là tác giả của cuốn sách bạn liên kết đến.
Nick Cox

Ồ cảm ơn vì đã chỉ ra điều này ... Tôi đã bị Lavoisier lừa, đã mắc lỗi trên trang của họ "Auteurs: SEWELL Grandville, ROUSSEEUW Peter J.", đến lượt tôi đã sử dụng Gscholar mà tôi đang sử dụng để tham khảo.
Franck Dernoncourt 27/11/13

Cảm ơn @FranckDernoncourt! Nếu thang đo (và do đó phạm vi) của biến xác định trọng số của nó, thì cách tiếp cận 1.) trong câu hỏi ban đầu của tôi có phải là một giải pháp đúng không?
SPi

2
Có cách tiếp cận 1 là phương pháp đúng, và tương ứng với những gì mà Kaufman, Leonard và Peter J. Rousseeuw đang nói trong đoạn văn tôi trích dẫn trong câu trả lời. Cách tiếp cận 2 sẽ vô dụng vì tiêu chuẩn hóa sẽ loại bỏ các trọng số :)
Franck Dernoncourt 27/11/13
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.