Về mặt kỹ thuật để tính toán một phép đo dis (độ tương tự) giữa các cá nhân trên các thuộc tính danh nghĩa, hầu hết các chương trình trước tiên mã hóa lại từng biến danh nghĩa thành một tập hợp các biến nhị phân giả và sau đó tính toán một số đo cho các biến nhị phân. Dưới đây là công thức của một số biện pháp tương tự và khác biệt nhị phân thường được sử dụng .
Biến giả (còn gọi là biến nóng) là gì? Dưới đây là 5 cá nhân, hai biến danh nghĩa (A có 3 loại, B có 2 loại). 3 hình nộm được tạo ra thay cho A, 2 hình nộm được tạo ra thay cho B.
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(Không cần phải loại bỏ một biến giả là "dư thừa" như chúng ta thường làm trong hồi quy với các hình nộm. Nó không được thực hiện trong phân cụm, mặc dù trong các tình huống đặc biệt bạn có thể xem xét tùy chọn đó.)
aa+b+c
- a - số lượng người giả 1 cho cả hai cá nhân
- b - số lượng hình nộm 1 cho cái này và 0 cho cái đó
- c - số người giả 0 cho cái này và 1 cho cái đó
- d - số lượng người giả 0 cho cả hai
bcaa2a2a+b+ckhoảng cách. Hãy xem có bao nhiêu từ đồng nghĩa - bạn chắc chắn sẽ tìm thấy thứ gì đó trong phần mềm của mình!
Hiệu lực trực quan của hệ số tương tự Dice xuất phát từ thực tế rằng nó chỉ đơn giản là tỷ lệ đồng xảy ra (hoặc thỏa thuận tương đối ). Đối với đoạn dữ liệu ở trên, lấy cột danh nghĩa A
và tính 5x5
ma trận đối xứng hình vuông với một trong hai 1
(cả hai cá nhân thuộc cùng một loại) hoặc 0
(không cùng loại). Tính toán tương tự ma trận cho B
.
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
Tính tổng các mục tương ứng của hai ma trận và chia cho 2 (số lượng biến danh nghĩa) - ở đây bạn có ma trận các hệ số Dice. (Vì vậy, trên thực tế bạn không cần phải tạo núm vú cao su để tính Dice, với các hoạt động ma trận có lẽ bạn có thể làm điều đó nhanh hơn cách vừa mô tả.) Xem một chủ đề liên quan về Dice cho sự kết hợp của danh nghĩa attribures .
Albeit Dice là biện pháp rõ ràng nhất để sử dụng khi bạn muốn hàm tương tự (dis) giữa các trường hợp khi các thuộc tính được phân loại, các biện pháp nhị phân khác có thể được sử dụng - nếu tìm công thức của chúng thỏa mãn các cân nhắc về dữ liệu danh nghĩa của bạn.
a+da+b+c+dddb+cdd2=p(1−SM)p
Nhưng ...
d
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
Vì trong nhiều ứng dụng của ma trận tiệm cận, như trong nhiều phương pháp phân tích cụm, kết quả sẽ không thay đổi hoặc sẽ thay đổi suôn sẻ theo phép biến đổi tuyến tính (và đôi khi ngay cả dưới dạng đơn điệu), có vẻ như nó có thể được chứng minh bằng một số lượng lớn biện pháp nhị phân bên cạnh Dice để có được kết quả tương tự hoặc tương tự. Nhưng trước tiên bạn nên xem xét / khám phá cách phương thức cụ thể (ví dụ: một liên kết trong phân cụm theo thứ bậc) phản ứng với một phép biến đổi gần đúng nhất định.
Nếu phân tích theo cụm hoặc phân tích MDS theo kế hoạch của bạn nhạy cảm với các biến đổi đơn điệu của khoảng cách, bạn nên hạn chế sử dụng các biện pháp được ghi là "đơn điệu" trong bảng trên (và do đó, không nên sử dụng độ tương tự của Jaccard hoặc khoảng cách euclid không được giải thích với giả , tức là danh nghĩa trước đây, thuộc tính).