Hàm khoảng cách tối ưu cho các cá nhân khi các thuộc tính là danh nghĩa là gì?


12

Tôi không biết chức năng khoảng cách giữa các cá nhân sẽ sử dụng trong trường hợp thuộc tính danh nghĩa (không phân loại). Tôi đã đọc một số sách giáo khoa và họ đề xuất chức năng Kết hợp đơn giản nhưng một số sách gợi ý rằng tôi nên thay đổi các thuộc tính danh nghĩa thành nhị phân và sử dụng Hệ số Jaccard . Tuy nhiên, nếu các giá trị của thuộc tính danh nghĩa không phải là 2 thì sao? Điều gì nếu có ba hoặc bốn giá trị trong thuộc tính đó?

Tôi nên sử dụng chức năng khoảng cách nào cho các thuộc tính danh nghĩa?


1
Tôi thấy bài đăng này hữu ích, trên thống kê bình phương V và Chi bình phương.
KarthikS

Câu trả lời:


18

Về mặt kỹ thuật để tính toán một phép đo dis (độ tương tự) giữa các cá nhân trên các thuộc tính danh nghĩa, hầu hết các chương trình trước tiên mã hóa lại từng biến danh nghĩa thành một tập hợp các biến nhị phân giả và sau đó tính toán một số đo cho các biến nhị phân. Dưới đây là công thức của một số biện pháp tương tự và khác biệt nhị phân thường được sử dụng .

Biến giả (còn gọi là biến nóng) là gì? Dưới đây là 5 cá nhân, hai biến danh nghĩa (A có 3 loại, B có 2 loại). 3 hình nộm được tạo ra thay cho A, 2 hình nộm được tạo ra thay cho B.

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(Không cần phải loại bỏ một biến giả là "dư thừa" như chúng ta thường làm trong hồi quy với các hình nộm. Nó không được thực hiện trong phân cụm, mặc dù trong các tình huống đặc biệt bạn có thể xem xét tùy chọn đó.)

aa+b+c

  • a - số lượng người giả 1 cho cả hai cá nhân
  • b - số lượng hình nộm 1 cho cái này và 0 cho cái đó
  • c - số người giả 0 cho cái này và 1 cho cái đó
  • d - số lượng người giả 0 cho cả hai

bcaa2a2a+b+ckhoảng cách. Hãy xem có bao nhiêu từ đồng nghĩa - bạn chắc chắn sẽ tìm thấy thứ gì đó trong phần mềm của mình!

Hiệu lực trực quan của hệ số tương tự Dice xuất phát từ thực tế rằng nó chỉ đơn giản là tỷ lệ đồng xảy ra (hoặc thỏa thuận tương đối ). Đối với đoạn dữ liệu ở trên, lấy cột danh nghĩa Avà tính 5x5ma trận đối xứng hình vuông với một trong hai 1(cả hai cá nhân thuộc cùng một loại) hoặc 0(không cùng loại). Tính toán tương tự ma trận cho B.

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

Tính tổng các mục tương ứng của hai ma trận và chia cho 2 (số lượng biến danh nghĩa) - ở đây bạn có ma trận các hệ số Dice. (Vì vậy, trên thực tế bạn không cần phải tạo núm vú cao su để tính Dice, với các hoạt động ma trận có lẽ bạn có thể làm điều đó nhanh hơn cách vừa mô tả.) Xem một chủ đề liên quan về Dice cho sự kết hợp của danh nghĩa attribures .

Albeit Dice là biện pháp rõ ràng nhất để sử dụng khi bạn muốn hàm tương tự (dis) giữa các trường hợp khi các thuộc tính được phân loại, các biện pháp nhị phân khác có thể được sử dụng - nếu tìm công thức của chúng thỏa mãn các cân nhắc về dữ liệu danh nghĩa của bạn.

a+da+b+c+dddb+cdd2=p(1SM)p

Nhưng ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

Vì trong nhiều ứng dụng của ma trận tiệm cận, như trong nhiều phương pháp phân tích cụm, kết quả sẽ không thay đổi hoặc sẽ thay đổi suôn sẻ theo phép biến đổi tuyến tính (và đôi khi ngay cả dưới dạng đơn điệu), có vẻ như nó có thể được chứng minh bằng một số lượng lớn biện pháp nhị phân bên cạnh Dice để có được kết quả tương tự hoặc tương tự. Nhưng trước tiên bạn nên xem xét / khám phá cách phương thức cụ thể (ví dụ: một liên kết trong phân cụm theo thứ bậc) phản ứng với một phép biến đổi gần đúng nhất định.

Nếu phân tích theo cụm hoặc phân tích MDS theo kế hoạch của bạn nhạy cảm với các biến đổi đơn điệu của khoảng cách, bạn nên hạn chế sử dụng các biện pháp được ghi là "đơn điệu" trong bảng trên (và do đó, không nên sử dụng độ tương tự của Jaccard hoặc khoảng cách euclid không được giải thích với giả , tức là danh nghĩa trước đây, thuộc tính).


vâng, bạn đúng các giá trị .. vì vậy một thuộc tính có ba giá trị có thể
Jane Doe

2
giả sử tôi có hai giá trị của cùng một thuộc tính là "bóng", "nall", "pall" và tôi đã chuyển đổi giá trị này thành 11 01 và 00. Tôi muốn đo khoảng cách Jaccard trong khoảng từ 11 đến 00. Trong trường hợp này, thì đó là khoảng cách 1? vì a = 0 b = 2 c = 0 và d = 0? làm ơn cho tôi biết!
Jane Doe

Tôi nhớ điểm nhận xét cuối cùng của bạn. Xin hỏi rõ ràng. Hoặc sử dụng dữ liệu ví dụ trên của tôi với 5 người và 2 thuộc tính danh nghĩa và cho biết cá nhân nào bạn muốn tôi so sánh và bằng biện pháp dis (độ tương tự) nào.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.