Với dữ liệu phân loại, có thể có các cụm mà không có các biến liên quan?


19

Khi cố gắng giải thích các phân tích cụm, mọi người thường hiểu sai quy trình là có liên quan đến việc các biến có tương quan hay không. Một cách để khiến mọi người vượt qua sự nhầm lẫn đó là một âm mưu như thế này:

nhập mô tả hình ảnh ở đây

Điều này hiển thị rõ ràng sự khác biệt giữa câu hỏi liệu có cụm và câu hỏi liệu các biến có liên quan hay không. Tuy nhiên, điều này chỉ minh họa sự khác biệt cho dữ liệu liên tục. Tôi gặp khó khăn khi nghĩ về một tương tự với dữ liệu phân loại:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Chúng ta có thể thấy rằng có hai cụm rõ ràng: những người có cả tài sản A và B, và những người không có. Tuy nhiên, nếu chúng ta xem xét các biến (ví dụ: với kiểm tra chi bình phương), chúng có liên quan rõ ràng:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Tôi thấy tôi không biết làm thế nào để xây dựng một ví dụ với dữ liệu phân loại tương tự như với dữ liệu liên tục ở trên. Thậm chí có thể có các cụm trong dữ liệu hoàn toàn phân loại mà không có các biến có liên quan không? Điều gì xảy ra nếu các biến có nhiều hơn hai cấp hoặc khi bạn có số lượng biến lớn hơn? Nếu việc phân cụm các quan sát không nhất thiết kéo theo mối quan hệ giữa các biến và ngược lại, điều đó có nghĩa là việc phân cụm không thực sự đáng làm khi bạn chỉ có dữ liệu phân loại (nghĩa là bạn chỉ nên phân tích các biến thay thế)?


Cập nhật: Tôi đã bỏ qua rất nhiều câu hỏi ban đầu vì tôi chỉ muốn tập trung vào ý tưởng rằng một ví dụ đơn giản có thể được tạo ra sẽ trực quan ngay cả với một người gần như không quen thuộc với các phân tích cụm. Tuy nhiên, tôi nhận ra rằng rất nhiều phân cụm phụ thuộc vào các lựa chọn về khoảng cách và thuật toán, v.v. Nó có thể hữu ích nếu tôi chỉ định thêm.

Tôi nhận ra rằng mối tương quan của Pearson thực sự chỉ phù hợp với dữ liệu liên tục. Đối với dữ liệu phân loại, chúng ta có thể nghĩ về phép thử chi bình phương (đối với bảng dự phòng hai chiều) hoặc mô hình log-linear (đối với các bảng dự phòng nhiều chiều) như một cách để đánh giá tính độc lập của các biến phân loại.

Đối với một thuật toán, chúng ta có thể tưởng tượng sử dụng k-medoid / PAM, có thể được áp dụng cho cả tình huống liên tục và dữ liệu phân loại. (Lưu ý rằng, một phần của ý định đằng sau ví dụ liên tục là bất kỳ thuật toán phân cụm hợp lý nào cũng có thể phát hiện các cụm đó và nếu không, có thể xây dựng một ví dụ cực đoan hơn.)

Về quan niệm khoảng cách. Tôi giả sử Euclid cho ví dụ liên tục, bởi vì nó sẽ là cơ bản nhất cho người xem ngây thơ. Tôi cho rằng khoảng cách tương tự với dữ liệu phân loại (trong đó nó sẽ trực quan nhất ngay lập tức) sẽ là kết hợp đơn giản. Tuy nhiên, tôi sẵn sàng thảo luận về các khoảng cách khác nếu điều đó dẫn đến một giải pháp hoặc chỉ là một cuộc thảo luận thú vị.


2
Tôi tự hỏi nếu chúng ta có bất cứ điều gì như cụm trong dữ liệu phân loại cả . Không phải là nếu phương sai giữa các cụm sẽ lớn hơn trong các cụm, hoặc có thể nói về sự khác biệt mật độ giữa các cụm. Vì vậy, nếu kết hợp clostest là các mục thường xuyên, thì các biến phải liên quan đến các cụm để hình thành.
Anony-Mousse -Reinstate Monica

@ Anony-Mousse, thật thú vị. Tại sao không phát triển nó thành một câu trả lời? BTW, tôi có thể thực hiện các cụm hình ảnh thực sự tồn tại (ví dụ: trong các biến liên tục tiềm ẩn làm phát sinh các xác suất khác nhau cho các mức biến danh nghĩa khác nhau), nhưng tôi nghi ngờ đó không phải là ý bạn.
gung - Phục hồi Monica

Bạn có thể chuyển đổi phân phối phân loại thành một vectơ có các thành phần là tần số chuẩn hóa. Sau đó, số liệu Euclide có thể được áp dụng. Tuy nhiên, đây không phải là lựa chọn duy nhất: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdfen.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns, dường như bạn đã thêm [data-association]thẻ. Tôi không chắc những gì được cho là chỉ ra & nó không có hướng dẫn sử dụng / trích đoạn. Chúng ta có thực sự cần thẻ này không? Có vẻ như là một ứng cử viên tốt để xóa. Nếu chúng tôi thực sự cần nó trên CV và bạn biết nó là gì, ít nhất bạn có thể thêm một đoạn trích cho nó không?
gung - Phục hồi Monica

@gung, tôi cũng vậy, tôi không hiểu thẻ này có thể đề cập đến điều gì. Tôi đã thêm nó vì chủ đề "liên kết / tương quan giữa các thuộc tính" của câu hỏi. Bạn có thể tự do xóa thẻ khỏi Q hoặc hoàn toàn. Mặt khác, đã đến lúc (tôi nghĩ) suy nghĩ lại về các thẻ của chúng tôi bao gồm toàn bộ trường tương quan / liên kết. Ví dụ, "tương quan" chỉ nên được giữ lại cho tương quan Pearson? Chúng ta có nên tạo một thẻ mới "biến liên kết" (thay cho "liên kết dữ liệu") không?
ttnphns

Câu trả lời:


11

Xem xét trường hợp cụm rõ ràng với các biến tỷ lệ không tương quan - chẳng hạn như hình trên cùng bên phải trong câu hỏi. Và phân loại dữ liệu của nó.

nhập mô tả hình ảnh ở đây

Chúng tôi chia phạm vi tỷ lệ của cả hai biến X và Y thành 3 thùng mà bây giờ chúng tôi coi là nhãn phân loại. Hơn nữa, chúng tôi sẽ tuyên bố chúng là danh nghĩa, không phải là thứ tự, bởi vì câu hỏi được đặt ra hoàn toàn và chủ yếu là về dữ liệu định tính. Kích thước của các điểm là tần số trong một ô chéo tần số; tất cả các trường hợp trong cùng một tế bào được coi là giống hệt nhau.

Theo trực giác và tổng quát nhất, "cụm" được định nghĩa là các cụm điểm dữ liệu được phân tách bằng các vùng thưa thớt trong "không gian" dữ liệu. Ban đầu nó có dữ liệu tỷ lệ và nó vẫn giữ nguyên ấn tượng trong bảng chéo của dữ liệu được phân loại. X và Y bây giờ phân loại, nhưng họ vẫn trông không tương quan: hiệp hội chi bình phương rất gần với không. Và các cụm đang ở đó.

Nhưng nhớ lại chúng ta đang xử lý các danh mục danh nghĩa mà thứ tự trong bảng là tùy ý. Chúng tôi có thể sắp xếp lại toàn bộ hàng và / hoặc cột theo ý muốn, mà không ảnh hưởng đến giá trị chi bình phương quan sát được. Sắp xếp lại ...

nhập mô tả hình ảnh ở đây

... để đáp ứng các cụm đó chỉ biến mất. Bốn ô, a1, a3, c1 và c3, có thể được hợp nhất trong một cụm. Vì vậy, không, chúng tôi thực sự không có bất kỳ cụm trong dữ liệu phân loại.

Các trường hợp của các ô a1 và c3 (hoặc tương tự như a3 và c1) hoàn toàn không giống nhau: chúng không chia sẻ cùng một sự chú ý. Để tạo ra các cụm trong dữ liệu của chúng tôi - a1 và c3 để tạo thành các cụm - chúng tôi phải làm trống, ở một mức độ lớn, làm nhiễu các ô a3 và c1, bằng cách bỏ các trường hợp này khỏi bộ dữ liệu.

nhập mô tả hình ảnh ở đây

Bây giờ các cụm làm tồn tại. Nhưng đồng thời chúng tôi mất đi sự không tương quan. Các cấu trúc đường chéo hiển thị trong các tín hiệu bảng mà chi-cái nhìn thống kê đã xa zero.

Điều đáng tiếc. Chúng ta hãy cố gắng bảo tồn sự không tương quan và các cụm rõ ràng hơn hoặc ít hơn cùng một lúc. Ví dụ, chúng tôi có thể quyết định chỉ trống ô a3, và sau đó coi a1 + c1 là cụm đối lập với cụm c3:

nhập mô tả hình ảnh ở đây

Hoạt động đó đã không mang lại cho Chi-Square bất kỳ khoảng cách nào ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... nhưng tình hình với các cụm là nhầm lẫn. Cụm a1 + c1 chứa các trường hợp giống hệt nhau, một phần không giống nhau. Rằng một cụm tương đối thấp - bản thân nó không phải là tiền đề cho cấu trúc cụm rõ ràng trong bộ dữ liệu. Tuy nhiên, vấn đề với dữ liệu phân loại của chúng tôi là cụm a1 + c1 không có cách nào tốt hơn cụm c1 + c3, tương tự đối xứng của nó. Điều đó có nghĩa là giải pháp cụm không ổn định - nó sẽ phụ thuộc vào thứ tự trường hợp trong bộ dữ liệu. Một giải pháp không ổn định, thậm chí nó tương đối "rõ ràng", là một giải pháp tồi, không đáng tin cậy.

Cách duy nhất để khắc phục vấn đề và làm cho giải pháp rõ ràng và ổn định sẽ là gỡ bỏ ô c3 khỏi ô c1 bằng cách di chuyển dữ liệu của nó bên dưới sang ô b3 (hoặc đến b2).

nhập mô tả hình ảnh ở đây

Vì vậy, chúng ta có các cụm rõ ràng a1 + c1 so với b3. Nhưng hãy nhìn xem, ở đây một lần nữa mô hình đường chéo xuất hiện - và bình phương của bảng giới hạn cao trên không.

Kết luận . Không thể có hai biến danh nghĩa chi-vuông-unassociated và cụm tốt của các trường hợp dữ liệu cùng một lúc. Các cụm rõ ràng và ổn định ngụ ý liên kết biến.

Rõ ràng là nếu sự kết hợp có mặt - tức là mô hình đường chéo tồn tại hoặc có thể đạt được bằng cách sắp xếp lại - thì các cụm phải tồn tại. Điều này là do bản chất của dữ liệu phân loại ("tất cả hoặc không có gì") không cho phép một nửa tông màu và điều kiện đường biên, do đó, hình ảnh như phía dưới bên trái trong câu hỏi của OP không thể xuất hiện với dữ liệu danh nghĩa, phân loại.

Tôi phỏng đoán rằng khi chúng ta có được biến ngày càng có nhiều danh nghĩa (thay vì chỉ hai) mà là bivariately chi-square không liên quan, chúng tôi đến gần hơn với khả năng có cụm. Nhưng không đa biến vuông góc, tôi hy vọng vẫn sẽ không tương thích với các cụm. Điều đó vẫn phải được thể hiện (không phải bởi tôi hay không phải lúc này).


Cuối cùng, một nhận xét về câu trả lời của @ Bey (còn gọi là user75138) mà tôi đã hỗ trợ một phần. Tôi đã nhận xét với thỏa thuận của mình về việc trước tiên người ta phải quyết định số liệu khoảng cách và thước đo liên kết trước khi anh ta có thể đặt câu hỏi "sự kết hợp biến độc lập với cụm trường hợp?". Điều này là do không có biện pháp liên kết phổ quát nào tồn tại, cũng không có định nghĩa thống kê phổ quát về các cụm. Tôi sẽ nói thêm, anh ta cũng phải quyết định về kỹ thuật phân cụm. Các phương pháp phân cụm khác nhau xác định khác nhau "cụm" chúng là gì sau đó. Vì vậy, toàn bộ tuyên bố có thể đúng.

Điều đó nói rằng, điểm yếu của một chuyên gia như vậy là nó quá rộng. Người ta nên cố gắng thể hiện một cách cụ thể, cho dù và ở đâu một lựa chọn về phương pháp đo khoảng cách / phương pháp liên kết / phương pháp cụm sẽ mở ra phòng để điều hòa sự không tương quan với cụm, cho dữ liệu danh nghĩa. Cụ thể, ông sẽ ghi nhớ rằng không phải tất cả nhiều hệ số lân cận cho dữ liệu nhị phân đều có ý nghĩa với dữ liệu danh nghĩa, vì đối với dữ liệu danh nghĩa, "cả hai trường hợp đều thiếu thuộc tính này" không bao giờ có thể là nền tảng cho sự giống nhau của chúng.


Cập nhật , báo cáo kết quả mô phỏng của tôi.

.1

r

Kết quả thường hỗ trợ lý luận hiển thị ở trên trong câu trả lời. Không bao giờ các cụm rất rõ ràng (chẳng hạn như có thể xảy ra nếu liên kết chi bình phương mạnh). Và kết quả của các tiêu chí phân cụm khác nhau thường mâu thuẫn với nhau (điều này không có khả năng mong đợi khi các cụm thực sự rõ ràng).

Đôi khi phân cụm theo phân cấp sẽ cung cấp một giải pháp cụm k có phần tốt, như được quan sát thông qua một âm mưu tiêu chí phân cụm; tuy nhiên, kiểm tra độ ổn định sẽ không cho thấy nó ổn định. Ví dụ: 4x4x3dữ liệu 3 biến này

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

khi được phân cụm theo phương pháp tìm kiếm liên kết hoàn chỉnh, độ tương tự của Dice dường như bị chia tách - khá hợp lý - thành 9 cụm - trong trường hợp này theo thỏa thuận giữa ba thẩm phán hiệu lực nội bộ:

nhập mô tả hình ảnh ở đây

Nhưng giải pháp không ổn định, như được thấy từ độ thưa thớt không đầy đủ của ma trận nhầm lẫn của giải pháp ban đầu so với giải pháp được hoán vị (trường hợp được sắp xếp lại):

nhập mô tả hình ảnh ở đây

Nếu giải pháp đã ổn định (vì có thể chúng tôi sẽ có dữ liệu liên tục), chúng tôi đã chọn giải pháp 9 cụm là đủ sức thuyết phục.

Phân cụm dựa trên khoảng cách khả năng đăng nhập (trái ngược với độ tương tự của Dice) có thể đưa ra các giải pháp ổn định và "không tệ" (bên trong khá hợp lệ). Nhưng đó là bởi vì khoảng cách, ít nhất là trong cụm SPSS của TwoStep, khuyến khích và thúc đẩy các cụm dân cư cao và bỏ bê những nhóm dân cư thấp. Nó không đòi hỏi các cụm có tần số rất thấp bên trong phải dày đặc bên trong (đó dường như là "chính sách" của phân tích cụm TwoStep, được thiết kế đặc biệt cho dữ liệu lớn và đưa ra một số cụm; vì vậy các cụm nhỏ được xem như là ngoại lệ) . Ví dụ: những dữ liệu 2 biến này

nhập mô tả hình ảnh ở đây

sẽ được TwoStep kết hợp thành 5 cụm như được hiển thị, ổn định và giải pháp 5 cụm hoàn toàn không tệ như được đánh giá bởi một số tiêu chí phân cụm. Bởi vì bốn cụm dân cư bên trong rất dày đặc (thực ra, tất cả các trường hợp giống hệt nhau) và chỉ có một, cụm thứ năm, bao gồm một vài trường hợp, là cực kỳ entropy'ed. Vì vậy, rõ ràng thực sự là giải pháp 12 cụm, không phải 5 cụm, mà 12 là tổng số ô trong bảng tần số, như một "giải pháp cụm" là tầm thường và không thú vị.


+1, đây là những gì tôi nghi ngờ. Cặp đôi không liên kết với đa biến không liên kết là một điểm thú vị. Xem xét vấn đề này rộng hơn, điều này có nghĩa là thực sự không có bất kỳ điểm nào trong việc cố gắng phân cụm dữ liệu danh nghĩa thuần túy? Tức là, chúng ta có nên luôn luôn phân tích các biến nếu chúng ta không có dữ liệu liên tục?
gung - Phục hồi Monica

1
@gung, bạn không biết câu châm ngôn rằng mối tương quan giữa các biến là mặt khác của sự phân cực của các trường hợp ("diagolness")? Điều này đúng, như là châm ngôn, cũng cho dữ liệu liên tục. Nhưng đối với liên tục, phân cực có thể không ngụ ý cụm. Đối với phân loại, nó xuất hiện nó ngụ ý. Do tính chất rời rạc. Vì vậy, có lẽ có, nếu các biến phân loại tương quan, có các cụm để tìm. Nhưng bạn phải thực hiện phân cụm để có được các cụm một cách tốt hơn. Đó là ý kiến ​​dự kiến ​​của tôi cho câu hỏi tuyệt vời của bạn.
ttnphns

Tôi không quen với điều đó. Có lẽ tôi sẽ hỏi về nó sau. Đây là thông tin tốt để nhai bây giờ, tôi nghĩ vậy.
gung - Phục hồi Monica

3

Như tôi chắc chắn bạn biết, tương quan là thước đo mối quan hệ tuyến tính giữa hai biến, chứ không phải các điểm gần nhau như thế nào. Điều này giải thích bốn con số hàng đầu.

Tất nhiên, bạn cũng có thể tạo các biểu đồ tương tự cho các dữ liệu có giá trị rời rạc.

X{Một,B,C,D}RXRX

Bạn cần xác định một số liệu cho không gian phân loại trước khi bạn thực sự có thể nói về việc phân cụm theo nghĩa hình học.


Tôi sẽ ủng hộ câu trả lời này và sẽ cải tổ nó, nếu cả @gung và Bey đều cho phép, theo thuật ngữ trực quan. Dữ liệu cụm được xác định bởi "khoảng cách nhỏ trong cụm nhưng khoảng cách dài giữa các cụm". Trên các bức ảnh của mình, OP đã chọn, ngầm, khoảng cách euclide để minh họa cho ý tưởng về cụm này. Ông cũng chọn khái niệm tương quan Pearson hoặc một cái gì đó tương tự với nó - để minh họa ý tưởng liên kết giữa các biến. Đây là hai lựa chọn cụ thể / tùy ý trong số nhiều lựa chọn thay thế.
ttnphns

1
(tt) Tôi thậm chí có thể tưởng tượng rằng có thể chọn thước đo khoảng cách như vậy và thước đo liên kết như vậy trong đó quan niệm "cụm trường hợp" và quan niệm "hiệp hội biến" không trực giao. Và bây giờ, cho dữ liệu phân loại. Trước khi người ta có thể kiểm tra & chỉ ra liệu hai khái niệm có thể độc lập hay có liên quan với nhau, anh ta phải chọn một thước đo khoảng cách cụ thể cho các điểm dữ liệu phân loại và thước đo liên kết cụ thể cho các biến phân loại. Có nhiều lựa chọn thay thế để lựa chọn! Và câu trả lời sẽ phụ thuộc.
ttnphns

@ttnphns (+1) Tôi thích cách bạn đóng khung hai lựa chọn chính: khoảng cách và số liệu liên kết. Không chắc điều gì về lời giải thích của tôi không trực quan mặc dù ... bạn không thể xác định các cụm mà không có khái niệm về khoảng cách.

@ttnphns, tôi nghĩ là tùy vào Bey. Tại sao bạn không biến một số ý tưởng của bạn thành câu trả lời của riêng bạn? Tôi quan tâm đến ý tưởng rằng "cụm trường hợp" & "liên kết biến" trở thành không trực giao cho dữ liệu liên tục được đưa ra một số lựa chọn. Bey & ttnphns, tôi đã thêm một số giải thích cho câu hỏi liên quan đến các biện pháp khoảng cách và liên kết, nhưng bạn nên đi theo một hướng khác, nếu bạn thích. Hãy cho tôi biết nếu nó cần nhiều hơn. Sở thích của tôi là câu hỏi vẫn "lỏng lẻo" nhất có thể để cung cấp cho người trả lời sự linh hoạt để đi theo một hướng khác.
gung - Phục hồi Monica

1
@Bey, tất nhiên, có nhiều biện pháp liên kết và khoảng cách có thể khác cho dữ liệu phân loại, vì vậy bạn có thể đề xuất một cái gì đó bí truyền làm cho nó hoạt động.
gung - Phục hồi Monica

2

Xem xét khoảng cách Hamming - khoảng cách Hamming giữa hai chuỗi có độ dài bằng nhau là số vị trí mà tại đó các ký hiệu tương ứng khác nhau. Từ định nghĩa này, có vẻ như rõ ràng rằng chúng ta có thể tạo ra dữ liệu mà chúng ta có các cụm dựa trên khoảng cách Hamming nhưng không có mối tương quan giữa các biến.

Một ví dụ sau sử dụng Mathicala.

Tạo một số dữ liệu phân loại (3 chuỗi ký tự dài lấy mẫu ngẫu nhiên thống nhất gồm 4 ký tự):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Sử dụng các ô khảm cho mối quan hệ giữa các biến (xác suất có điều kiện cho các cặp giá trị từ các cột khác nhau):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

nhập mô tả hình ảnh ở đây

Chúng ta có thể thấy rằng không có mối tương quan.

Tìm cụm:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Nếu chúng ta thay thế mọi ký tự bằng một số nguyên, chúng ta có thể thấy từ âm mưu này cách các cụm được hình thành với khoảng cách Hamming:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

nhập mô tả hình ảnh ở đây

Phân cụm thêm

Hãy để chúng tôi tạo một biểu đồ bằng cách kết nối các từ mà khoảng cách Hamming là 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

nhập mô tả hình ảnh ở đây

Bây giờ chúng ta hãy tìm các cụm cộng đồng:

CommunityGraphPlot[nngr]

nhập mô tả hình ảnh ở đây

So sánh các cụm đồ thị với một cụm được tìm thấy FindClusters(buộc phải tìm 3). Chúng ta có thể thấy "bac" là trung tâm rất cao và "aad" có thể thuộc về cụm màu xanh lá cây, tương ứng với cụm 1 trong cốt truyện 3D.

Dữ liệu đồ thị

Đây là danh sách cạnh của nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

Chào mừng đến với trang web! Chỉ cần một cặp nhận xét: Ngôn ngữ nào là mã? (không được chú thích, bên cạnh đó). Làm thế nào để bạn xác định relationship between the variables (correlation)?
ttnphns

Hay đấy. Thật không may, tôi không biết Mathicala (& ít quen thuộc với khoảng cách chỉnh sửa), vì vậy tôi cần chơi với nó để chắc chắn rằng tôi hiểu nó. Tôi chưa có cơ hội, nhưng tôi dự định sẽ sớm thôi.
gung - Phục hồi Monica

@gung Tôi đã suy nghĩ để làm điều đó trong R nhưng tôi nghĩ rằng phần quan trọng là cốt truyện 3D và xoay nó theo đúng góc độ để có cái nhìn sâu sắc về sự hình thành cụm. Câu hỏi hay, nhân tiện!
Anton Antonov

Vì vậy, bạn có "cụm" ở đây. Nhưng chúng có ý nghĩa không? Họ có tốt hơn so với các cụm khác? Từ cốt truyện, tôi muốn nói cụm 1 khá ngẫu nhiên. Vậy tại sao đó là một cụm?
Anony-Mousse -Reinstate Monica

1
Dữ liệu thống nhất ngẫu nhiên (!) Rõ ràng không nên có cụm. Cốt truyện "cộng đồng" là sai lệch vì nó không giữ khoảng cách. Biểu đồ với 1 khoảng cách nhấn mạnh những vấn đề này. Nó cũng cho thấy một ví dụ khác , cda. Xin lỗi, tôi không "mua" các "cụm" này. Dữ liệu thống nhất, được cho là không có cụm.
Anony-Mousse -Reinstate Monica

2

Quan điểm của @ttnphns về sự kết hợp giữa cặp đôiđa biến cũng được thực hiện. Liên quan đến điều đó là cái cưa cũ về tầm quan trọng của việc chứng minh sự liên kết với các số liệu đơn giản trước khi nhảy vào một khuôn khổ đa biến. Nói cách khác, nếu các biện pháp kết hợp đơn giản cho thấy không có mối quan hệ nào thì ngày càng khó có khả năng các mối quan hệ đa biến sẽ cho thấy bất cứ điều gì. Tôi nói "ngày càng khó xảy ra" vì miễn cưỡng sử dụng từ "không thể". Ngoài ra, tôi không biết về số liệu được sử dụng cho dù đó là mối tương quan Spearman đơn điệu cho dữ liệu thứ tự, Somer D , Kendall's Tau, tương quan đa âm, MIC của Reshef, tương quan khoảng cách của Szelkey, bất cứ điều gì. Sự lựa chọn số liệu không quan trọng trong cuộc thảo luận này.

Công việc ban đầu được thực hiện để tìm cấu trúc tiềm ẩn trong thông tin phân loại bắt nguồn từ đầu những năm 50 và Paul Lazersfeld, nhà xã hội học Columbia. Về cơ bản, ông đã phát minh ra một lớp các mô hình biến tiềm ẩn đã thấy sự phát triển và sửa đổi sâu rộng kể từ đó. Đầu tiên, với tác phẩm thập niên 60 của James Coleman, nhà kinh tế chính trị U of C, về các xu hướng bầu cử tiềm ẩn, tiếp theo là sự đóng góp của Clifford Clogg, cũng là một nhà xã hội học, mà phần mềm MELISSA là phần mềm miễn phí tiềm ẩn công khai đầu tiên.

Trong những năm 80, các mô hình lớp tiềm ẩn đã được mở rộng từ thông tin phân loại thuần túy sang mô hình hỗn hợp hữu hạn với sự phát triển của các công cụ như Vàng tiềm ẩn từ Đổi mới thống kê. Ngoài ra, Bill Dillon, một nhà khoa học tiếp thị, đã phát triển một chương trình Gauss để phù hợp với các mô hình hỗn hợp hữu hạn phân biệt đối xử tiềm ẩn. Các tài liệu về phương pháp này để phù hợp với hỗn hợp thông tin phân loại và liên tục thực sự khá rộng rãi. Nó chỉ không nổi tiếng ngoài các lĩnh vực nơi nó được áp dụng rộng rãi nhất, ví dụ, khoa học tiếp thị nơi các mô hình này được sử dụng để phân khúc và phân nhóm người tiêu dùng.

Tuy nhiên, các mô hình hỗn hợp hữu hạn này tiếp cận phân cụm tiềm ẩn và phân tích bảng dự phòng được coi là trường học cũ trong thế giới dữ liệu khổng lồ ngày nay. Công nghệ tiên tiến trong việc tìm kiếm sự liên kết giữa một tập hợp các bảng dự phòng khổng lồ là các phân tách có sẵn từ việc triển khai các mô hình tenor như các mô hình được phát triển bởi David Dunson và các Bayes khác tại Duke. Đây là bản tóm tắt từ một trong những bài báo của họ cũng như một liên kết:

Phân tích bảng dự phòng thường xuyên dựa trên các mô hình tuyến tính log, với phân tích cấu trúc tiềm ẩn cung cấp một sự thay thế chung. Các mô hình cấu trúc tiềm ẩn dẫn đến hệ số tenxơ xếp hạng thấp của hàm khối xác suất đối với dữ liệu phân loại đa biến, trong khi các mô hình tuyến tính log đạt được giảm kích thước thông qua độ thưa thớt. Người ta biết rất ít về mối quan hệ giữa các khái niệm giảm chiều này trong hai mô hình. Chúng tôi rút ra một số kết quả liên quan đến sự hỗ trợ của mô hình log-linear đến thứ hạng không âm của thang đo xác suất liên quan. Được thúc đẩy bởi những phát hiện này, chúng tôi đề xuất một lớp phân rã Tucker mới bị sụp đổ, làm cầu nối cho các phân tách PARAFAC và Tucker hiện có, cung cấp một khung linh hoạt hơn để mô tả đặc biệt dữ liệu phân loại đa biến.

https://arxiv.org/pdf/1404.0394.pdf


Đây là thông tin thú vị. Tôi không rõ ràng về cách nó kết nối với câu hỏi.
gung - Phục hồi Monica

gung Đưa ra các cuộc thảo luận rộng rãi và các câu hỏi cơ bản được đặt ra về việc liệu các cụm dữ liệu phân loại "thậm chí còn tồn tại", sự thiếu rõ ràng của bạn về sự liên quan của sự đóng góp của tôi là khó hiểu. Theo quan điểm của tôi, thông tin được cung cấp chiếu sáng các lĩnh vực khám phá phương pháp và kiến ​​thức trước đây đã bị bỏ qua. Tôi cũng có thể chỉ ra quan sát ban đầu của mình - giải quyết rõ ràng cho câu hỏi của OP - liên quan đến bước nhảy vọt từ liên kết cặp sang đa biến rất khó xảy ra trong trường hợp không liên kết ở cấp độ đơn giản hơn.
Mike Hunter

Tôi không có ý xúc phạm, @DJohnson. Tôi (phần nào) các mô hình w / tiềm ẩn quen thuộc để phân cụm dữ liệu phân loại (nghĩa là phân tích lớp tiềm ẩn). Tôi đã ám chỉ nó trong bình luận của tôi ở trên. Tôi không quen thuộc với lịch sử, nhà nghiên cứu và phần mềm. Điều đó thật thú vị. Tôi hoàn toàn không thấy cách nó trả lời câu hỏi liệu có thể phát hiện được các cụm trong dữ liệu danh nghĩa trong đó các biến không hiển thị bất kỳ liên kết nào không. Nếu đó là những gì bạn đang nhận được, một ví dụ sẽ hữu ích. Bạn có thể cung cấp một?
gung - Phục hồi Monica

@gung Tất nhiên là không và không lấy.
Mike Hunter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.