Các cụm có thể được gây ra bởi K-nghĩa


8

Tôi đã nhận được câu hỏi sau đây như một câu hỏi kiểm tra cho bài kiểm tra của mình và tôi chỉ đơn giản là không thể hiểu câu trả lời.

Một biểu đồ phân tán dữ liệu được chiếu lên hai thành phần chính đầu tiên được hiển thị bên dưới. Chúng tôi muốn kiểm tra nếu có tồn tại một số cấu trúc nhóm trong tập dữ liệu. Để làm điều này, chúng tôi đã chạy thuật toán k-mean với k = 2 bằng cách sử dụng thước đo khoảng cách Euclide. Kết quả của thuật toán k-mean có thể khác nhau giữa các lần chạy tùy thuộc vào các điều kiện ban đầu ngẫu nhiên. Chúng tôi đã chạy thuật toán nhiều lần và nhận được một số kết quả phân cụm khác nhau.

Chỉ có ba trong số bốn cụm được hiển thị có thể thu được bằng cách chạy thuật toán k-mean trên dữ liệu. Cái nào không thể có được bằng phương tiện k? (không có gì đặc biệt về dữ liệu)

4 cụm dữ liệu có thể

Câu trả lời đúng là D. Có ai có thể giải thích tại sao không?


2
Sẽ thật tốt khi biết giáo viên hoặc Giáo sư của bạn giải thích điều này như thế nào
Andy Clifton

3
Đây là câu trả lời được đưa ra bởi giáo sư của tôi: Thuật toán k-mean tiến hành cho đến khi hội tụ bằng cách tính giá trị trung bình của từng cụm và gán các đối tượng dữ liệu cho cụm gần nhất. Nếu phân cụm trong D là một giải pháp, hai phương tiện cụm sẽ ở khoảng -1,8 và 0 trên trục PC2, điều này sẽ buộc các đối tượng dữ liệu nằm trong khoảng -0,9 đến .81,8 trên trục PC2 được nhóm vào cụm đầu tiên trong lần lặp tiếp theo của thuật toán k-mean. Do đó, D không thể là một giải pháp.
cướp biển

Câu trả lời:


7

Để đưa thêm thịt vào câu trả lời của Peter Flom, k-nghĩa là phân cụm tìm kiếm các nhóm k trong dữ liệu. Phương pháp giả định rằng mỗi cụm có một trọng tâm nhất định (x,y). Thuật toán k-mean giảm thiểu khoảng cách của mỗi điểm đến tâm (đây có thể là khoảng cách eidianidian hoặc manhattan tùy thuộc vào dữ liệu của bạn).

Để xác định các cụm, một dự đoán ban đầu được tạo ra trong đó các điểm dữ liệu thuộc về cụm nào và trọng tâm được tính cho mỗi cụm. Số liệu khoảng cách sau đó được tính toán, và sau đó một số điểm được hoán đổi giữa các cụm để xem sự phù hợp có cải thiện hay không. Có rất nhiều biến thể về các chi tiết, nhưng về cơ bản, phương tiện k là một giải pháp vũ lực phụ thuộc vào các điều kiện ban đầu, vì có cực tiểu cục bộ đối với giải pháp phân cụm.

Vì vậy, trong trường hợp của bạn, có vẻ như trường hợp A có các điều kiện ban đầu được phân tách rộng rãi xvà do đó các cụm giải quyết vì khoảng cách từ tâm đến dữ liệu là nhỏ và đó là một giải pháp ổn định. Ngược lại, bạn không thể có được D vì điểm đỏ duy nhất đó gần với tâm điểm của các điểm xanh hơn nhiều điểm khác, vì vậy điểm đỏ phải trở thành một phần của tập hợp màu xanh.

Do đó, cách duy nhất bạn có thể nhận được D là nếu bạn làm gián đoạn quá trình phân cụm trước khi kết thúc (hoặc mã làm cho các cụm bị hỏng).


2
Cả câu trả lời từ Peter Flom và Andy Clifton đã cho tôi thấy rõ hơn tại sao người ta không thể lấy D từ cụm trong bài gốc. Tuy nhiên, tôi nghĩ câu trả lời này là thấu đáo nhất, có thể dễ dàng khiến người khác hiểu nó hơn. Cảm ơn đã giúp đỡ!
cướp biển

5

Bởi vì điểm được khoanh tròn trong D không xa các điểm khác trong cả chiều PC1, chiều PC2 hoặc khoảng cách Euclide kết hợp chúng.

Trong A, điểm duy nhất khác xa so với các điểm khác trên PC1

Trong B và C có hai nhóm lớn có thể dễ dàng tách ra. Thật vậy, B và C là cùng một cụm (trừ khi tôi thiếu một dấu chấm), chúng chỉ khác nhau về nhãn


4
Có, và tôi sẽ nói rằng khó có khả năng bất kỳ phân tích cụm nào - không phải chỉ có nghĩa là K - sẽ đưa ra giải pháp D (trừ khi có thể khi điều chỉnh không hiệu quả).
ttnphns

3

Vì D chỉ chứa một điểm duy nhất, nên tâm của nó chính xác tại điểm này.

Đối với phần còn lại của dữ liệu, tâm phải gần 0,0 trong phép chiếu này.

Ít nhất một trong những điểm màu xanh gần với trung tâm màu đỏ hơn là màu xanh trong hai thành phần chính đầu tiên. Kết quả dường như không được tạo ra bởi các tế bào Voronoi.


1

Đây không phải là câu trả lời trực tiếp cho câu hỏi của bạn, nhưng tôi không hiểu cách thiết lập giáo viên của bạn gợi ý, tức là lần đầu tiên áp dụng PCA sau đó tìm kiếm các cụm, có ý nghĩa:

Nếu tập dữ liệu có cấu trúc cụm, việc giảm kích thước thu được thông qua PCA không được đảm bảo để tôn trọng cấu trúc này. Trong hình của bạn, PC1 và PC2 sẽ chỉ cung cấp cho bạn các biến (hoặc tổ hợp biến số tuyến tính) thu được nhiều biến thể nhất trong dữ liệu.

Đặt khác biệt: nếu bạn đưa ra giả thuyết từ tập dữ liệu có chứa các cụm, thì các tính năng quan trọng nhất rõ ràng là các đặc điểm phân biệt giữa các cụm, nói chung, không trùng với hướng của các biến thể lớn trong toàn bộ dữ liệu.

Trong kịch bản như vậy, điều có ý nghĩa hơn là cụm đầu tiên (không giảm bất kỳ chiều nào) và sau đó thực hiện LDA hoặc XCA , hoặc một cái gì đó tương tự để lưu giữ thông tin phân biệt đối xử lớp / cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.