Phương tiện k có thể được sử dụng cho dữ liệu không được phân phối thông thường không?


9

Tôi đã đọc rất nhiều bài báo kiểm tra k-mean với nhiều bộ dữ liệu thường không được phân phối như bộ dữ liệu mống mắt và nhận được kết quả tốt. Vì, tôi hiểu rằng k-mean dành cho dữ liệu phân phối thông thường, tại sao k-mean được sử dụng cho dữ liệu không được phân phối thông thường?

Ví dụ, bài báo dưới đây đã sửa đổi các trọng tâm từ phương tiện k dựa trên đường cong phân phối bình thường và đã kiểm tra thuật toán với bộ dữ liệu iris thường không được phân phối.

gần như tất cả các giá trị (chính xác là 99,73%) sẽ có khoảng cách điểm đến trung tâm trong phạm vi 3 độ lệch chuẩn () so với trung bình dân số.

Có điều gì đó mà tôi không hiểu ở đây?


1
Điều gì nếu đơn giản là một bài báo khá xấu? Nghe có vẻ không phải là một địa điểm cao cấp đối với tôi.
Có QUIT - Anony-Mousse

1
Khiếu nại mà bạn trích dẫn từ bài báo được đặt trước bởi giả định rằng dữ liệu là bình thường. Điều hạn chế không cần thiết trong bài báo đó là tuyên bố rằng k-nghĩa là giả định tính quy tắc, cho thấy rằng đó không thể là một quy trình phân cụm thỏa đáng nếu dữ liệu không cùng bình thường.
Đóng ToC

bài báo được xuất bản trên IEEE
người dùng

1
Câu hỏi của tôi liên quan đến thử nghiệm dữ liệu mống mắt được đặt trong cùng một tờ giấy, vì tôi nhận thấy rằng bộ dữ liệu mống mắt không được phân phối bình thường. kaggle.com/saurabh00007/iriscsv
người dùng

Chà, bạn đã kiểm tra% inliers trong iristập dữ liệu thực sự nằm trong 3 sd của centroid chưa? Có khả năng nó vẫn đúng, nó chỉ không tự động làm theo nếu phân phối không bình thường. Có lẽ các tác giả chỉ cần thêm một lớp lót làm rõ điều đó.
smci

Câu trả lời:


12

Dưới đây là trích dẫn đầy đủ:

K-mean, là một thể hiện của Mô hình hỗn hợp Gaussian (GMM), giả định phân phối dữ liệu Gaussian [20] [26]. Sau đó, gần như tất cả các giá trị (chính xác là 99,73%) sẽ có khoảng cách từ điểm đến trung tâm trong 3 độ lệch chuẩn ( ) so với trung bình dân số.σ

Nó xuất hiện trong phần IV.A.

Ứng dụng cho bộ dữ liệu Iris, như bạn lưu ý, không bình thường, được phân phối, xuất hiện trong phần V ("Thử nghiệm").

Tôi không thấy vấn đề logic với việc lưu ý các thuộc tính của thuật toán theo các giả định nhất định, chẳng hạn như tính quy tắc, và sau đó kiểm tra nó trong trường hợp giả định không hợp lệ.

Và tất nhiên, k-mean có thể được áp dụng cho bất kỳ tập dữ liệu nào. Cho dù nó mang lại kết quả hữu ích là một vấn đề khác nhau.


Cảm ơn bạn, giả định điểm có nghĩa trong độ lệch chuẩn có thể được chấp nhận trong một tập dữ liệu phân tán không bình thường?
người dùng

Nó phụ thuộc vào sự phân phối mà bạn giả định.
Stephan Kolassa

bạn có thể giải thích thêm?. Nếu tôi có bộ dữ liệu phân tán bên phải bị lệch, tôi có thể thêm các giá trị ngoại lệ> mean + 4 std và làm theo cùng một giả định của giấy để phát hiện nó không?.
người dùng

Nếu bạn bắt đầu với một giả định phân phối, bạn không thể chỉ "thêm các ngoại lệ". Xác suất "ngoại lệ" phụ thuộc vào phân phối mà bạn đang giả định. (Điều mà một "ngoại lệ" cũng thường bị nghi ngờ.) Nếu một cái gì đó về bài báo không rõ ràng, có lẽ sẽ tốt hơn để tạo ra một câu hỏi mới.
Stephan Kolassa

Lỗi được thêm vào từng tính năng trong bài viết này (5% đến 20% bộ dữ liệu). Trong trường hợp có điều gì đó không rõ ràng về bài viết này, tôi sẽ hỏi một câu hỏi khác. Cảm ơn rất nhiều.
người dùng

7

Tôi không chắc câu hỏi chính xác là gì, nhưng độ lệch chuẩn không chỉ được xác định cho các bản phân phối bình thường. Đó là một biện pháp phù hợp cho tất cả các phân phối dữ liệu. Bạn càng ở xa trung bình (về std) thì điểm này càng khó xảy ra. Điều duy nhất đặc biệt về phân phối bình thường, liên quan đến độ lệch chuẩn là bạn biết xác suất của điểm xảy ra trong vòng 1, 2 hoặc 3 độ lệch chuẩn (ví dụ: bạn biết rằng một điểm có xác suất 99,7% nằm trong độ lệch chuẩn so với giá trị trung bình).±3

Tuy nhiên, điều này không có nghĩa là độ lệch chuẩn không liên quan đến các phân phối khác (có thể chưa biết). Nó vẫn có liên quan, nhưng bạn không biết xác suất liên quan đến nó.


Ý tôi là vậy, nhưng trong tập dữ liệu giấy này thường không được phân phối và vẫn giả sử dữ liệu (99,7% nằm trong phạm vi sai lệch chuẩn 3 so với giá trị trung bình). câu hỏi của tôi liên quan đến điểm này
người dùng

Tôi nghĩ bạn đúng. Giả định này là sai, theo ý kiến ​​của tôi.
CaucM

6
The farther away you are from the mean (in terms of std) the more unlikely this point is to occur.Điều này có thể không đúng với các bản phân phối đa phương thức.
JAD

Bạn biết khả năng một số sự kiện sẽ xảy ra trong vòng 1, 2 hoặc 3 độ lệch chuẩn cho các bản phân phối khác, vì vậy điều đó không thực sự đặc biệt. Một điều đặc biệt là đối với một giá trị trung bình và phương sai nhất định, phân phối bình thường là phân phối có nhiều entropy nhất, vì vậy nếu bạn chỉ biết trung bình và phương sai, bạn sẽ chọn nó theo nguyên tắc entropy tối đa en.wikipedia.org/wiki / Principl_of_maximum_entropy
etarion

Quy tắc này có thể được làm việc cho các phân phối khác?
người dùng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.