Công thức quán tính cụm trong scikit tìm hiểu


9

Tôi muốn mã hóa một kmeans clustering trong python bằng cách sử dụng gấu trúc và scikit tìm hiểu. Để chọn k tốt, tôi muốn viết mã thống kê Gap từ Tibshirani và al 2001 ( pdf ).

Tôi muốn biết liệu tôi có thể sử dụng kết quả quán tính từ scikit và điều chỉnh công thức thống kê khoảng cách mà không phải mã hóa lại tất cả các phép tính khoảng cách.

Có ai biết công thức quán tính được sử dụng trong scikit / biết một cách dễ dàng để mã hóa lại thống kê khoảng cách bằng cách sử dụng các hàm khoảng cách mức cao không?


Tôi nghĩ rằng câu hỏi này có đủ nội dung thống kê để trở thành chủ đề cho CV, nhưng lưu ý rằng nó cũng đòi hỏi kiến ​​thức lập trình & Python khá phức tạp. Có thể rất khó để có được một câu trả lời tốt. Bạn cũng có thể muốn yêu cầu / sẵn sàng giải quyết mã giả , & / hoặc bạn có thể cần chia câu hỏi này thành 2 phần, 1 ở đây về các khía cạnh thống kê & 1 phần về Stack Overflow về các khía cạnh lập trình Python. (Hoặc có thể là không, tôi không biết chắc chắn, nhưng tôi chỉ muốn đưa ra cảnh báo công bằng cho bạn; chúng tôi sẽ xem mọi chuyện diễn ra như thế nào.)
gung - Tái lập Monica

1
Câu hỏi này cần thuật ngữ "quán tính" được xác định. Có vẻ như nó được đặt bên trong python.
ttnphns

Câu trả lời:


6

Tôi đoán tôi đã tìm thấy câu trả lời của mình cho cụm kmeans:

I=i(d(i,cr))crd

Wk=r=1k1(2nr)Dr
Drr

+cccrcWk

Tôi vẫn còn hai câu hỏi:

  1. Bạn có nghĩ rằng tính toán của tôi là chính xác? (Ví dụ: tôi không biết nếu nó giữ cho phân cụm phân cấp.)
  2. Nếu tôi đúng ở trên, tôi đã mã hóa thống kê khoảng cách (như sự khác biệt của quán tính log giữa ước tính và phân cụm) và nó hoạt động kém đặc biệt là trên tập dữ liệu mống mắt, có ai đã thử chưa?

2
Tốt nhất là không đặt câu hỏi trong câu trả lời của bạn. Nếu đây không thực sự là câu trả lời cho câu hỏi của bạn, nhưng chỉ là một giải pháp một phần để làm rõ câu hỏi thực sự, tốt hơn là bạn nên chỉnh sửa câu hỏi của mình và dán thông tin này vào.
gung - Rebstate Monica

1
@Scratch bạn đã bao giờ có được một triển khai python của thống kê khoảng cách để làm việc trên tập dữ liệu Iris chưa? Tôi đang vật lộn với vấn đề tương tự.
Zelazny7

Có tôi đã mã hóa một vài tháng trước. Làm thế nào tôi có thể gửi cho bạn điều đó?
Cào

1
Wk=r=1kDr(2nr)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.