Tôi muốn mã hóa một kmeans clustering trong python bằng cách sử dụng gấu trúc và scikit tìm hiểu. Để chọn k tốt, tôi muốn viết mã thống kê Gap từ Tibshirani và al 2001 ( pdf ).
Tôi muốn biết liệu tôi có thể sử dụng kết quả quán tính từ scikit và điều chỉnh công thức thống kê khoảng cách mà không phải mã hóa lại tất cả các phép tính khoảng cách.
Có ai biết công thức quán tính được sử dụng trong scikit / biết một cách dễ dàng để mã hóa lại thống kê khoảng cách bằng cách sử dụng các hàm khoảng cách mức cao không?
Tôi nghĩ rằng câu hỏi này có đủ nội dung thống kê để trở thành chủ đề cho CV, nhưng lưu ý rằng nó cũng đòi hỏi kiến thức lập trình & Python khá phức tạp. Có thể rất khó để có được một câu trả lời tốt. Bạn cũng có thể muốn yêu cầu / sẵn sàng giải quyết mã giả , & / hoặc bạn có thể cần chia câu hỏi này thành 2 phần, 1 ở đây về các khía cạnh thống kê & 1 phần về Stack Overflow về các khía cạnh lập trình Python. (Hoặc có thể là không, tôi không biết chắc chắn, nhưng tôi chỉ muốn đưa ra cảnh báo công bằng cho bạn; chúng tôi sẽ xem mọi chuyện diễn ra như thế nào.)
—
gung - Tái lập Monica
Câu hỏi này cần thuật ngữ "quán tính" được xác định. Có vẻ như nó được đặt bên trong
—
ttnphns
python
.