Một thói quen để chọn eps và minPts cho DBSCAN


13

DBSCAN là thuật toán phân cụm được trích dẫn nhiều nhất theo một số tài liệu và nó có thể tìm thấy các cụm hình dạng tùy ý dựa trên mật độ. Nó có hai tham số eps (như bán kính lân cận) và minPts (như các lân cận tối thiểu để coi một điểm là điểm cốt lõi) mà tôi tin rằng nó phụ thuộc nhiều vào chúng.

Có bất kỳ phương pháp thường xuyên hoặc thường được sử dụng để chọn các tham số này?


1
Lưu ý rằng có một câu hỏi tương tự trên Stack Overflow : Chọn eps và minpts cho DBSCAN (R)?
gung - Phục hồi Monica

Câu trả lời:


11

Có rất nhiều ấn phẩm đề xuất phương pháp để chọn các tham số này.

Đáng chú ý nhất là OPTICS, một biến thể DBSCAN không có tham số epsilon; nó tạo ra một kết quả phân cấp mà gần như có thể được xem là "chạy DBSCAN với mọi epsilon có thể".

Đối với minPts, tôi khuyên bạn không nên dựa vào một phương thức tự động, mà dựa vào kiến thức tên miền của bạn .

Một thuật toán phân cụm tốt các tham số, cho phép bạn tùy chỉnh nó theo nhu cầu của bạn.

Một tham số mà bạn bỏ qua là hàm khoảng cách. Điều đầu tiên cần làm cho DBSCAN là tìm một hàm khoảng cách tốt cho ứng dụng của bạn . Đừng dựa vào khoảng cách Euclide là tốt nhất cho mọi ứng dụng!


Mặc dù người dùng có thể chọn chức năng khoảng cách, tôi nghi ngờ đó là một tham số.
Mehraban

1
Tất nhiên là thế rồi. Đó là một tham số giống như hàm kernel cho bất kỳ phương thức kernel nào khác (trên thực tế bạn có thể nhân hóa DBSCAN theo cách này), và theo kinh nghiệm của tôi, các khoảng cách khác như Canberra hoặc Clark có thể cải thiện đáng kể kết quả .
Có QUIT - Anony-Mousse

Tôi không đánh giá thấp ảnh hưởng của hàm khoảng cách đối với việc phân cụm, nhưng tôi nghĩ rằng nó là chung chung, không cụ thể đối với dbscan hoặc mọi thuật toán phân cụm khác; trong khi eps và minPts là các tham số dbscan rõ ràng.
Mehraban

1
Có rất nhiều thuật toán không dựa trên khoảng cách, quá. Và khi bạn coi minPts giống như ví dụ kvề phân loại hàng xóm gần nhất, thì bạn có thể nói tương tự cho tham số minPts. Tôi đoán sự khác biệt chính là về khoảng cách, có một mặc định hợp lý "thường": khoảng cách Euclide; trong khi đối với minPts, giá trị sẽ là dữ liệu cụ thể.
Có QUIT - Anony-Mousse

1
Chính OPTICS sẽ không cung cấp cho bạn các phân vùng, mà là một thứ tự cụm. Để có được các phân vùng, sử dụng trích xuất xi được mô tả trong giấy OPTICS. Xem từng biến thể giấy để hiểu sự khác biệt.
Có QUIT - Anony-Mousse
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.