Thuật toán phân loại dựa trên khoảng cách trung bình từ điểm kiểm tra đến điểm trong mỗi lớp


7

Có thuật toán phân loại nào gán một vectơ kiểm tra mới cho cụm điểm có khoảng cách trung bình là tối thiểu không?

Hãy để tôi viết nó tốt hơn: Hãy tưởng tượng rằng chúng ta có Kmỗi cụm điểm. Với mỗi cụm k, tôi tính trung bình của tất cả các khoảng cách giữa và , trong đó là một điểm trong cụm .Tkx(0)x(i)x(i)k

Điểm kiểm tra được gán cho cụm với khoảng cách tối thiểu như vậy.

Bạn có nghĩ rằng đây là một thuật toán phân loại hợp lệ? Về lý thuyết, nếu cụm "được hình thành tốt" như bạn có sau khi ánh xạ phân biệt đối xử được đánh dấu tuyến tính, chúng ta sẽ có thể có độ chính xác phân loại tốt.

Bạn nghĩ gì về thuật toán này? Tôi đã thử nhưng kết quả là việc phân loại rất thiên về cụm có số lượng phần tử lớn nhất.

def classify_avg_y_space(logging, y_train, y_tests, labels_indices):
    my_labels=[]
    distances=dict()
    avg_dist=dict()
    for key, value in labels_indices.items():
        distances[key] = sk.metrics.pairwise.euclidean_distances(y_tests, y_train[value])
        avg_dist[key]=np.average(distances[key], axis=1)

    for index, value in enumerate(y_tests):
      average_distances_test_cluster = { key : avg_dist[key][index] for key in labels_indices.keys() }
      my_labels.append(min(average_distances_test_cluster, key=average_distances_test_cluster.get))
    return my_labels

Nó được gọi là chuyển nhượng. Bất kỳ chức năng khoảng cách nào giữa điểm và chức năng liên kết lớp (xem stats.stackexchange.com/a/217742/3277 ) đều có thể được sử dụng, không chỉ giữa liên kết trung bình những gì bạn đang sử dụng. Tôi đã triển khai một chức năng cho SPSS, được gán bởi các chức năng liên kết khác nhau.
ttnphns

Câu trả lời:


9

Đó là một ý tưởng hay, nhưng có một lỗ hổng lớn - nó quá nhạy cảm với sự lan truyền của dữ liệu.

Để làm rõ câu hỏi, đưa ra k rời cụm C1,,Ck, bạn hỏi liệu có hợp lý để phân loại một mẫu mới không x theo quy tắc

argmini[k]1|Ci|xCixx

Lưu ý rằng quy tắc này thực sự giống với quy tắc tồn tại như các thuật toán nổi tiếng, như thực tế là 1-Hàng xóm gần nhất hoặc mà được gọi , nhưng được sử dụng bởi k-Phương tiện giao cụm và có thể được nhìn thấy trong LDA trong trường hợp hiệp phương sai cơ bản ma trận là danh tính (lên đến vô hướng). (Lưu ý rằng nói chung, LDA cũng tính đến hình dạng [lây lan + định hướng] của các cụm).

argmini[k]minxCixx
argmini[k]1|Ci|xCixx
sklearnNearestCentroid

Trong nhiều trường hợp, quy tắc đề xuất sẽ hành xử tương tự NearestCentroid, đặc biệt là nếu các cụm được phân tách tốt và có phương sai tương tự (trong trường hợp đó, tôi nghĩ có thể giới hạn khoảng cách trung bình theo khoảng cách từ tâm).

Tuy nhiên, vì nó tính trung bình khoảng cách trên tất cả các điểm trong cụm, nên nó thiên vị một cách rõ ràng đối với các cụm có phương sai thấp. Tôi tin là nguồn gốc thực sự của sự hiểu lầm mà bạn nhận thấy.

Để minh họa hiệu ứng này, chúng ta có thể vẽ ranh giới quyết định của các phân loại. Lô đang trơ trẽn dựa trên sklearn's dụ .

nhập mô tả hình ảnh ở đây

Trong cốt truyện trước, tôi đã tạo hai bộ dữ liệu từ các bản phân phối bình thường khác nhau. Màu tím đến từ và màu vàng đến từ Sau đó, mỗi điểm trong không gian được tô màu theo quy tắc. Đường phân cách các vùng là ranh giới quyết định. Có 200 điểm trong cụm màu tím và 50 điểm trong cụm màu vàng. Các điểm đánh dấu trọng tâm của từng cụm. Lưu ý rằng cụm màu tím không được căn chỉnh với các trục để nhấn mạnh sự khác biệt giữa LDA và Centroid gần nhất.

N((03),(10221)2)
N((03),(1001))
+

Đây là một minh họa tuyệt vời về một điểm không trực quan. Cảm ơn, và chào mừng đến với CV!
Stephan Kolassa

+1 Rất hay, tuy nhiên tôi bối rối bởi cốt truyện phía trên bên trái của bạn. Centroid gần nhất phải có ranh giới quyết định vuông góc với đường nối giữa hai centroid. Điều này dường như không phải là trường hợp.
amip

Hãy mô tả hình ảnh trong câu trả lời, đặc biệt, đường ranh giới giữa hai khu vực là gì.
ttnphns

@amoeba Bạn nói đúng. Nhưng, lưu ý rằng trục không cùng tỷ lệ (vì cùng lý do cụm màu vàng không có dạng hình tròn).
tmrlvi

@ttnphns Đường ranh giới giữa hai khu vực là ranh giới quyết định. Tôi đã thêm mô tả trong bài.
tmrlvi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.