Giải pháp cho nhận dạng cụm trực tuyến liên tục?


11

Để tôi chỉ cho bạn một ví dụ về ứng dụng phân cụm trực tuyến giả định:

nhập mô tả hình ảnh ở đây

Tại thời điểm n điểm 1,2,3,4 được phân bổ cho cụm A màu xanh lam và các điểm b, 5,6,7 được phân bổ cho cụm màu đỏ B.

Tại thời điểm n + 1, điểm a mới được giới thiệu được gán cho cụm A màu xanh nhưng cũng khiến điểm b cũng được gán cho cụm A màu xanh.

Trong các điểm cuối 1,2,3,4, a, b thuộc về A và điểm 5,6,7 cho B. Đối với tôi điều này có vẻ hợp lý.

Điều có vẻ đơn giản thoạt nhìn thực sự là một chút khó khăn - để duy trì định danh qua các bước thời gian. Hãy để tôi cố gắng làm rõ quan điểm này bằng một ví dụ về đường biên giới hơn:

nhập mô tả hình ảnh ở đây

Điểm màu xanh lá cây sẽ khiến hai điểm màu xanh và hai điểm màu đỏ được hợp nhất thành một cụm mà tôi tự ý quyết định tô màu xanh lam - hãy nhớ rằng đây đã là suy nghĩ heuristic của con người tôi trong công việc!

Một máy tính để đưa ra quyết định này sẽ phải sử dụng các quy tắc. Ví dụ: khi các điểm được hợp nhất thành một cụm thì danh tính của cụm được xác định bởi đa số. Trong trường hợp này, chúng tôi sẽ phải đối mặt với một trận hòa - cả màu xanh và màu đỏ có thể là lựa chọn hợp lệ cho cụm mới (ở đây có màu xanh).

Hãy tưởng tượng một điểm đỏ thứ năm gần với điểm xanh. Sau đó, phần lớn sẽ là màu đỏ (3 đỏ so với 2 xanh) vì vậy màu đỏ sẽ là lựa chọn tốt cho cụm mới - nhưng điều này sẽ mâu thuẫn với lựa chọn màu đỏ rõ ràng hơn cho cụm ngoài cùng bên phải vì những màu đó có màu đỏ và có lẽ nên giữ nguyên như vậy .

Tôi thấy khó chịu khi nghĩ về điều này. Vào cuối ngày, tôi đoán không có quy tắc hoàn hảo nào cho việc này - thay vào đó, heuristic tối ưu hóa một số tiêu chí ổn định.

Điều này cuối cùng dẫn đến câu hỏi của tôi:

  1. "Vấn đề" này có một cái tên mà nó có thể được đề cập đến?
  2. Có giải pháp "chuẩn" nào cho việc này và ...
  3. ... thậm chí có thể có một gói R cho điều đó?

Kế thừa hợp lý các danh tính cụm trong cụm lặp đi lặp lại


Đăng chéo từ số liệu thống kê.stackexchange.com/questions/111911/ Mạnh VÀ stackoverflow: stackoverflow.com/questions/24970702/
trộm

Là vấn đề mà bạn đang cố gắng duy trì danh tính của các cụm càng nhiều càng tốt ở mỗi bước thời gian? Vì vậy, tại N + 1, bạn có thể nói một cụm đã thay đổi như thế nào vì có một số mối quan hệ giữa các cụm tại N và những cụm tại N + 1? Và một chút khó khăn là điều gì sẽ xảy ra nếu các cụm phân tách và hợp nhất?
Spainedman

@Spacesman: BINGO :) joyofdata.de/blog/ từ
Raffael

Tôi mời bạn hãy xem cái nàycái này
farhawa

Câu trả lời:


1

Tiến thoái lưỡng nan về tính ổn định-độ dẻo, tốc độ học tập và quên thuật toán:

Đầu tiên, hãy để tôi nói rằng đây là một câu hỏi thực sự tuyệt vời và là loại công cụ kích thích tư duy thực sự cải thiện sự hiểu biết của một người về thuật toán ML.

  1. "Vấn đề" này có một cái tên mà nó có thể được đề cập đến?

Điều này thường được gọi là "ổn định". Điều thú vị là sự ổn định thực sự là một khái niệm hữu ích trong phân cụm thông thường tức là không trực tuyến. "Độ ổn định" của thuật toán thường được chọn làm tiêu chí lựa chọn cho việc chọn đúng số lượng cụm. Cụ thể hơn, vấn đề ổn định phân cụm trực tuyến mà bạn đã mô tả được gọi là stability-plasticity dilemma.

  1. Có giải pháp "chuẩn" nào cho việc này và ...

Đầu tiên, câu trả lời cho bức tranh lớn là nhiều thuật toán phân cụm trực tuyến ổn định đáng ngạc nhiên khi chúng được đào tạo tốt với một nhóm lớn dữ liệu ban đầu. Tuy nhiên, nó vẫn là một vấn đề nếu bạn muốn thực sự xác định danh tính cụm điểm trong khi cho phép thuật toán phản ứng với dữ liệu mới. Điểm khó của bạn được đề cập ngắn gọn trong phần Giới thiệu về Machine Learning của Ethem Alpaydin. Trên trang 319 , anh ta rút ra thuật toán k-mean trực tuyến thông qua ứng dụng giảm dần độ dốc ngẫu nhiên, nhưng đề cập đến việc stability-plasticity dilemmaphát sinh khi chọn giá trị cho tốc độ học tập. Một tỷ lệ học tập nhỏ dẫn đến sự ổn định, nhưng hệ thống mất khả năng thích ứng trong khi tỷ lệ học tập lớn hơn có được khả năng thích ứng, nhưng mất đi sự ổn định của cụm.

Tôi tin rằng con đường tốt nhất phía trước là chọn triển khai phân cụm trực tuyến cho phép bạn kiểm soát thuật toán giảm độ dốc ngẫu nhiên và sau đó chọn tốc độ học tập để bạn tối đa hóa sự ổn định và khả năng thích ứng tốt nhất có thể bằng cách sử dụng quy trình xác thực chéo âm thanh.

Một phương pháp khác mà tôi đã thấy được sử dụng là một số loại thuật toán quên, ví dụ như quên các điểm cũ hơn khi luồng dữ liệu đáo hạn. Điều này cho phép một hệ thống khá ổn định trên thang thời gian nhanh và cho phép tiến hóa trên thang thời gian chậm hơn. Adaptive Resonance Theoryđược tạo ra để cố gắng giải quyết stability-plasticity dilemma. Bạn có thể thấy bài viết này thú vị.

Tôi không đủ thành thạo về R để đề xuất một thuật toán, nhưng tôi khuyên bạn nên tìm một mini-batch k-meansthuật toán cho phép bạn kiểm soát tốc độ học tập trong thuật toán giảm độ dốc ngẫu nhiên của nó.

Tôi hi vọng cái này giúp được!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.