Nếu tôi đúng, "phân loại không giám sát" cũng giống như phân cụm. Vậy thì có "hồi quy không giám sát" không? Cảm ơn!
Nếu tôi đúng, "phân loại không giám sát" cũng giống như phân cụm. Vậy thì có "hồi quy không giám sát" không? Cảm ơn!
Câu trả lời:
Tôi chưa bao giờ gặp phải thuật ngữ này trước đây. Tôi không chắc liệu nó sẽ phát tán ánh sáng hay bóng tối trong cả hai lĩnh vực thống kê: những người đang học máy (trong đó sự khác biệt được giám sát và không giám sát là trọng tâm để giải quyết vấn đề) và thống kê suy luận (trong đó hồi quy, phân tích xác nhận và NHST thường được sử dụng nhất).
Khi hai triết lý đó trùng lặp, phần lớn hồi quy và thuật ngữ liên quan được đưa ra xung quanh trong một môi trường được giám sát chặt chẽ. Tuy nhiên, tôi nghĩ rằng nhiều khái niệm hiện có trong học tập không giám sát có liên quan chặt chẽ với các phương pháp dựa trên hồi quy, đặc biệt là khi bạn lặp đi lặp lại một cách ngây thơ trên mỗi lớp hoặc tính năng như một kết quả và gộp kết quả. Một ví dụ về điều này là phân tích tương quan PCA và bivariate. Bằng cách áp dụng hồi quy tập hợp con tốt nhất lặp đi lặp lại qua một số biến, bạn có thể thực hiện một loại ước lượng mạng rất phức tạp, như được giả định trong mô hình phương trình cấu trúc (theo đúng nghĩa của EFA). Điều này, với tôi, dường như là một vấn đề học tập không được giám sát với hồi quy.
Tuy nhiên, ước tính tham số hồi quy không phải là phản xạ. Đối với hồi quy tuyến tính đơn giản, hồi quy theo X sẽ cung cấp cho bạn kết quả khác nhau, suy luận khác nhau, và các ước tính khác nhau (thậm chí không nghịch đảo nhất thiết), hơn X khi Y . Trong tâm trí của tôi, sự thiếu giao tiếp này làm cho hầu hết các ứng dụng hồi quy ngây thơ không đủ điều kiện cho các vấn đề học tập không được giám sát.
Điều gần nhất tôi có thể nghĩ đến là một ma thuật đen nhỏ đã khuấy động mọi người khi nó được công bố vài năm trước, nhưng tôi không tin rằng nó đã đạt được bất kỳ lực kéo thực sự nào trong cộng đồng. Các tác giả đã phát triển một thống kê mà họ gọi là "Hệ số thông tin tối đa (MIC)". Ý tưởng chung đằng sau phương pháp của họ là lấy dữ liệu có chiều cao, vẽ từng biến theo từng biến khác theo cặp và sau đó áp dụng thuật toán tạo cửa sổ thú vị cho từng ô (tính toán MIC cho hai biến đó) để xác định xem có có khả năng mối quan hệ giữa hai biến. Kỹ thuật này được cho là mạnh mẽ trong việc xác định các mối quan hệ có cấu trúc tùy ý , không chỉ tuyến tính.
Kỹ thuật này nhắm vào các cặp biến, nhưng tôi chắc chắn rằng nó có thể được mở rộng để điều tra các mối quan hệ đa biến. Vấn đề chính là bạn phải chạy kỹ thuật trên nhiều tổ hợp biến số hơn đáng kể khi bạn cho phép hoán vị ngày càng nhiều biến. Tôi tưởng tượng có thể mất một chút thời gian chỉ với các cặp: cố gắng sử dụng điều này trên dữ liệu chiều cao thậm chí từ xa và xem xét các mối quan hệ phức tạp hơn các cặp biến sẽ trở nên khó điều khiển nhanh.
Tham khảo bài viết Phát hiện các hiệp hội tiểu thuyết trong bộ dữ liệu lớn (2011)
Câu hỏi này xuất hiện trong đầu tôi khi nghiên cứu sự khác biệt giữa các phương pháp được giám sát và không giám sát. Xuất phát từ một nền tảng kinh tế lượng, tôi thích nghĩ về các mô hình, điều này làm chậm sự hiểu biết của tôi vì hầu hết các tài liệu học máy tôi gặp phải tập trung vào các phương pháp.
Những gì tôi đã tìm thấy cho đến nay là một sự phân biệt nghiêm ngặt nên được thực hiện giữa clustering
(không giám sát) so với classification
(giám sát). Sự tương tự liên tục của mối quan hệ giữa các thiết kế mô hình này sẽ là principal component analysis
(không được giám sát) so với linear regression
(được giám sát).
Tuy nhiên, tôi sẽ lập luận rằng mối quan hệ giữa phân cụm và phân loại hoàn toàn là ngẫu nhiên; nó chỉ tồn tại khi chúng ta diễn giải cả hai thiết kế mô hình như mô tả một mối quan hệ hình học, mà tôi thấy hạn chế một cách không cần thiết. Tất cả các phương pháp không giám sát mà tôi biết (phương tiện k, thuật toán bản đồ đàn hồi như kohonen / khí thần kinh, DBSCAN, PCA) cũng có thể được hiểu là các mô hình biến tiềm ẩn. Trong trường hợp các phương thức phân cụm, điều này sẽ tương đương với việc xem thuộc về một cụm ở trạng thái, có thể được mã hóa thành một mô hình biến tiềm ẩn bằng cách đưa ra các hình nộm trạng thái.
Với cách hiểu là các mô hình biến tiềm ẩn, bạn có thể tự do chỉ định bất kỳ mô hình nào, có thể là phi tuyến, mô tả các tính năng của bạn theo các biến tiềm ẩn liên tục.