Mô hình hỗn hợp không đối xứng và cụm


8

Tôi có một câu hỏi về các cụm mà tôi đang dự tính để điều trị bằng cách tiếp cận hỗn hợp không theo tỷ lệ (tôi nghĩ). Tôi đang làm việc trên lời giải thích về sự ép buộc của con người.
Mỗi hàng trong cơ sở dữ liệu của tôi chứa:

  1. ID của ai đó
  2. một số thông số của môi trường X (ví dụ: nhiệt độ, gió, v.v.)
  3. một biến nhị phân Y đại diện cho phản ứng của người đó đối với các tham số (ví dụ: bị bệnh hoặc không bị bệnh vì thời tiết).

Ý tưởng của tôi (dựa trên trực giác và không dựa trên dữ liệu) là chúng ta có thể tập hợp mọi người trong một số nhóm hữu hạn để trong một nhóm, mọi người có cùng phản ứng với nhiệt độ (một số dễ bị bệnh, những người khác không bao giờ bị bệnh ...) . Trong một nhóm nhất định, chính thức hơn, định luật Y có điều kiện đối với các tham số X là như nhau.

Tôi không có ý tưởng của pháp luật Y có điều kiện để X . Đối với các tham số X , tôi có thể thực hiện một số giả thuyết nếu cần thiết.

Tôi muốn tạo ra một số nhóm người "có ít nhiều" phản ứng tương tự với tham số. Ngoài ra, tôi muốn dự đoán phản ứng của một người nhất định với một giá trị nhất định của các tham số (ngay cả khi sự kiện này chưa bao giờ xảy ra trong cơ sở dữ liệu).

Dường như với tôi rằng chúng ta có thể xử lý vấn đề như một mô hình hỗn hợp không theo tỷ lệ. Vì tôi không có giả thuyết về luật điều kiện của Y , tôi nghĩ rằng tôi sẽ phải tạo ra nó bằng phương pháp hạt nhân chẳng hạn. Tôi đã tìm thấy bài báo này . Ngoài ra, đối với tôi, trong trường hợp này, mỗi hàng quan sát không phải là một nhận thức đơn giản về một số biến ngẫu nhiên, mà là(Xi,Yi)XiYiXi

Xi

  • Cách tiếp cận của tôi có đúng không?
  • Bạn có thể tư vấn một quan điểm khác cho vấn đề này?

Tôi sẽ rất quan tâm đến bất kỳ tài liệu tham khảo về nó.
Đừng ngần ngại yêu cầu tôi cải cách báo cáo vấn đề.


1
Vì bạn đã gắn nhãn dữ liệu, nó chỉ đơn giản là một vấn đề phân loại có giám sát và cái bạn cần là phân loại nhị phân. Phân loại nào hoạt động "tốt nhất" là vấn đề sở thích cá nhân và vấn đề cụ thể. Chắc chắn, tôi sẽ thử đầu tiên một số tùy chọn tiêu chuẩn (SVM, cây quyết định, v.v.) trước khi thử bất cứ điều gì kỳ lạ hơn.
iliasfl

Trừ khi bạn quan tâm đến cấu trúc của tập hợp, nhận xét của @ iliasfl hoàn toàn hợp lệ: các kỹ thuật học phân loại sẽ làm tốt. Nếu không, bạn nên sử dụng học tập không giám sát. Trước khi thử các mô hình không tham số, bạn có thể thử thuật toán EM đơn giản hơn để tách hỗn hợp Gaussian hoặc chỉ phân cụm k-mean, nếu bạn có thể ước tính số lượng cụm. Sau đó, bạn có thể sử dụng kết quả của nó để phân loại hoặc phân loại lại dữ liệu thô.
Roman Shapovalov

Câu trả lời:


1

Trả lời quan điểm của bạn "Bạn có thể đưa ra quan điểm khác cho vấn đề này không?", Tôi sẽ đề nghị bạn thực sự xem xét dữ liệu của mình. Điều này có thể giúp bạn lập kế hoạch tốt hơn những bước tiếp theo cần làm. Xét cho cùng, hệ thống não-mắt của con người khá tốt trong việc nhận dạng mẫu và bạn có thể quyết định tốt hơn về số lượng cụm, nếu bạn chọn cho một cụm không được giám sát.

Theo đó, và vì dữ liệu của bạn có vẻ "cao", bạn có thể thử thực hiện Phân tích thành phần chính (PCA) vì đây là phân tích rất nhanh, đặc biệt là cho bộ dữ liệu 100 nghìn điểm của bạn. Mặc dù vậy, PCA không phải là cách duy nhất và không nhất thiết là cách tiếp cận phù hợp nhất để giảm kích thước với mục tiêu trực quan hóa (2D / 3D) vì đây là phương pháp tuyến tính, tham số. Dữ liệu của bạn có thể hành xử phi tuyến mặc dù. Tôi có thể đề xuất hộp công cụ giảm kích thước cho Matlab từ Laurens van der Maaten, bao gồm rất nhiều kỹ thuật khác nhau. Tuy nhiên, một số kỹ thuật trong đó vốn đã chậm, vì vậy bạn có thể muốn kiểm tra chúng trên dữ liệu mẫu. Một kỹ thuật giảm kích thước phi tuyến và phi tuyến rất mạnh và gần đây là BH-SNEmà cũng sẽ làm việc cho kích thước tập dữ liệu của bạn, mặc dù có thể mất khoảng 30 phút đến 1 giờ tùy thuộc vào phần cứng có sẵn của bạn. Vì bạn quan tâm đến việc phát hiện các cụm, BH-SNE có thể là một lựa chọn tốt vì nó (và "tiền thân" t-SNE) đã cho thấy hiệu suất ấn tượng trong các liên quan đến các bộ dữ liệu khác nhau (trong bản thảo).

Cuối cùng, giải quyết quan điểm của bạn về dữ liệu liên tục / rời rạc, đây là điều mà tôi chưa có kinh nghiệm về việc điều này ảnh hưởng đến việc giảm kích thước. Theo đó, bạn có thể muốn thử phân biệt các biến liên tục hoặc bỏ qua các biến rời rạc (vài?), Nếu có thể. Ngoài ra, bạn có thể muốn lấy biến nhị phân (phản ứng của người) để mã màu các điểm trong hình ảnh trực quan chiều thấp (2D / 3D).

PS Thực hiện phân cụm theo phân cấp (phân tích liên kết) và xem xét dendrogram kết quả là một cách khác để tạo biểu diễn dữ liệu theo chiều thấp của bạn, có thể giúp bạn ước tính tốt hơn nếu có các cụm và có khả năng có bao nhiêu cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.