Đánh giá các cụm chuỗi Markov bậc nhất


10

Tôi gom dữ liệu của tôi gồm vài nghìn chuỗi Markov đặt hàng đầu tiên vào khoảng 10 cụm.

Có một số cách được đề xuất làm thế nào tôi có thể đánh giá các cụm này và tìm hiểu những gì các mục trong cụm chia sẻ và chúng khác với các cụm khác như thế nào? Vì vậy, tôi có thể đưa ra tuyên bố như "Các quy trình trong cụm A có xu hướng ở trạng thái Y một khi chúng đến đó, điều này không đúng với các quy trình trong các cụm khác."

Ma trận chuyển tiếp của các chuỗi Markov đó quá lớn để chỉ "nhìn và thấy". Họ tương đối thưa thớt, nếu điều đó có thể giúp đỡ.

Ý tưởng của tôi là lấy tất cả các ma trận chuyển tiếp trong một cụm, tính tổng chúng và vẽ nó theo cường độ trong một bức tranh (theo tỷ lệ từ 0 đến 255). Có cái gì "chuyên nghiệp" hơn tôi nên thử không?


Bạn có biết rằng các quy trình này là chuỗi thị trường đặt hàng đầu tiên (và, nếu vậy, làm thế nào)? Giả sử câu trả lời cho điều này là khẳng định, thì bạn biết thêm thông tin tiên nghiệm nào về cấu trúc? Tôi đang cố gắng xác định lý do tại sao bạn quan tâm đến việc phân cụm ở nơi đầu tiên; Tôi nghi ngờ biết điều này sẽ giúp độc giả của chúng tôi hướng dẫn bạn hiệu quả hơn cho một giải pháp.
Đức hồng y

Dữ liệu ban đầu là các dòng nhấp chuột được tạo bởi người dùng trên trang web của tôi. Tôi đã tạo các quy trình markov để mỗi quy trình là để mô tả dòng nhấp chuột của một người dùng. Tôi biết có những cuốn sách và giấy tờ nói rằng chuỗi markov không đủ cho việc này, nhưng dữ liệu của tôi không bao gồm URL chính xác mà người dùng yêu cầu, chỉ là "ứng dụng" mà URL thuộc về. (Trang web của tôi là một hệ thống thông tin được chia thành 105, được gọi là "ứng dụng", phần lớn là các phần độc lập của trang web, được liên kết thông qua trang chủ và menu bên trên mỗi trang)
user7610

Tôi quan tâm đến việc phân cụm vì tôi muốn tiết lộ các nhóm người dùng có mô hình tương tự trong việc sử dụng trang web. Tôi đã đưa ra giả thuyết rằng các mẫu mà chuỗi Markov chụp được là đủ để phân biệt các nhóm như vậy. Tôi đã kiểm tra cách các cụm tôi tạo tương ứng với các vai trò mà người dùng có trên trang web và nó luôn trông giống như trong một cụm có rất nhiều người dùng từ một vai trò và chỉ một cặp từ các vai trò khác, do đó có vẻ đầy hứa hẹn. Hy vọng rằng sẽ giúp
user7610

Xin chào, tôi đang gặp vấn đề tương tự. Cuối cùng, bạn đã giải quyết vấn đề như thế nào?
nan

@ Nam Tôi không có, tôi cần điều này chỉ trong một dự án dài hạn, vì vậy tôi chỉ đơn giản là làm một cái gì đó khác. Nếu tôi phải giải quyết nó ngay bây giờ, tôi sẽ thử xem en.wikipedia.org/wiki/iêu để phân cụm ban đầu. t-SNE là siêu phổ biến hiện nay và IMO phù hợp. Tôi hy vọng rằng kết quả mà tôi nhận được sẽ có ý nghĩa hơn kết quả tôi nhận được với phương pháp tiếp cận đặc biệt của mình. Và sử dụng thứ siêu mát mẻ tương đối mới sẽ làm hài lòng giáo viên;)
user7610

Câu trả lời:


1

Để đưa ra tuyên bố về hành vi trạng thái ổn định của từng cụm, bạn có thể tính toán phân phối trạng thái ổn định của từng ma trận chuyển tiếp theo các hàm riêng, sau đó so sánh các ô hình hộp theo cụm. Bạn có thể gặp vấn đề trong việc tính toán trạng thái ổn định mà không áp dụng một số cách làm mịn trước.

Làm thế nào bạn phân cụm các ma trận chuyển tiếp? Nếu là tôi, tôi sẽ áp dụng làm mịn phụ gia cho từng hàng, sau đó lấy biến đổi tỷ lệ log trung tâm của mỗi hàng sau đó làm phẳng các ma trận.

Nếu bạn đang phân cụm với phương tiện K hoặc một biến thể, bạn có thể phân tích các trung tâm cụm được chuẩn hóa. Hoặc chỉ cần chọn một vài quan sát từ mỗi cụm và phân tích chúng.


0

Đầu tiên, để có được một ý tưởng, ma trận của bạn có kích thước 105 x 105, có tương ứng với các ứng dụng mà bạn đề cập không? Khi bạn nói 'ở trong trạng thái Y', điều đó có nghĩa là dính xung quanh ứng dụng Y?

Sau đó, tôi sẽ giả định rằng các kết quả như "Các quy trình trong cụm A có xu hướng ở trạng thái Y một khi chúng đến đó, điều này không đúng với các quy trình trong các cụm khác" là quá nhỏ chỉ với 10 cụm. Bạn đã thử phân cụm miền ứng dụng chưa - nếu tôi hiểu chính xác, bạn có thể phân cụm 105 ứng dụng dựa trên hành vi của người dùng. Tiếp theo, bạn đã xem sự hiện diện đơn giản của người dùng thay vì chuyển đổi, tức là xem hồ sơ của người dùng trên 105 ứng dụng? Nghe có vẻ như bạn có thể sử dụng hệ số Pearson giữa các hồ sơ người dùng; hoặc trên các cụm ứng dụng, hoặc trên chính các ứng dụng. Điều này có lẽ có thể được mở rộng theo hướng chuyển đổi giữa các ứng dụng, nhưng hiện tại tôi cảm thấy có sự không phù hợp lớn giữa số lượng cụm và loại kết quả mà bạn quan tâm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.