Tôi không bao giờ sử dụng nó trực tiếp, vì vậy tôi chỉ có thể chia sẻ một số giấy tờ tôi có và suy nghĩ chung về kỹ thuật đó (chủ yếu giải quyết các câu hỏi 1 và 3 của bạn).
Sự hiểu biết chung của tôi về việc đi xe đạp chủ yếu đến từ các nghiên cứu di truyền (2-6) trong đó chúng tôi tìm cách giải thích các cụm gen và nhóm các cá nhân: nói tóm lại, chúng tôi đang tìm kiếm các nhóm chia sẻ hồ sơ biểu hiện gen tương tự với nhau (điều này có thể liên quan ví dụ như trạng thái bệnh) và các gen đóng góp vào mô hình cấu hình gen này. Một cuộc khảo sát về tình trạng của các bộ dữ liệu sinh học "đồ sộ" có sẵn trong các slide của Pardalos, biclustering . Lưu ý rằng có một gói R, biclust , với các ứng dụng cho dữ liệu microarray.
Trên thực tế, ý tưởng ban đầu của tôi là áp dụng phương pháp này vào chẩn đoán lâm sàng, bởi vì nó cho phép đặt các tính năng hoặc biến trong nhiều cụm, điều này rất thú vị từ nhận thức về semeiological vì các triệu chứng tập hợp lại cho phép xác định hội chứng , nhưng một số triệu chứng có thể chồng chéo trong các bệnh khác nhau. Một cuộc thảo luận tốt có thể được tìm thấy trong Cramer và cộng sự, Độ hấp dẫn : Một viễn cảnh mạng (Khoa học hành vi và não bộ 2010, 33, 137-193).
Một kỹ thuật hơi liên quan là lọc cộng tác . Một đánh giá tốt đã được Su và Khoshgoftaar ( Những tiến bộ trong trí tuệ nhân tạo , 2009) đưa ra: Một khảo sát về kỹ thuật lọc cộng tác . Các tài liệu tham khảo khác được liệt kê ở cuối. Có thể phân tích các mặt hàng thường xuyên , như được minh họa trong vấn đề rổ thị trường , cũng được liên kết với nó, nhưng tôi không bao giờ điều tra điều này. Một ví dụ khác về đồng cụm là khi chúng ta muốn đồng thời phân cụm các từ và tài liệu, như trong khai thác văn bản, ví dụ Dhillon (2001). Các tài liệu và cụm từ đồng cụm bằng cách sử dụng phân vùng biểu đồ phổ bipartite . Proc. KDD , trang 269 Gian274.
Về một số tài liệu tham khảo chung, đây là một danh sách không đầy đủ mà tôi hy vọng bạn có thể thấy hữu ích:
- Jain, AK (2010). Phân cụm dữ liệu: 50 năm vượt K-means . Mẫu thư nhận dạng , 31 , 651 Từ666
- Carmona-Saez và cộng sự. (2006). Tạo khối của dữ liệu biểu hiện gen bằng cách nhân tố ma trận không âm không trơn tru . BMC Tin sinh học , 7 , 78.
- Prelic et al. (2006). Một so sánh có hệ thống và đánh giá các phương pháp tạo chùm cho dữ liệu biểu hiện gen . Tin sinh học , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio và cộng sự. (2008). Chiếu sáng thông qua việc sắp xếp lại tối ưu các ma trận dữ liệu trong sinh học hệ thống: các phương pháp nghiêm ngặt và các nghiên cứu so sánh . BMC Tin sinh học , 9 , 458.
- Santamaria et al. (2008). BicOverlapper: Một công cụ để trực quan hóa đèn chùm . Tin sinh học , 24 (9) , 1212-1213.
- Các thuật toán bicluster của Madeira, SC và Oliveira, AL (2004) để phân tích dữ liệu sinh học: một cuộc khảo sát . IEEE Trans. Tính toán. Biol. Sinh học. , 1 , 24 Ném45.
- Badea, L. (2009). Các cụm tổng quát cho các cụm sao chồng chéo . IJCAI
- Symeonidis, P. (2006). Bộ lọc cộng tác gần nhất của bicluster . WEBKDĐ