Bắt đầu với việc đi xe đạp

9

Tôi đã thực hiện một số nghiên cứu trên internet về xe đạp. (Tôi đã đọc bài viết Wiki nhiều lần.) Cho đến nay, dường như có rất ít định nghĩa hoặc thuật ngữ tiêu chuẩn.

Tôi đã tự hỏi nếu có bất kỳ giấy tờ hoặc sách tiêu chuẩn mà bất cứ ai quan tâm đến các thuật toán để tìm thấy những chiếc xe đạp nên đọc.
Có thể nói trạng thái của nghệ thuật trong lĩnh vực này là gì? Tôi bị thu hút bởi khái niệm tìm kiếm những chiếc xe đạp bằng thuật toán di truyền, vì vậy tôi sẽ đánh giá cao những bình luận về cách tiếp cận đó, đặc biệt là trong bối cảnh của những cách tiếp cận khác.
Thông thường trong phân cụm, mục tiêu là phân vùng tập dữ liệu thành các nhóm trong đó mỗi phần tử nằm trong một số nhóm. Các thuật toán bicluster cũng tìm cách đặt tất cả các yếu tố trong một nhóm cụ thể?

clustering data-mining

— Henry B.
nguồn

16

Tôi không bao giờ sử dụng nó trực tiếp, vì vậy tôi chỉ có thể chia sẻ một số giấy tờ tôi có và suy nghĩ chung về kỹ thuật đó (chủ yếu giải quyết các câu hỏi 1 và 3 của bạn).

Sự hiểu biết chung của tôi về việc đi xe đạp chủ yếu đến từ các nghiên cứu di truyền (2-6) trong đó chúng tôi tìm cách giải thích các cụm gen và nhóm các cá nhân: nói tóm lại, chúng tôi đang tìm kiếm các nhóm chia sẻ hồ sơ biểu hiện gen tương tự với nhau (điều này có thể liên quan ví dụ như trạng thái bệnh) và các gen đóng góp vào mô hình cấu hình gen này. Một cuộc khảo sát về tình trạng của các bộ dữ liệu sinh học "đồ sộ" có sẵn trong các slide của Pardalos, biclustering . Lưu ý rằng có một gói R, biclust , với các ứng dụng cho dữ liệu microarray.

Trên thực tế, ý tưởng ban đầu của tôi là áp dụng phương pháp này vào chẩn đoán lâm sàng, bởi vì nó cho phép đặt các tính năng hoặc biến trong nhiều cụm, điều này rất thú vị từ nhận thức về semeiological vì các triệu chứng tập hợp lại cho phép xác định hội chứng , nhưng một số triệu chứng có thể chồng chéo trong các bệnh khác nhau. Một cuộc thảo luận tốt có thể được tìm thấy trong Cramer và cộng sự, Độ hấp dẫn : Một viễn cảnh mạng (Khoa học hành vi và não bộ 2010, 33, 137-193).

Một kỹ thuật hơi liên quan là lọc cộng tác . Một đánh giá tốt đã được Su và Khoshgoftaar ( Những tiến bộ trong trí tuệ nhân tạo , 2009) đưa ra: Một khảo sát về kỹ thuật lọc cộng tác . Các tài liệu tham khảo khác được liệt kê ở cuối. Có thể phân tích các mặt hàng thường xuyên , như được minh họa trong vấn đề rổ thị trường , cũng được liên kết với nó, nhưng tôi không bao giờ điều tra điều này. Một ví dụ khác về đồng cụm là khi chúng ta muốn đồng thời phân cụm các từ và tài liệu, như trong khai thác văn bản, ví dụ Dhillon (2001). Các tài liệu và cụm từ đồng cụm bằng cách sử dụng phân vùng biểu đồ phổ bipartite . Proc. KDD , trang 269 Gian274.

Về một số tài liệu tham khảo chung, đây là một danh sách không đầy đủ mà tôi hy vọng bạn có thể thấy hữu ích:

Jain, AK (2010). Phân cụm dữ liệu: 50 năm vượt K-means . Mẫu thư nhận dạng , 31 , 651 Từ666
Carmona-Saez và cộng sự. (2006). Tạo khối của dữ liệu biểu hiện gen bằng cách nhân tố ma trận không âm không trơn tru . BMC Tin sinh học , 7 , 78.
Prelic et al. (2006). Một so sánh có hệ thống và đánh giá các phương pháp tạo chùm cho dữ liệu biểu hiện gen . Tin sinh học , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio và cộng sự. (2008). Chiếu sáng thông qua việc sắp xếp lại tối ưu các ma trận dữ liệu trong sinh học hệ thống: các phương pháp nghiêm ngặt và các nghiên cứu so sánh . BMC Tin sinh học , 9 , 458.
Santamaria et al. (2008). BicOverlapper: Một công cụ để trực quan hóa đèn chùm . Tin sinh học , 24 (9) , 1212-1213.
Các thuật toán bicluster của Madeira, SC và Oliveira, AL (2004) để phân tích dữ liệu sinh học: một cuộc khảo sát . IEEE Trans. Tính toán. Biol. Sinh học. , 1 , 24 Ném45.
Badea, L. (2009). Các cụm tổng quát cho các cụm sao chồng chéo . IJCAI
Symeonidis, P. (2006). Bộ lọc cộng tác gần nhất của bicluster . WEBKDĐ

— chl
nguồn

1

Câu trả lời chính xác. Nếu tôi có một phiếu bầu khác, tôi sẽ bỏ phiếu cho câu trả lời này một lần nữa.

— Henry B.

@chl Liên kết đầu tiên đến các slide Pardalos dường như đã chết. Có ai biết một vị trí thay thế?

— Erik

@Erik Hầu hết các tài liệu từ các slide có thể được tìm thấy trong Công cụ tạo khối nhất quán thông qua lập trình Fractional 0 Đạn1 của cùng một tác giả. (Tôi đã kiểm tra nội dung của các slide bằng bản sao của liên kết chết.)

— chl 15/03/13

4

Đây là một khảo sát / đánh giá tốt:

Stanislav Busygin, Oleg Prokopyev và Panos M. Pardalos. Khai thác dữ liệu trong khai thác dữ liệu . Nghiên cứu về Máy tính & Hoạt động, 35 (9): 2964 Hay2987, tháng 9 năm 2008.

— kc2001
nguồn