Tôi đang kiểm tra một số dữ liệu bao phủ bộ gen về cơ bản là một danh sách dài (vài triệu giá trị) của các số nguyên, mỗi số cho biết vị trí này (hoặc "sâu") trong bộ gen được bao phủ như thế nào.
Tôi muốn tìm "thung lũng" trong dữ liệu này, nghĩa là các khu vực "thấp hơn" đáng kể so với môi trường xung quanh của chúng.
Lưu ý rằng kích thước của các thung lũng tôi đang tìm kiếm có thể dao động từ 50 cơ sở đến vài nghìn.
Loại mô hình nào bạn muốn giới thiệu sử dụng để tìm các thung lũng đó?
CẬP NHẬT
Một số ví dụ đồ họa cho dữ liệu:
CẬP NHẬT 2
Xác định thung lũng là gì tất nhiên là một trong những câu hỏi tôi đang đấu tranh. Đây là những điều hiển nhiên đối với tôi:
nhưng có một số tình huống phức tạp hơn. Nói chung, có 3 tiêu chí tôi xem xét: 1. Độ bao phủ (trung bình? Tối đa?) Trong cửa sổ đối với mức trung bình toàn cầu. 2. Phạm vi (...) trong cửa sổ đối với xung quanh ngay lập tức. 3. Cửa sổ lớn bao nhiêu: nếu tôi thấy vùng phủ sóng rất thấp trong một khoảng ngắn thì thật thú vị, nếu tôi thấy vùng phủ sóng rất thấp trong một khoảng thời gian dài thì cũng thật thú vị, nếu tôi thấy vùng phủ sóng thấp cho một khoảng ngắn thì không thực sự thú vị , nhưng nếu tôi thấy phạm vi bảo hiểm thấp trong một khoảng thời gian dài - đó là .. Vì vậy, đó là sự kết hợp giữa chiều dài của nhựa cây và phạm vi bảo hiểm. Càng để lâu, tôi càng để vùng phủ sóng cao hơn và vẫn coi đó là một thung lũng.
Cảm ơn,
Dave