Cơ học đằng sau sự sai lệch từ phân phối ngẫu nhiên


8

Hệ thống chúng tôi đang nghiên cứu là sinh học, cụ thể hơn là phân phối các sự kiện tổn hại DNA được lập trình trên một nhiễm sắc thể. Điều này có thể được coi là mảng 1D (nhiễm sắc thể) qua đó các điểm có thể được chọn (các vị trí thiệt hại có chủ ý). Chúng tôi đã lập bản đồ vị trí của các sự kiện này bằng thực nghiệm và ban đầu hỏi liệu chúng có phù hợp với phân phối ngẫu nhiên hay không - nghĩa là, thiệt hại có thể xảy ra tại bất kỳ điểm nào dọc theo nhiễm sắc thể với cơ hội như nhau và bất kỳ vị trí thiệt hại nào đều độc lập với nhau. Bằng cách tạo các bản phân phối ngẫu nhiên trên MATLAB (randi), điều này hóa ra không phải là trường hợp.

Bằng cách phân tích khoảng cách giữa các điểm (IPD) từ cả dữ liệu thực và mô hình hóa, dữ liệu thực được xem là lệch khỏi phân phối ngẫu nhiên chỉ dưới một kích thước IPD nhất định, trước khi nối lại phân phối ngẫu nhiên ở trên nó, tức là có ít hơn IPD ngắn hơn so với dự kiến ​​trong dữ liệu thực.

nhập mô tả hình ảnh ở đây

Ví dụ kết quả IPD:

nhập mô tả hình ảnh ở đây

Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)

Các IPD được vẽ ở đây trên trục Y log và chỉ đơn giản là theo thứ tự tăng dần như thể nó là một biểu đồ. Như bạn có thể thấy bên dưới một kích thước IPD nhất định (trục Y), đường màu xanh lệch khỏi đường màu đỏ.

Giả thuyết mà chúng tôi đang thử nghiệm (có cơ sở sinh học hợp lý) là vị trí của một sự kiện phụ thuộc vào những sự kiện đã được hình thành. Cụ thể, ngay khi một trang web được chọn, nó sẽ gọi một vùng đàn áp xung quanh nó, làm cho khu vực xung quanh ít có khả năng được chọn làm trang web tiếp theo. Điều này có hiệu quả loại bỏ các sự kiện và giải thích sự vắng mặt của IPD ngắn hơn. Vùng này giảm dần về cường độ khi bạn càng rời xa điểm đã chọn - giải thích sự trở lại độc lập trên một khoảng cách IPD nhất định.

nhập mô tả hình ảnh ở đây

Câu hỏi : Có phương pháp toán học nào mà chúng ta có thể rút ra hình dạng của vùng này từ các bộ dữ liệu ngẫu nhiên và thực không? Ví dụ, bằng cách tính toán sức mạnh của nó (khả năng đi chệch khỏi sự ngẫu nhiên) tại mỗi điểm cho đến khi hiệu ứng của nó không còn được nhìn thấy nữa?

Hình dạng và tỷ lệ của hình tam giác trong sơ đồ trên là điều chính tôi đang cố gắng đạt được (nó không nhất thiết phải là hình tam giác).

Chúng tôi có một mô hình thứ hai mô phỏng giả thuyết này - và mang lại kết quả đầy hứa hẹn tuy nhiên chúng tôi cần hướng dẫn về hình dạng, tỷ lệ, v.v. của khu vực đàn áp, nếu không thì thử nghiệm và lỗi và nhiều thông số + cửa sổ khác nhau có thể phù hợp.


Tôi đã thấy một cái gì đó tương tự được thực hiện trước đó bằng cách ghép các IPD vào biểu đồ, điều chỉnh hàm xác suất gamma và sau đó chuyển đổi hàm này thành hàm nguy hiểm nhưng tôi không phải là nhà toán học và tôi không biết liệu đây có phải là phương pháp đúng hay không nó

Tôi phần lớn làm việc trong MATLAB vì vậy nếu ai đó có thể cung cấp một số trợ giúp dưới dạng MATLAB, điều đó sẽ rất tuyệt - nhưng bất kỳ trợ giúp nào cũng sẽ được đánh giá cao nhất.

Dữ liệu được sử dụng trong cốt truyện:

Real IPDs:

7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Modelled IPDs:

6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091

Phương pháp bạn đề xuất là một cách tiêu chuẩn để phân phối phù hợp. Tôi không rõ liệu thời gian có quan trọng với bạn hay không, mặc dù có vẻ như vậy, trong trường hợp đó bạn có thể xử lý một quy trình không đồng nhất. Điều này sẽ phức tạp hơn.
mandata

Tôi không chắc chắn tôi hoàn toàn hiểu những gì bạn đang hỏi về thời gian. Bạn có thể giải thích?
AnnaSchumann

"Khu vực này dần dần tiêu tan giải thích sự trở lại độc lập trên một khoảng cách IPD nhất định." Bạn có quan tâm về điều này?
mandata

Bạn có thể mô tả một chút hiện tượng của bạn? Bạn đang đo lường cái gì? Ngoài ra, có vẻ như "ngẫu nhiên" bạn có nghĩa là một phân phối nhất định mà bạn có trong tâm trí. Biến có thể là ngẫu nhiên nhưng từ một phân phối khác, có thể tạo ra các đuôi mỏng hơn bạn mong đợi.
Aksakal

@mandata Lời xin lỗi của tôi - đây là từ kém. Tôi đã cập nhật nó thông qua một chỉnh sửa. Tôi có nghĩa là cường độ của khu vực giảm dần khi bạn đi xa hơn từ một điểm đã chọn - không phải là nó tiêu tan theo thời gian.
AnnaSchumann

Câu trả lời:


3

Vấn đề là bạn đã giả định một phân phối ngẫu nhiên nhất định của IPD và nó không phù hợp với phân phối theo kinh nghiệm. Vì vậy, việc xây dựng câu hỏi của bạn hơi khó hiểu khi đưa ra lời giải thích mà bạn đưa ra cho đến nay. "Độ lệch" không phải từ sự ngẫu nhiên, mà là sự phân bố theo kinh nghiệm từ lý thuyết giả định.

Bạn tạo các vị trí , trong đó 0 và 1000 là giới hạn. Do đó, IPD là.Δ x i = | x i - x i - 1 |xiU(0,1000)Δxi=|xixi1|

Chúng tôi có thể tìm thấy xác suất vô điều kiện của một IPD nhỏ cho bất kỳ nhỏ nào đã cho
ε > 0

P(Δxi)<ε
ε>0 như sau:

P(Δxi)<ε=ε500ε21,000,000

Đây là một phân phối đặc biệt. Đây là các hàm tích lũy và mật độ của nó:nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Trục x là IPD và trục y là các hàm xác suất tích lũy (trái) và mật độ (phải).

Như bạn có thể thấy sự lựa chọn mô hình của mình (tức là hàm randi), ngụ ý rằng xác suất của một khoảng cách nhỏ là khá cao, cao hơn nhiều so với IPD lớn. Hiện tượng sinh học của bạn có lẽ không phù hợp với mô hình này. Bạn đã thử một số mô hình khác.


Ban đầu, chúng tôi đã thử nghiệm để xem liệu các bản phân phối được xác định bằng thực nghiệm của chúng tôi có khớp với phân phối ngẫu nhiên hay không. Họ không - và chúng tôi biết điều này. Chúng tôi hiện đang cố gắng xây dựng một mô hình mới bằng cách sử dụng giả thuyết được nêu trong OP (có cơ sở sinh học cụ thể cho nó). Vấn đề chính chúng ta gặp phải là nhiều tổ hợp hình dạng / tỷ lệ cho vùng áp chế phù hợp với dữ liệu - và chúng ta cần biết cái nào là chính xác do đó tôi đang hỏi liệu có thể lấy được hình dạng / tỷ lệ từ bộ dữ liệu không.
AnnaSchumann

@AnnaSchumann, hãy tìm phân phối có mật độ thấp hơn cho đuôi trái so với phân phối đồng nhất gây ra. Chẳng hạn, nếu bạn nhận thấy có một chế độ trong phân phối IPD, thì bạn có thể bắt đầu với Poisson, Neg Binomial, Logn normal hoặc thậm chí bình thường chỉ để xem liệu sự phù hợp có tốt hơn không.
Aksakal

Cảm ơn! Tôi sẽ xem bây giờ. Các nhãn trục trên biểu đồ trong câu trả lời trên của bạn là gì? Tôi không chắc chắn tôi hiểu họ đầy đủ.
AnnaSchumann

@AnnaSchumann, đã cập nhật câu trả lời
Aksakal

Các xác suất của các kích thước IPD nhất định có phụ thuộc vào số lượng được chọn bởi randi trong mỗi lần lặp không? Trong hệ thống của chúng tôi, chúng tôi thường có ranh giới khá lớn nhưng có lẽ sẽ chỉ chọn 3-5 trang web sự kiện. Có cách nào để mô hình hóa các phân phối xác suất cho số lượng trang web khác nhau được chọn không?
AnnaSchumann
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.