Làm thế nào để kiểm tra / chứng minh dữ liệu là không tăng?


9

Tôi đã có một vấn đề mà tôi nghĩ là đơn giản nhưng không thể tìm ra nó. Tôi đang xem xét sự thụ phấn của hạt giống, tôi có các cây (n = 36) ra hoa theo cụm, tôi lấy mẫu 3 cụm hoa từ mỗi cây và 6 vỏ hạt từ mỗi cụm (tổng cộng 18 hạt từ mỗi cây). Một quả có thể có từ 0 đến tối đa 4 hạt thụ phấn. Vì vậy, dữ liệu được tính, với một giới hạn trên. Tôi đang tìm thấy trung bình ~ 10% hạt giống được thụ phấn, nhưng bất cứ nơi nào có từ 1 - 30% trên một cây nhất định, do đó, dữ liệu phân tán, và tất nhiên, có 4 cụm sao bị thiếu trên 3 cây, vì vậy không đối xứng hoàn hảo .

Câu hỏi tôi đặt ra là liệu dữ liệu này có hỗ trợ cho ý tưởng mà nhà máy này yêu cầu thụ phấn cho bộ hạt giống hay không.

Tôi thấy rằng sự phân bố số lượng hạt trong một quả trông giống như có nhiều 0 hạt giống được thụ phấn (6-9 quả trong số 16) và nhiều hơn 3 và 4 vỏ hạt được thụ phấn (2-4 cho mỗi hạt) được mong đợi nếu hạt giống trong quần thể chỉ được thụ phấn ngẫu nhiên. Về cơ bản, tôi nghĩ đây là ví dụ kinh điển cho dữ liệu bị thổi phồng bằng 0, đầu tiên một con côn trùng có hoặc không ghé thăm bông hoa (một máy tạo không) và nếu có, thì sẽ thụ phấn 0-4 hạt trong phân phối khác. Giả thuyết thay thế là cây tự sinh một phần, và sau đó người ta hy vọng rằng mọi hạt giống sẽ có xác suất thụ phấn giống nhau (dữ liệu này cho thấy cơ hội xấp xỉ 0,1, có nghĩa là 0,01 cơ hội cho hai hạt trong cùng một quả, v.v.) .

Nhưng tôi chỉ đơn giản muốn chứng minh dữ liệu phù hợp nhất với một hoặc phân phối khác, chứ không thực sự LÀM ZIP hoặc ZINB trên dữ liệu. Tôi nghĩ rằng bất kỳ phương pháp nào tôi sử dụng nên tính đến số hạt thụ phấn thực tế và số lượng quả được lấy mẫu trên mỗi cây. Điều tốt nhất tôi nghĩ ra là làm một số loại dây đeo khởi động trong đó tôi chỉ định ngẫu nhiên số lượng hạt được thụ phấn cho một cây nhất định vào số vỏ hạt tôi đã lấy mẫu, thực hiện 10.000 lần và xem khả năng của nó là bao nhiêu dữ liệu thực nghiệm cho nhà máy nhất định được đưa ra từ phân phối ngẫu nhiên đó.

Tôi chỉ cảm thấy có một cái gì đó về việc này sẽ dễ dàng hơn rất nhiều so với việc khởi động vũ lực, nhưng sau nhiều ngày suy nghĩ và tìm kiếm, tôi đã từ bỏ. Tôi không thể chỉ so sánh với phân phối Poisson vì nó bị giới hạn trên, nó không phải là nhị thức vì tôi cần tạo phân phối dự kiến ​​bằng cách nào đó. Có suy nghĩ gì không? Và tôi đang sử dụng R, vì vậy, lời khuyên ở đó (đặc biệt là cách tạo ra 10.000 quả bóng phân phối ngẫu nhiên của n quả bóng thành 16 hộp, mỗi hộp có thể chứa tối đa 4 quả bóng) sẽ được chào đón nhất.

THÊM 9/07/2012 Đầu tiên, cảm ơn tất cả các bạn đã quan tâm và giúp đỡ. Đọc qua các câu trả lời đã khiến tôi suy nghĩ để điều chỉnh lại câu hỏi của mình một chút. Điều tôi đang nói là tôi có một giả thuyết (mà bây giờ tôi đang nghĩ là null) rằng hạt giống được thụ phấn ngẫu nhiên trên các quả và giả thuyết thay thế của tôi là một hạt giống có ít nhất 1 hạt được thụ phấn có nhiều hạt thụ phấn hơn mong đợi bởi một quá trình ngẫu nhiên. Tôi đã cung cấp dữ liệu thực từ ba nhà máy làm ví dụ để minh họa cho những gì tôi đang nói. Cột đầu tiên là # hạt được thụ phấn trong một quả, cột thứ hai là tần số của quả có số hạt đó.

cây 1 (tổng 3 hạt: thụ phấn 4%)

num.seệt :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

cây 2 (tổng số 19 hạt: thụ phấn 26%)

num.seệt :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

cây 3 (tổng số 16 hạt: thụ phấn 22%)

num.seệt :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

Ở cây số 1, chỉ có 3 hạt được thụ phấn trong 18 quả, một quả có một hạt và một quả có hai hạt. Nghĩ về quá trình thêm một hạt vào vỏ một cách ngẫu nhiên, hai hạt đầu tiên mỗi hạt đi vào vỏ riêng của chúng, nhưng đối với hạt thứ 3, có 6 điểm có sẵn trong các hạt đã có một hạt nhưng 64 điểm trong 16 vỏ không có hạt, nên xác suất cao nhất của một quả có 2 hạt ở đây là 6/64 = 0,094. Đó là một chút thấp, nhưng không thực sự cực đoan, vì vậy tôi muốn nói rằng loại cây này phù hợp với giả thuyết về sự thụ phấn ngẫu nhiên trên tất cả các hạt giống với khả năng thụ phấn xảy ra ~ 4%. Nhưng thực vật 2 có vẻ cực hơn đối với tôi, với 4 quả được thụ phấn hoàn toàn, nhưng 12 quả không có gì. Tôi không chắc chắn làm thế nào để tính trực tiếp tỷ lệ cược của phân phối này (do đó ý tưởng bootstrap của tôi) nhưng tôi đoán tỷ lệ phân phối này xảy ra ngẫu nhiên nếu mỗi hạt giống có ~ 25% cơ hội thụ phấn là khá thấp. Nhà máy số 3 Tôi thực sự không có ý kiến ​​gì, tôi nghĩ rằng có nhiều hơn 0 và 3 so với dự kiến ​​phân phối ngẫu nhiên nhưng cảm giác ruột của tôi là phân phối cho số lượng hạt này nhiều hơn so với phân phối cho nhà máy số 2, và có thể không phải là không thể. Nhưng rõ ràng tôi muốn biết chắc chắn, và trên tất cả các nhà máy. Tôi nghĩ rằng có nhiều hơn 0 và 3 so với người ta mong đợi cho một phân phối ngẫu nhiên nhưng cảm giác ruột của tôi là phân phối cho số hạt này nhiều khả năng hơn phân phối cho nhà máy số 2, và có thể không phải là không thể. Nhưng rõ ràng tôi muốn biết chắc chắn, và trên tất cả các nhà máy. Tôi nghĩ rằng có nhiều hơn 0 và 3 so với người ta mong đợi cho một phân phối ngẫu nhiên nhưng cảm giác ruột của tôi là phân phối cho số hạt này nhiều khả năng hơn phân phối cho nhà máy số 2, và có thể không phải là không thể. Nhưng rõ ràng tôi muốn biết chắc chắn, và trên tất cả các nhà máy.

Cuối cùng, tôi đang tìm cách viết một tuyên bố giống như Việc phân phối hạt thụ phấn trong vỏ hạt phù hợp (hoặc không phù hợp) với giả thuyết rằng thực vật không chỉ đơn giản là tự tương thích một phần, mà đòi hỏi phải có sự thăm dò của người thụ phấn để tạo ra hạt giống. (kết quả kiểm tra thống kê). Đây thực sự chỉ là một phần trong phần tìm kiếm phía trước của tôi, nơi tôi đang nói về những thí nghiệm sẽ tiến hành tiếp theo, vì vậy tôi không tuyệt vọng vì đây là điều này hay điều khác, nhưng tôi muốn tự mình biết, nếu có thể. Nếu tôi không thể làm những gì tôi đang cố gắng làm với dữ liệu này, tôi cũng muốn biết điều đó!

Ban đầu tôi đã hỏi một câu hỏi khá rộng, vì tôi tò mò liệu có hay không có bất kỳ thử nghiệm tốt nào để hiển thị nếu dữ liệu nên đi vào một mô hình thổi phồng bằng không ngay từ đầu. Tất cả các ví dụ mà tôi từng thấy dường như nói - Nhìn, có rất nhiều số không ở đây, và có một lời giải thích hợp lý cho điều đó, vì vậy hãy sử dụng một mô hình thổi phồng bằng không. Đó là những gì tôi đang làm ngay bây giờ trên diễn đàn này, nhưng tôi đã có một trải nghiệm ở chương cuối cùng của tôi, nơi tôi đã sử dụng glm Poisson cho dữ liệu đếm và một trong những người giám sát của tôi nói rằng Không, quá phức tạp và không cần thiết, dữ liệu này nên đi vào một bảng dự phòng, sau đó gửi cho tôi một kết xuất dữ liệu của bảng dự phòng lớn được tạo bởi gói thống kê đắt tiền của họ, đưa ra các giá trị p giống nhau cho tất cả các yếu tố của tôi + tương tác đến ba chữ số có nghĩa !! Vì vậy, tôi đang cố gắng để giữ cho các số liệu thống kê rõ ràng và đơn giản, và đảm bảo rằng tôi hiểu chúng đủ tốt để bảo vệ mạnh mẽ các lựa chọn của mình, điều mà tôi không cảm thấy mình có thể làm cho một mô hình thổi phồng bằng không ngay bây giờ. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. mà tôi không cảm thấy tôi có thể làm cho một mô hình thổi phồng bằng không ngay bây giờ. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. mà tôi không cảm thấy tôi có thể làm cho một mô hình thổi phồng bằng không ngay bây giờ. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng.

Nhưng tôi không muốn phân tâm quá nhiều từ câu hỏi chính của mình, làm cách nào để xác định xem dữ liệu của tôi có thực sự bị thổi phồng hơn so với dự kiến ​​từ một phân phối ngẫu nhiên không? Trong trường hợp của tôi, câu trả lời cho điều đó là điều tôi quan tâm thực sự, với lợi ích có thể có cho việc biện minh cho mô hình là một phần thưởng.

Cảm ơn một lần nữa cho tất cả thời gian của bạn và giúp đỡ!

Chúc mừng, BWGIA


Tại sao bạn không muốn phù hợp với mô hình nhị thức bằng không?
atiretoo - phục hồi monica

giả thuyết "tự sướng một phần" có độc quyền với giả thuyết "thụ phấn" không? Nếu vậy, mô hình thứ 2 của bạn chỉ đơn giản là mô hình nhị thức với xác suất p và size = 4.
atiretoo - phục hồi monica

Câu trả lời:


5

Đây có vẻ như là một mô hình hỗn hợp tương đối đơn giản (phi tuyến) đối với tôi. Bạn có vỏ hạt được lồng vào các cụm được lồng vào cây và bạn có thể ghép một mô hình nhị thức với các hiệu ứng ngẫu nhiên ở mỗi giai đoạn:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

hoặc với đồng biến nếu bạn có chúng. Nếu hoa tự thụ phấn, thì bạn có thể thấy một số tác động nhẹ do sự thay đổi tự nhiên trong khả năng của cây. Tuy nhiên, nếu hầu hết sự thay đổi trong phản ứng được điều khiển bởi sự biến thiên của cụm, bạn sẽ có bằng chứng mạnh mẽ hơn về sự thụ phấn của côn trùng chỉ có thể ghé thăm các cụm được chọn trên cây. Lý tưởng nhất là bạn muốn có sự phân phối không tham số của các hiệu ứng ngẫu nhiên thay vì Gaussian: khối lượng điểm bằng 0, không có côn trùng ghé thăm và khối lượng điểm ở giá trị dương - đây thực chất là mô hình hỗn hợp mà Michael Chernick nghĩ đến. Bạn có thể phù hợp với điều này với gói GLLAMM Stata, tôi sẽ ngạc nhiên nếu điều này không thể xảy ra ở R.

Có lẽ đối với một thí nghiệm sạch, bạn sẽ muốn có cây bên trong, hoặc ít nhất là ở một vị trí không có côn trùng tiếp cận, và xem có bao nhiêu hạt giống sẽ được thụ phấn. Điều đó có thể sẽ trả lời tất cả các câu hỏi của bạn theo một cách nghiêm ngặt hơn về phương pháp.


Tôi sẽ thử điều này, tôi nghĩ nó sẽ giúp trả lời câu hỏi của riêng tôi, nhưng không chắc nó sẽ thuyết phục người khác như thế nào. Bạn đang chú ý đến phần thứ hai, tôi đang cố gắng suy nghĩ về cách dữ liệu này thông báo cho một thử nghiệm có định hướng hơn trong tương lai.
BWGIA

1

Dường như với tôi rằng đây là một phân phối hỗn hợp cho từng loài côn trùng. Với xác suất p, côn trùng hạ cánh với xác suất 1-p, nó hạ cánh và phân phối 0 đến 4 hạt. Nhưng nếu bạn không có thông tin về việc côn trùng có đậu trên cây hay không, bạn không thể phân biệt hai cách để lấy 0. Vì vậy, bạn có thể đặt p là xác suất cho 0 và sau đó bạn có phân phối đa cực (p1, p2, p3, p4) trong đó pi là xác suất của hạt i cho các côn trùng thụ phấn chịu sự ràng buộc p1 + p2 + p3 + p4 = 1. Mô hình có năm ẩn số p, p1, p2, p3, p4 với ràng buộc 0 = 0 cho mỗi i. Với đủ dữ liệu, bạn có thể ước tính các tham số này có lẽ bằng cách sử dụng phương pháp khả năng tối đa bị hạn chế.


Tôi đồng ý, nhưng câu hỏi không phải là phù hợp với mô hình đó, mà là tạo ra các phân phối dự đoán theo hai giả thuyết sinh học khác nhau. Có lẽ câu trả lời là phù hợp với một ZIB và "một số mô hình khác" phù hợp với giả thuyết về bản thân và so sánh chúng.
atiretoo - phục hồi monica

@atiretoo không phải mô hình cung cấp cho bạn một phân phối ước tính cho số lượng hạt được thụ phấn mà bạn có thể so sánh với phân phối giả định của mình?
Michael R. Chernick

Đồng ý - nếu bạn có các mô hình phù hợp cho 2 giả thuyết.
atiretoo - phục hồi monica

1

Đây là câu trả lời cho phần cuối cùng của câu hỏi của bạn, làm thế nào để nhanh chóng tạo ra dữ liệu bạn muốn cho giả thuyết người thụ phấn:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

Bạn cũng có thể sử dụng rzibinom()trong gói VGAM. Mặc dù tôi không chắc bạn muốn làm gì với nó. Bạn có 2 tham số miễn phí, p1 và p2, cần phải được ước tính. Tại sao không sử dụng mô hình nhị thức bằng 0 để ước tính chúng từ dữ liệu?

Bạn nên xem gói VGAM, phù hợp với các mô hình ZIB trong số các mô hình khác. Trên thực tế, bạn có thể nhận được phân phối dự kiến ​​cho ZIB từ hàm VGAM dzibinom(), mà bạn có thể sử dụng để so sánh phân phối được quan sát của mình với nếu bạn biết các tham số của tham quan và thụ phấn. Một lần nữa, bạn thực sự nên phù hợp với mô hình ZIB.

Nếu giả thuyết tự thân một phần của bạn là độc quyền cho sự thụ phấn của côn trùng, thì phân phối dự kiến ​​chỉ đơn giản là nhị thức và bạn có thể ước tính các tham số với glmial họ nhị phân hoặc có thể là glmm với id thực vật là hiệu ứng ngẫu nhiên. Tuy nhiên, nếu chúng có thể tự một phần VÀ nhận được sự thụ phấn của côn trùng, thì bạn sẽ quay trở lại cần một hỗn hợp hai phân phối nhị thức. Trong trường hợp đó, tôi sẽ điều tra bằng cách sử dụng OpenBUGS hoặc JAGS để phù hợp với mô hình sử dụng MCMC.

Khi bạn có hai mô hình phù hợp với dữ liệu của mình, sau đó so sánh các mô hình để xem mô hình nào phù hợp hơn, sử dụng AIC hoặc BIC hoặc một số số liệu khác bạn chọn.


Cảm ơn atiretoo đó, nhưng việc chạy mã đó dường như tạo ra một số lượng hạt giống ngẫu nhiên cũng như phân phối ngẫu nhiên. Tôi đã nghĩ rằng tôi muốn cố định các hạt giống (ví dụ 19 hạt, xem bên dưới) và sau đó xem khả năng phân phối nhất định cho
nubmer

Opps, nhấn bài quá sớm và tôi có nghĩa là "xem ở trên" khi tôi đã thêm một số thông tin vào câu hỏi của tôi. Tôi tò mò về nhận xét của bạn về việc sử dụng AIC để so sánh các mô hình, tôi có thể làm điều đó trên các mô hình (với cùng một biến trả lời) với các bản phân phối khác nhau không? Tôi nghĩ so sánh AIC chỉ hợp lệ khi bạn thêm / bớt các điều khoản cho một mô hình nhưng với cùng một họ phân phối được chỉ định?
BWGIA

Không, đó là lợi thế chính của AIC so với lựa chọn lạc hậu. Miễn là dữ liệu giống nhau, bạn có thể so sánh AIC giữa các mô hình khác nhau ngay cả khi chúng không được lồng nhau. Bạn phải cẩn thận rằng phần mềm đang tính toán khả năng mà không cần bỏ đi các hằng số, nhưng trong một chức năng duy nhất, bạn có thể so sánh các mô hình không lồng nhau một cách dễ dàng.
atiretoo - phục hồi monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.