Tôi đã có một vấn đề mà tôi nghĩ là đơn giản nhưng không thể tìm ra nó. Tôi đang xem xét sự thụ phấn của hạt giống, tôi có các cây (n = 36) ra hoa theo cụm, tôi lấy mẫu 3 cụm hoa từ mỗi cây và 6 vỏ hạt từ mỗi cụm (tổng cộng 18 hạt từ mỗi cây). Một quả có thể có từ 0 đến tối đa 4 hạt thụ phấn. Vì vậy, dữ liệu được tính, với một giới hạn trên. Tôi đang tìm thấy trung bình ~ 10% hạt giống được thụ phấn, nhưng bất cứ nơi nào có từ 1 - 30% trên một cây nhất định, do đó, dữ liệu phân tán, và tất nhiên, có 4 cụm sao bị thiếu trên 3 cây, vì vậy không đối xứng hoàn hảo .
Câu hỏi tôi đặt ra là liệu dữ liệu này có hỗ trợ cho ý tưởng mà nhà máy này yêu cầu thụ phấn cho bộ hạt giống hay không.
Tôi thấy rằng sự phân bố số lượng hạt trong một quả trông giống như có nhiều 0 hạt giống được thụ phấn (6-9 quả trong số 16) và nhiều hơn 3 và 4 vỏ hạt được thụ phấn (2-4 cho mỗi hạt) được mong đợi nếu hạt giống trong quần thể chỉ được thụ phấn ngẫu nhiên. Về cơ bản, tôi nghĩ đây là ví dụ kinh điển cho dữ liệu bị thổi phồng bằng 0, đầu tiên một con côn trùng có hoặc không ghé thăm bông hoa (một máy tạo không) và nếu có, thì sẽ thụ phấn 0-4 hạt trong phân phối khác. Giả thuyết thay thế là cây tự sinh một phần, và sau đó người ta hy vọng rằng mọi hạt giống sẽ có xác suất thụ phấn giống nhau (dữ liệu này cho thấy cơ hội xấp xỉ 0,1, có nghĩa là 0,01 cơ hội cho hai hạt trong cùng một quả, v.v.) .
Nhưng tôi chỉ đơn giản muốn chứng minh dữ liệu phù hợp nhất với một hoặc phân phối khác, chứ không thực sự LÀM ZIP hoặc ZINB trên dữ liệu. Tôi nghĩ rằng bất kỳ phương pháp nào tôi sử dụng nên tính đến số hạt thụ phấn thực tế và số lượng quả được lấy mẫu trên mỗi cây. Điều tốt nhất tôi nghĩ ra là làm một số loại dây đeo khởi động trong đó tôi chỉ định ngẫu nhiên số lượng hạt được thụ phấn cho một cây nhất định vào số vỏ hạt tôi đã lấy mẫu, thực hiện 10.000 lần và xem khả năng của nó là bao nhiêu dữ liệu thực nghiệm cho nhà máy nhất định được đưa ra từ phân phối ngẫu nhiên đó.
Tôi chỉ cảm thấy có một cái gì đó về việc này sẽ dễ dàng hơn rất nhiều so với việc khởi động vũ lực, nhưng sau nhiều ngày suy nghĩ và tìm kiếm, tôi đã từ bỏ. Tôi không thể chỉ so sánh với phân phối Poisson vì nó bị giới hạn trên, nó không phải là nhị thức vì tôi cần tạo phân phối dự kiến bằng cách nào đó. Có suy nghĩ gì không? Và tôi đang sử dụng R, vì vậy, lời khuyên ở đó (đặc biệt là cách tạo ra 10.000 quả bóng phân phối ngẫu nhiên của n quả bóng thành 16 hộp, mỗi hộp có thể chứa tối đa 4 quả bóng) sẽ được chào đón nhất.
THÊM 9/07/2012 Đầu tiên, cảm ơn tất cả các bạn đã quan tâm và giúp đỡ. Đọc qua các câu trả lời đã khiến tôi suy nghĩ để điều chỉnh lại câu hỏi của mình một chút. Điều tôi đang nói là tôi có một giả thuyết (mà bây giờ tôi đang nghĩ là null) rằng hạt giống được thụ phấn ngẫu nhiên trên các quả và giả thuyết thay thế của tôi là một hạt giống có ít nhất 1 hạt được thụ phấn có nhiều hạt thụ phấn hơn mong đợi bởi một quá trình ngẫu nhiên. Tôi đã cung cấp dữ liệu thực từ ba nhà máy làm ví dụ để minh họa cho những gì tôi đang nói. Cột đầu tiên là # hạt được thụ phấn trong một quả, cột thứ hai là tần số của quả có số hạt đó.
cây 1 (tổng 3 hạt: thụ phấn 4%)
num.seệt :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
cây 2 (tổng số 19 hạt: thụ phấn 26%)
num.seệt :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
cây 3 (tổng số 16 hạt: thụ phấn 22%)
num.seệt :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
Ở cây số 1, chỉ có 3 hạt được thụ phấn trong 18 quả, một quả có một hạt và một quả có hai hạt. Nghĩ về quá trình thêm một hạt vào vỏ một cách ngẫu nhiên, hai hạt đầu tiên mỗi hạt đi vào vỏ riêng của chúng, nhưng đối với hạt thứ 3, có 6 điểm có sẵn trong các hạt đã có một hạt nhưng 64 điểm trong 16 vỏ không có hạt, nên xác suất cao nhất của một quả có 2 hạt ở đây là 6/64 = 0,094. Đó là một chút thấp, nhưng không thực sự cực đoan, vì vậy tôi muốn nói rằng loại cây này phù hợp với giả thuyết về sự thụ phấn ngẫu nhiên trên tất cả các hạt giống với khả năng thụ phấn xảy ra ~ 4%. Nhưng thực vật 2 có vẻ cực hơn đối với tôi, với 4 quả được thụ phấn hoàn toàn, nhưng 12 quả không có gì. Tôi không chắc chắn làm thế nào để tính trực tiếp tỷ lệ cược của phân phối này (do đó ý tưởng bootstrap của tôi) nhưng tôi đoán tỷ lệ phân phối này xảy ra ngẫu nhiên nếu mỗi hạt giống có ~ 25% cơ hội thụ phấn là khá thấp. Nhà máy số 3 Tôi thực sự không có ý kiến gì, tôi nghĩ rằng có nhiều hơn 0 và 3 so với dự kiến phân phối ngẫu nhiên nhưng cảm giác ruột của tôi là phân phối cho số lượng hạt này nhiều hơn so với phân phối cho nhà máy số 2, và có thể không phải là không thể. Nhưng rõ ràng tôi muốn biết chắc chắn, và trên tất cả các nhà máy. Tôi nghĩ rằng có nhiều hơn 0 và 3 so với người ta mong đợi cho một phân phối ngẫu nhiên nhưng cảm giác ruột của tôi là phân phối cho số hạt này nhiều khả năng hơn phân phối cho nhà máy số 2, và có thể không phải là không thể. Nhưng rõ ràng tôi muốn biết chắc chắn, và trên tất cả các nhà máy. Tôi nghĩ rằng có nhiều hơn 0 và 3 so với người ta mong đợi cho một phân phối ngẫu nhiên nhưng cảm giác ruột của tôi là phân phối cho số hạt này nhiều khả năng hơn phân phối cho nhà máy số 2, và có thể không phải là không thể. Nhưng rõ ràng tôi muốn biết chắc chắn, và trên tất cả các nhà máy.
Cuối cùng, tôi đang tìm cách viết một tuyên bố giống như Việc phân phối hạt thụ phấn trong vỏ hạt phù hợp (hoặc không phù hợp) với giả thuyết rằng thực vật không chỉ đơn giản là tự tương thích một phần, mà đòi hỏi phải có sự thăm dò của người thụ phấn để tạo ra hạt giống. (kết quả kiểm tra thống kê). Đây thực sự chỉ là một phần trong phần tìm kiếm phía trước của tôi, nơi tôi đang nói về những thí nghiệm sẽ tiến hành tiếp theo, vì vậy tôi không tuyệt vọng vì đây là điều này hay điều khác, nhưng tôi muốn tự mình biết, nếu có thể. Nếu tôi không thể làm những gì tôi đang cố gắng làm với dữ liệu này, tôi cũng muốn biết điều đó!
Ban đầu tôi đã hỏi một câu hỏi khá rộng, vì tôi tò mò liệu có hay không có bất kỳ thử nghiệm tốt nào để hiển thị nếu dữ liệu nên đi vào một mô hình thổi phồng bằng không ngay từ đầu. Tất cả các ví dụ mà tôi từng thấy dường như nói - Nhìn, có rất nhiều số không ở đây, và có một lời giải thích hợp lý cho điều đó, vì vậy hãy sử dụng một mô hình thổi phồng bằng không. Đó là những gì tôi đang làm ngay bây giờ trên diễn đàn này, nhưng tôi đã có một trải nghiệm ở chương cuối cùng của tôi, nơi tôi đã sử dụng glm Poisson cho dữ liệu đếm và một trong những người giám sát của tôi nói rằng Không, quá phức tạp và không cần thiết, dữ liệu này nên đi vào một bảng dự phòng, sau đó gửi cho tôi một kết xuất dữ liệu của bảng dự phòng lớn được tạo bởi gói thống kê đắt tiền của họ, đưa ra các giá trị p giống nhau cho tất cả các yếu tố của tôi + tương tác đến ba chữ số có nghĩa !! Vì vậy, tôi đang cố gắng để giữ cho các số liệu thống kê rõ ràng và đơn giản, và đảm bảo rằng tôi hiểu chúng đủ tốt để bảo vệ mạnh mẽ các lựa chọn của mình, điều mà tôi không cảm thấy mình có thể làm cho một mô hình thổi phồng bằng không ngay bây giờ. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. mà tôi không cảm thấy tôi có thể làm cho một mô hình thổi phồng bằng không ngay bây giờ. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. mà tôi không cảm thấy tôi có thể làm cho một mô hình thổi phồng bằng không ngay bây giờ. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng. Tôi đã sử dụng cả quasibinomial (cho toàn bộ thực vật để loại bỏ pesudoreplicaiton) và một mô hình hỗn hợp cho dữ liệu trên để so sánh các phương pháp điều trị và trả lời các câu hỏi thử nghiệm chính của tôi, dường như cũng làm cùng một công việc, nhưng tôi cũng sẽ chơi xung quanh với ZINB tối nay, để xem nó hoạt động tốt như thế nào. Tôi nghĩ rằng nếu tôi có thể chứng minh rõ ràng rằng dữ liệu này được phân cụm mạnh mẽ (hoặc không bị thổi phồng) lúc đầu, sau đó cung cấp một lý do sinh học tốt cho việc đó xảy ra, tôi sẽ được thiết lập tốt hơn để rút ZINB sau đó, hơn là chỉ cần so sánh một mô hình với một mô hình quasibinomial / hỗn hợp và tranh luận vì nó cho kết quả tốt hơn, đó là những gì tôi nên sử dụng.
Nhưng tôi không muốn phân tâm quá nhiều từ câu hỏi chính của mình, làm cách nào để xác định xem dữ liệu của tôi có thực sự bị thổi phồng hơn so với dự kiến từ một phân phối ngẫu nhiên không? Trong trường hợp của tôi, câu trả lời cho điều đó là điều tôi quan tâm thực sự, với lợi ích có thể có cho việc biện minh cho mô hình là một phần thưởng.
Cảm ơn một lần nữa cho tất cả thời gian của bạn và giúp đỡ!
Chúc mừng, BWGIA