Xét nghiệm Kolmogorov-Smirnov?


8

Tôi đang nghiên cứu sự xáo trộn do giao thông tàu đến một con chim biển nhỏ. Tôi quan sát động vật đầu mối trong một khoảng thời gian xác định và ghi lại xem chúng có bay từ mặt nước hay không trong quá trình quan sát. Loài chim đặc biệt này không bay với xác suất cao khi không bị quấy rầy (khoảng 10% thời gian). Sau khi học, tôi đã nối thêm khoảng cách với con tàu gần nhất cho mọi quan sát (tàu quan tâm có bộ định vị GPS ghi lại một điểm cứ sau 5 giây).

Tôi đã vẽ đồ thị hàm phân phối tích lũy cho TẤT CẢ các quan sát và cho các quan sát nơi con chim bay từ mặt nước như một hàm của khoảng cách đến con tàu gần nhất. Đúng như dự đoán, phần lớn các quan sát trong đó con chim bay được quan sát khi con tàu gần.

cốt truyện ecdf, bay, không bay, tất cả quan sát

Tôi có thể sử dụng thử nghiệm Kolmogorov-Smirnov để kiểm tra xem có sự khác biệt thống kê nào trong việc phân phối các quan sát chuyến bay và tổng quan sát không? Tôi nghĩ là nếu hai bản phân phối này khác nhau thì nó sẽ gợi ý rằng khoảng cách tàu có ảnh hưởng đến chuyến bay. Tôi lo lắng vì các chức năng phân phối này không độc lập vì các quan sát chuyến bay là một tập hợp con của tổng số các quan sát.

Suy nghĩ?

Đã đọc thêm một chút trên trang web này, tôi nghĩ rằng tôi có thể kiểm tra sự phân phối của các quan sát trong đó chuyến bay xảy ra (F) chống lại sự phân phối của các quan sát mà nó không (NF) vì chúng là độc lập. Nếu các phân phối này là cùng F = NF, thì chúng ta có thể giả sử rằng phân phối của (F) và (TOT = tất cả các quan sát) giống như chúng ta biết rằng phân phối của (F) bằng với chính nó và (F) + (T) = (TOT). Đúng?

CẬP NHẬT: 2/12/14

Theo các gợi ý từ @Scortchi, tôi đã điều tra mối quan hệ của tỷ lệ chuyến bay so với khoảng cách đến con tàu gần nhất trong khuôn khổ hồi quy logistic. Có mối quan hệ nhỏ hiện tại (độ dốc âm) nhưng giá trị p là không đáng kể cho thấy độ dốc thực sự có thể bằng không. Dựa trên các số liệu thống kê mô tả (bao gồm các lô ecdf) tôi nghi ngờ rằng tác động của những con tàu gần bị nhấn chìm bởi nhiều quan sát khi con tàu không ảnh hưởng đến hành vi. Sau đó, tôi đã sử dụng gói R được phân đoạn ( http://cran.r-project.org/web/packages/segmented/segmented.pdf) để thử và tìm một điểm dừng trong mô hình. Chương trình đã phát hiện ra rằng việc phá vỡ dữ liệu ở cách tàu 2,6 km và lắp hai hệ số riêng biệt là tốt hơn so với mô hình hệ số đơn. Hệ số độ dốc của phương pháp tiếp cận tàu gần là âm và cho thấy tàu ảnh hưởng đến phản ứng bay cho đến khoảng 2,6 km (giá trị p <0,001). Hệ số cho độ dốc thứ hai hơi dương nhưng giá trị p không đáng kể ở mức 0,05 alpha (p-value = 0,11). Vì vậy, tóm lại, đường hồi quy được phân đoạn có thể phát hiện chênh lệch ngưỡng mà tại đó xác suất chuyến bay tăng. Ước tính xác suất của chuyến bay khi con tàu xa hơn 2,6 km là 0,11. Một cách phù hợp, tôi quan sát 79 con chim khi không có tàu ngay cả trong khoang nghiên cứu (>

Cảm ơn tất cả những lời đề nghị. Tôi hy vọng câu hỏi này cùng với các gợi ý và câu trả lời giúp người khác.


Tại sao không hồi quy logistic với bay / không bay như phản ứng, và khoảng cách đến tàu gần nhất như dự đoán?
Scortchi - Phục hồi Monica

Tôi đã thử điều đó. Việc đánh chặn là đáng kể nhưng độ dốc thì không. Có quá nhiều tiếng ồn (chuyến bay) trong dữ liệu ở khoảng cách không liên quan đến sinh học. Đây là chuyến bay tự nhiên xảy ra ở loài này. Tôi đang cố gắng xác định khoảng cách mà con tàu ảnh hưởng đến chuyến bay để tôi có thể nhóm các quan sát là "trong sự hiện diện" hoặc "trong sự vắng mặt" của tàu. Tôi nghĩ rằng khoảng cách tối đa hoặc điểm tại đó thống kê D được tính toán có thể giúp tôi tiến gần hơn đến mục tiêu đó.
marcellt

2
Ý tưởng tồi - xem ở đây . Và sử dụng biến trả lời để quyết định nơi phá vỡ một biến liên tục là đặc biệt xấu, sai lệch các ước tính hệ số. Bạn đã kiểm tra độ cong trong mối quan hệ của logit của phản ứng với người dự đoán chưa?
Scortchi - Phục hồi Monica

1
Không có gì sai với thử nghiệm của bạn (F so với NF) hoặc với việc xác định khoảng cách mà các ECDF cách xa nhau nhất; nhưng (a) sử dụng dữ liệu của bạn để xác định các nhóm kiểm soát và điều trị, sau đó thử nghiệm / mô hình hóa cùng một dữ liệu trên các nhóm đó là không hợp lệ; (b) trừ khi bạn thực sự nghĩ rằng có một khoảng cách mà chim không bị ảnh hưởng & trong đó chúng bị ảnh hưởng, đó là một cách tồi để mô hình hóa nó ngay cả đối với dữ liệu trong tương lai; (c) với sự khác biệt rõ ràng giữa các ECDF, một hồi quy logistic được chỉ định phù hợp sẽ cho thấy ảnh hưởng đáng kể của khoảng cách tàu đến xác suất bay.
Scortchi - Phục hồi Monica

1
(i) Bạn thực sự không muốn so sánh (A vs A + B) vì bạn mất tính độc lập của cả hai và bất kỳ bài kiểm tra nào cũng sẽ phải điều chỉnh cho điều đó (sẽ rất khó trong nhiều trường hợp). Kiểm tra A vs B và giữ độc lập. Không có bài kiểm tra tiêu chuẩn nào sẽ hoạt động khác. (ii) bạn muốn tránh phân biệt các yếu tố dự đoán nếu có thể tránh được.
Glen_b -Reinstate Monica

Câu trả lời:


1

Vấn đề thú vị. Tôi có hai suy nghĩ, một chung và một về cách mô tả dữ liệu của bạn ...

Đầu tiên, liên quan đến việc so sánh các bản phân phối, tôi đồng ý với @Glen_b và @Scortchi rằng bạn không muốn so sánh Fly vs All như trong biểu đồ của bạn (nhưng ý tưởng hay để phủ lên âm mưu của thống kê D). Bởi vì bạn có niềm tin mãnh liệt về nơi phân phối có thể khác nhau, và không chỉ là chúng khác nhau, bạn có thể muốn xem xét so sánh lượng tử của hai phân phối. Có một bài đăng blog hay về chủ đề hoạt động thông qua mã R để phát triển phương pháp thử nghiệm. Và có một gói R, WRS , thực hiện các phương pháp thử nghiệm dựa trên lượng tử.

Thứ hai, tôi sẽ cân nhắc bỏ hoàn toàn việc sử dụng một bài kiểm tra so sánh chính thức và thay vào đó sử dụng Trọng số bằng chứng (WOE). Cách tiếp cận này thường được sử dụng trong các ngành cần khung quyết định xử lý các mức độ rủi ro khác nhau trên các yếu tố dự đoán khác nhau. Ví dụ bao gồm bảo lãnh bảo hiểm, đánh giá tín dụng và thử nghiệm lâm sàng.

Trong cài đặt của bạn có một "rủi ro" cơ bản của chuyến bay (bạn đã nói 10%), nhưng tỷ lệ chuyến bay dường như tăng lên rất nhiều khi có sự hiện diện của tàu ở những khoảng cách nhất định. Sử dụng phương pháp WOE, bạn có thể truyền đạt sự thay đổi về tỷ lệ bay theo chức năng của khoảng cách tàu, điều này dễ hiểu đối với khán giả (tốt, ít nhất là dễ hơn so với hiểu giá trị p liên quan đến thống kê kiểm tra). Lưu ý rằng điều này có liên quan chặt chẽ với đề xuất của @ Scortchi để sử dụng hồi quy logistic, nhưng với WOE, bạn không cố gắng phù hợp với mô hình hồi quy.

một tài liệu hay trên trang web của Statistica để áp dụng phương pháp này, nhưng phần giới thiệu tốt nhất tôi tìm thấy là trong một cuốn sách Ghi điểm tín dụng, Mô hình phản hồi và Xếp hạng bảo hiểm: Hướng dẫn thực tế để dự báo hành vi của người tiêu dùng . Nếu bạn tìm kiếm cụm từ "WOE", bạn sẽ thấy nhiều phần thảo luận về ý tưởng và phần 5.1 sẽ trình bày một ví dụ hoàn chỉnh về tính toán WOE (khá dễ dàng) và đánh giá kết quả để ra quyết định. Cuối cùng, lưu ý rằng có một bài đăng stackoverflow về chủ đề này, không được phát triển lắm, nhưng có một liên kết đến PDF đi qua một ví dụ khác trong bối cảnh mã hóa SAS.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.