Đánh giá tầm quan trọng của sự khác biệt trong phân phối


21

Tôi có hai nhóm dữ liệu. Mỗi loại có một phân phối khác nhau của nhiều biến. Tôi đang cố xác định xem các bản phân phối của hai nhóm này có khác nhau theo cách có ý nghĩa thống kê hay không. Tôi có dữ liệu ở cả dạng thô và được xử lý dễ dàng hơn để xử lý các danh mục riêng biệt với số lượng tần số trong mỗi loại.

Những thử nghiệm / thủ tục / phương pháp nào tôi nên sử dụng để xác định xem hai nhóm này có khác nhau đáng kể hay không và làm cách nào để thực hiện điều đó trong SAS hoặc R (hoặc Orange)?


2
Bạn có quan tâm đến việc các bản phân phối có dạng khác nhau (ví dụ: bình thường, poisson, v.v.) hoặc liệu các tham số có khác nhau không (ví dụ: trung bình hoặc sd của phân phối bình thường) hoặc cả hai?
Jeromy Anglim

Câu trả lời:


15

Tôi tin rằng điều này đòi hỏi một bài kiểm tra Kolmogorov hạ Smirnov hai mẫu , hoặc tương tự. Thử nghiệm KolmogorovTHER Smirnov hai mẫu dựa trên việc so sánh sự khác biệt trong các hàm phân phối theo kinh nghiệm (ECDF) của hai mẫu, có nghĩa là nó nhạy cảm với cả vị trí và hình dạng của hai mẫu. Nó cũng khái quát ra một hình thức đa biến.

Thử nghiệm này được tìm thấy ở nhiều dạng khác nhau trong các gói khác nhau trong R, vì vậy nếu bạn thành thạo về cơ bản, tất cả những gì bạn phải làm là cài đặt một trong số chúng (ví dụ: fBasics ) và chạy nó trên dữ liệu mẫu của bạn.


5
Đối với R ks.test trong gói "thống kê" mặc định có thể tiến hành kiểm tra KS mà không cần cài đặt các gói bổ sung.
russellpierce

Trong SAS, kiểm tra KS có sẵn trong proc npar1way. Trong R, ngoài ra ks.test(), còn có nortestgói cung cấp một số thử nghiệm điều chỉnh khác.
chl

8

Tôi sẽ hỏi câu hỏi ngớ ngẩn của nhà tư vấn. Tại sao bạn muốn biết nếu các phân phối này là khác nhau theo một cách có ý nghĩa thống kê?

Có phải dữ liệu mà bạn đang sử dụng là các mẫu đại diện từ các quần thể hoặc quy trình và bạn muốn đánh giá bằng chứng cho thấy các quần thể hoặc quy trình đó khác nhau không? Nếu vậy, một bài kiểm tra thống kê là phù hợp với bạn. Nhưng đây có vẻ là một câu hỏi lạ đối với tôi.

Hoặc, bạn có quan tâm đến việc bạn có thực sự cần phải cư xử như thể những quần thể hoặc quá trình đó là khác nhau, bất kể sự thật không? Sau đó, bạn sẽ tốt hơn khi xác định hàm mất, lý tưởng nhất là trả về các đơn vị có ý nghĩa với bạn và dự đoán tổn thất dự kiến ​​khi bạn (a) coi các quần thể là khác nhau và (b) coi chúng là như nhau. Hoặc bạn có thể chọn một số lượng tử của phân phối tổn thất nếu bạn muốn áp dụng một vị trí bảo thủ ít nhiều.


Giọng điệu của bạn hơi khàn khàn và hạ thấp ... nhưng bạn nói đúng, tôi nghĩ những gì tôi thực sự sau đó là liệu tôi có thể cho rằng hai bản phân phối giống nhau hay không.
Jay Stevens

3
Xin lỗi vì bạn không thích giọng điệu của tôi. Nếu bạn muốn biết liệu bạn có thể giả định một cách hợp lý rằng hai phân phối là như nhau hay không, thì KS sẽ đánh lừa bạn, bởi vì nó kiểm tra giả thuyết null rằng hai phân phối là như nhau.
Andrew Robinson

5

Bạn có thể quan tâm đến việc áp dụng các phương pháp phân phối tương đối. Gọi một nhóm là nhóm tham chiếu và nhóm kia là nhóm so sánh. Theo cách tương tự như xây dựng một biểu đồ xác suất xác suất, bạn có thể xây dựng một CDF / PDF tương đối, tỷ lệ của mật độ. Mật độ tương đối này có thể được sử dụng để suy luận. Nếu các bản phân phối giống hệt nhau, bạn mong đợi một bản phân phối tương đối thống nhất. Có các công cụ, đồ họa và thống kê, để khám phá và kiểm tra sự khởi hành từ tính đồng nhất.

Điểm khởi đầu tốt để hiểu rõ hơn là Áp dụng các Phương pháp phân biệt tương đối trong R và gói tin cậy trong R. Để biết chi tiết, bạn sẽ cần tham khảo cuốn sách, Phương pháp phân phối tương đối trong Khoa học xã hội của Handcock và Morris. Ngoài ra còn có một bài báo của các tác giả bao gồm các kỹ thuật có liên quan.


2

Một thước đo cho sự khác biệt giữa hai phân phối là tiêu chí "chênh lệch trung bình tối đa", về cơ bản đo lường sự khác biệt giữa các phương tiện thực nghiệm của các mẫu từ hai phân phối trong Không gian Hạt nhân Tái tạo (RKHS). Xem bài viết này "Một phương pháp hạt nhân cho hai vấn đề mẫu" .


Theo tôi, phương pháp này mạnh nhất nhưng không nổi tiếng vì nó hoạt động tốt như nhau nếu bạn có mẫu hữu hạn cho phân phối của mình (và do đó phân phối mẫu của bạn không hoàn toàn liên tục). Nó cũng hoạt động với các bản phân phối đa phương thức mà đối với thử nghiệm KS vẫn là nghiên cứu tích cực theo như tôi biết
www3

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.