Hiện tượng này được gọi là gì?


8

Dưới đây là biểu đồ của một số dữ liệu, các thùng là số nguyên các tham số khác không liên quan.

Phân phối chồng chéo

Như bạn có thể thấy dường như có hai phân phối bình thường riêng biệt nhưng chồng chéo cho các số lẻ và chẵn.

Xác suất là số chẵn là 1/3, tương tự 2/3 cho số lẻ.

Tôi không biết ý nghĩa thống kê thực tế của việc này là trung thực vì vậy tôi đang cố gắng tìm hiểu xem nó là gì để tìm hiểu thêm, nhưng tôi không thể tìm thấy bất cứ điều gì, tôi đã thử rất nhiều thuật ngữ tìm kiếm để tìm thấy điều này và thậm chí tìm kiếm hình ảnh ngược nhưng tất cả những gì tôi nhận được là thông tin về các bản phân phối đa phương thức, v.v. và tôi không thể tìm thấy bất cứ điều gì khi phân phối đa phương thức thực sự trùng lặp theo cách này

có phải có một cái tên cho thứ này?

Đối với những người quan tâm, dữ liệu là từ 1.000.000 trò chơi ngẫu nhiên của goofspiel (N = 13) bằng cách sử dụng tập lệnh MATLAB

N = 1000000;
random = zeros(1,N);
for i = 1 : N
    pc = randperm(13);
    p1 = randperm(13);
    p2 = randperm(13);
    random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')

Một ví dụ tổng quát hơn (mặc dù nhân tạo) sẽ là như sau

a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
    if(d(i)) 
        c(i) = b(i);
    end
end
bar(c)

Ví dụ chung

Giống như ví dụ đầu tiên có hai phân phối chồng chéo (hình tam giác và bình thường), nhưng trong trường hợp này thay vì xen kẽ ở mỗi điểm, điều đó là ngẫu nhiên.

Tôi biết đây là một ví dụ phóng đại (và thậm chí không phải là biểu đồ) nhưng phải có ví dụ về loại điều này thực sự xảy ra với dữ liệu thống kê phải không? Sau đó, một lần nữa có thể không, hoặc nó hoàn toàn không liên quan?

Câu hỏi thực tế là hai lần:
Câu hỏi chung - Loại "điều" này được gọi là gì, nếu có gì? - để tôi (hoặc bất kỳ ai khác có thể bắt gặp nó) có thể tìm hiểu thêm về nó và nếu cần điều chỉnh.
Câu hỏi vì nó liên quan cụ thể đến tập dữ liệu đầu tiên của tôi - tôi có nên tách các giá trị lẻ và chẵn hoặc phù hợp với phân phối bình thường cho toàn bộ tập hợp không?


Trông giống như một số mô hình hỗn hợp thú vị, trong đó pdf là 1/3 (pdf của evens) +2/3 (pdf của tỷ lệ cược). Tôi không biết làm thế nào để phân phối bình thường vào đó bởi vì nó rõ ràng không liên tục.
Huy Phạm

Chính xác câu hỏi là gì? Bạn dường như mô phỏng một số dữ liệu, theo một số phân phối lạ, nhưng vấn đề chính xác là gì?
Tim

1
@Tim Tôi đã chỉnh sửa nó để rõ ràng hơn một chút. Tôi cho rằng tôi theo giả định rằng điều này ít hiếm hơn nó, và đã được nghiên cứu trước đây. Nếu đó không phải là trường hợp thì câu hỏi chỉ đơn giản là làm thế nào tôi sẽ mô tả / mô hình hóa việc phân phối bộ dữ liệu đầu tiên của tôi
Benjamin Tilbury

@BenjaminTilbury liên quan đến câu hỏi cuối cùng của bạn. Bạn có thể dễ dàng điều chỉnh đường cong mật độ bình thường hơn vào biểu đồ khi bạn tăng kích thước thùng lên hai. Một cách tiếp cận khác là để phù hợp với phân phối tích lũy. Tùy chọn bạn chọn là một chút tùy thuộc vào những gì bạn sẽ làm với nó. Có thể sự quan tâm của bạn là nhiều hơn trong chức năng phân phối tích lũy.
Sextus Empiricus

Nó được gọi là "răng cưa." Các mẫu Moire là một trong (rất nhiều) ví dụ.
whuber

Câu trả lời:


4

Câu trả lời này không phải là câu trả lời trực tiếp cho câu hỏi của bạn, bởi vì nó liên quan đến một nguyên nhân khác của mẫu.

Nhưng nó không liên quan đến cùng một giao diện đồ họa, và do đó tôi đăng nó dưới dạng câu trả lời chứ không phải bình luận (trước khi đọc tập lệnh Matlab của bạn, tôi thực sự nghĩ rằng mô hình trong biểu đồ của bạn là do nguyên nhân khác nhau này).


Câu hỏi của bạn khiến tôi xem lại một biểu đồ mà tôi đã vẽ trong một câu trả lời cho một câu hỏi gần đây.

minh họa cũ

Tôi đã sử dụng binsize 1, trong khi khoảng cách giữa các kết quả (rời rạc) là 0,538. Làm cho các thanh của biểu đồ đôi khi được vẽ với các số đếm cho một giá trị thay vì đếm cho hai giá trị.

Sau khi điều chỉnh kích thước thùng, biểu đồ xuất hiện điển hình hơn

minh họa mới

Trong trường hợp này, chúng ta có thể gọi mẫu này là mẫu Moiré , đó là sự xuất hiện của các dải sáng và tối nhân tạo do sự sai lệch của hai thang đo rời rạc.

Tuy nhiên, trong trường hợp của bạn, mẫu định kỳ không phải là hiệu ứng nhân tạo trong biểu đồ mà là một hành vi thực sự định kỳ trong hàm khối lượng xác suất. Dù sao, tôi nghĩ thật hữu ích khi đề cập đến mẫu Moiré liên quan này.


2
Nếu bạn google một chút xung quanh bạn sẽ tìm thấy nhiều biểu đồ với các mẫu moiré tương tự. Ví dụ về vấn đề này SAS viết blog này bài viết về các cuộc điều tra chim hay này bài viết về căng thẳng
Sextus Empiricus

-1

Xin lỗi, tôi không biết tên đã được thiết lập, nhưng để giải quyết câu hỏi thứ hai của bạn:

Tôi có nên phân tách các giá trị lẻ và chẵn hoặc phù hợp với phân phối bình thường cho toàn bộ tập hợp không?

Tôi nghĩ bạn nên tách chúng ra. Phân tích của bạn đã phát hiện ra rằng yếu tố / yếu tố dự đoán quan trọng nhất là nếu đầu vào là số lẻ hoặc chẵn, do đó, để hợp nhất chúng sẽ làm mờ cả hai bản phân phối và làm cho chúng ít hữu ích hơn (*).

*: Tất nhiên, nó thực sự phụ thuộc vào định nghĩa của bạn hữu ích. Tôi đang tiếp cận nó từ quan điểm của bạn có một số đầu vào và muốn tạo một mô hình để dự đoán một số đầu ra. Một khi chúng ta biết nó có ý nghĩa, tôi muốn đưa ra mô hình gợi ý rằng tính chẵn lẻ của một / một số đầu vào có vấn đề.

Nhân tiện, như trong câu trả lời của Martijn Weterings, khi tôi có biểu đồ lởm chởm như thế này trước đây, nó có liên quan đến việc lựa chọn kích thước thùng. Nó khiến tôi nhận ra rằng thử nghiệm với kích thước bin vẫn là một công cụ khác trong hộp công cụ Lying With Stats :-)


Kính gửi downvoter: bạn có không đồng ý với bất cứ điều gì cụ thể không? Nếu vậy, xin vui lòng giáo dục tôi.
Darren Cook
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.