Phát hiện mẫu trong biểu đồ phân tán


7

Dưới đây là một biểu đồ phân tán (giới hạn ở mức 10 nghìn đô la) đại diện cho đóng góp trung bình mà một dự án nhận được so với số lượng từ của bài luận yêu cầu tài trợ cho tất cả các dự án được trình bày trong Nhà tài trợ mở Chọn dữ liệu .

số tiền quyên góp so với thời lượng bài luận

Có một mô hình đáng chú ý, mà tôi đã cố gắng để mô tả bằng cách khớp đường cong

f(x)=(axb)2

thông qua thao tác tham số thủ công. Tuy nhiên, tôi muốn biết các cách khác để tiếp cận mô hình hóa hoặc tìm các mẫu / mối quan hệ trong dữ liệu trông như thế này.


Đây là sự chênh lệch thúc đẩy tôi tìm kiếm các phương pháp khác:

Trong ví dụ chính tắc cho hồi quy tuyến tính, các điểm phân tán là độ lệch so với đường cong. Trong ví dụ này, điều đó rõ ràng không phải là trường hợp, vì có vẻ như các điểm được nhóm lại dưới một số khu vực.


2
Dữ liệu của bạn có chứa các số 0 chính xác trong biến y không? Còn biến x thì sao? Tại sao bạn lại giới hạn nó? Giá trị cao hơn bao nhiêu?
Glen_b -Reinstate Monica

Vâng, số không chính xác trong cả hai. Tôi giới hạn để hình dung rõ hơn cấu trúc trong khu phố được mô tả, các giá trị cắt cổ trên 10k làm méo mó cốt truyện. Các giá trị tăng cao tới 100k
brownie_in_motion

4
"Mẫu" xuất hiện ảo tưởng. Rõ ràng, nó đang cố gắng tìm ra một số phong bì của phản ứng. Mặc dù điều đó có thể được thực hiện, nhưng không thể thực hiện được với một âm mưu lộn xộn như vậy và rõ ràng nó không được thực hiện chính xác, bởi vì ở bên trái dấu vết tương ứng với tỷ lệ phần trăm cực cao nhưng ở bên phải nó đánh dấu phần trăm thấp hơn và thấp hơn. Xem xét việc thực hiện khám phá dữ liệu rõ ràng hơn, chẳng hạn như sử dụng phần mềm của bạn để vẽ dấu vết của các phân vị được chọn cho các dải đếm từ hẹp.
whuber

4
Thật khó để nói vì âm mưu phân tán đã bão hòa, nhưng tôi đoán rằng mô hình, tức là tăng tài trợ trong phạm vi 500-3000 từ, là một tạo tác do mật độ điểm dữ liệu cao hơn trong phạm vi đó. Nếu bạn thử đề xuất của người làm trắng, tài trợ trung bình dưới dạng hàm đếm từ có thể trông kém ấn tượng hơn nhiều.
R Greg Stacey

1
Đồng ý với @whuber. Tôi nghĩ rằng bạn có thể đang cố gắng áp dụng một cái gì đó như ước tính mật độ đơn biến cho một biểu đồ phân tán bivariate, nhưng điều này không có nhiều ý nghĩa. Một công cụ thích hợp hơn sẽ là biểu đồ hoặc mật độ bivariate.
DSaxton

Câu trả lời:


15

Chỉ để giải thích về nhận xét của tôi, đây là một ví dụ về cách mô hình rõ ràng của bạn có thể là một tạo tác gây ra bởi sự phân phối dữ liệu dọc theo trục x. Tôi đã tạo ra 100.000 điểm dữ liệu. Chúng thường được phân phối theo trục x ( ) và được phân phối theo cấp số nhân theo trục y ( ).μ=2500,σ=600λ=1

nhập mô tả hình ảnh ở đây

Theo "phong bì trực quan" của âm mưu phân tán, có một mẫu rõ ràng, mặc dù là ảo tưởng: y trông tối đa trong phạm vi 1000 <x <4000. Tuy nhiên, mô hình rõ ràng này, rất thuyết phục về mặt trực quan, chỉ là một tạo tác gây ra bởi sự phân phối các giá trị x. Đó là, chỉ có nhiều dữ liệu hơn trong phạm vi 1000 <x <4000. Bạn có thể thấy điều này trong biểu đồ x ở phía dưới.

Để chứng minh, tôi đã tính giá trị y trung bình trong các thùng của x (đường màu đen). Điều này là xấp xỉ hằng số cho tất cả x. Nếu dữ liệu được phân phối theo trực giác của chúng tôi từ biểu đồ phân tán, trung bình trong phạm vi 1000 <x <4000 sẽ cao hơn phần còn lại - nhưng thực tế không phải vậy. Vì vậy, thực sự không có mô hình.

Tôi không nói đây là toàn bộ câu chuyện với dữ liệu của bạn. Nhưng tôi cá là đó là một lời giải thích một phần.

Phụ lục với các nhà tài trợ thực tế Chọn dữ liệu.

Scatterplot gốc với các điểm đánh dấu quá mức:

nhập mô tả hình ảnh ở đây

Cùng phân tán với độ mờ giảm:

nhập mô tả hình ảnh ở đây

Các mẫu khác nhau xuất hiện, nhưng với các điểm dữ liệu 800K, vẫn còn rất nhiều chi tiết bị mất để quá mức.

Thu phóng, giảm độ mờ một lần nữa và thêm mượt mà:

nhập mô tả hình ảnh ở đây


1
Đôi khi nó giúp sử dụng tính minh bạch trên các điểm đánh dấu để có được ý tưởng về mật độ.
xan

2
@xan Đồng ý. Tôi đã thấy rằng với nhiều điểm đánh dấu này (hoặc thực tế là bất kỳ số nào lớn hơn 10K), bạn phải sử dụng độ trong suốt tối đa có thể để xem những gì đang xảy ra ở trung tâm của đám mây điểm, chẳng hạn như col="#00000001"trong R. Với gần một triệu điểm làm mịn là điều cần thiết. Đó là một ý tưởng tốt để làm cho phạm vi của nó ngắn hơn nhiều so với thông thường sử dụng cho các đám mây điểm nhỏ hơn, để nó thu được nhiều chi tiết địa phương hơn.
whuber

3

Tôi đoán biến của bạn trên trục Y được phân phối theo cấp số nhân ( ), nhưng có vẻ như tham số tỷ lệ thay đổi theo xác suất mật độ bình thường của biến của bạn trên Trục X.p(y)=λeλyλ

Tôi đã tạo dữ liệu ngẫu nhiên với MatLab bằng phân phối bình thường cho X và phân phối theo cấp số nhân cho Y, với và tôi nhận được kết quả tương tự với dữ liệu của bạn:λ=p(x)

nhập mô tả hình ảnh ở đây

Bạn có thể thử học máy để phù hợp với các tham số, thay đổi hàm chi phí để so sánh mật độ xác suất và tham số tỷ lệ cho mỗi thùng trên 'biểu đồ' của bạn. Nếu vậy, đừng quên chạy trình tạo ngẫu nhiên một vài lần trên mỗi lần lặp để giảm thiểu chi phí.

Đây là mã tôi đã sử dụng cho cốt truyện:

% Normal distribution generation.
x = randn(10000,1);
x = x - min(x);                     % Shifting curve so every x is > 0.

% Histogram informations
k = 100;                            % Number of bins.
binSize = (max(x) - min(x)) / k;    % Width of bins.
y = 0:(k);
y = y .* binSize + min(x);          % Array with Intervals.

p = zeros(k,1);
data = [];

% For every bin...
for i = 1:k
    a = x(x >= y(i) & x < y(i + 1));    % All X values within condition.
    p(i) = size(a,1);                   % Number of occurences (or
                                        % Normal Density Probability).

    if ~isempty(a)
        for j = 1:p(i)

            % lambda = Rate parameter of exponential distribution
            % Rate parameter is varying with normal density probability.
            lambda = p(i);

            % Every X in normal distribution will have a Y
            % which was generated randomly by the exponential 
            % distribution function EXPRND.
            data = [data; a(j), exprnd(lambda)];

        end
    end
end

% Plotting normal distribution VS modified exponential distribution
scatter(data(:,1),data(:,2))

1

Câu hỏi đề cập đến hồi quy, thường giải quyết kỳ vọng có điều kiện: trong đó là đóng góp trung bình và là số lượng từ. Hồi quy tuyến tính có thể quá hạn chế và do đó người ta có thể áp dụng phương pháp hồi quy cục bộ như hồi quy hạt nhân Nadaraya-Watson. Các kết quả có thể nhạy cảm với sự lựa chọn băng thông: Một băng thông rộng có thể che giấu sự biến đổi cục bộ thú vị.

E[y|x]=yp(y|x)dy,
yx

Tổng quát hơn, câu hỏi về sự độc lập giữa và rất thú vị. Nếu và độc lập thì và tất nhiên kỳ vọng có điều kiện cũng độc lập. Nhưng có thể phụ thuộc vào theo các cách xen kẽ ngay cả khi kỳ vọng có điều kiện không phụ thuộc vào .xyxyp(y|x)=p(y)yxx

Với rất nhiều dữ liệu tôi sẽ xem xét biểu đồ của rằng tất cả đều có giá trị gần như bằng và xem biểu đồ thay đổi như thế nào khi giá trị được chọn của thay đổi. Chỉ sau một cuộc điều tra như vậy, tôi mới nghĩ về cách tiến hành chính thức hơn.yxx

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.