Cần giúp xác định một phân phối bằng biểu đồ của nó


13

Tôi có dân số mẫu của cực đại biên độ đã đăng ký của một tín hiệu nhất định. Dân số khoảng 15 triệu mẫu. Tôi đã tạo ra một biểu đồ dân số, nhưng không thể đoán được sự phân phối với biểu đồ như vậy.

EDIT1: Tệp có giá trị mẫu thô ở đây: dữ liệu thô

Bất cứ ai có thể giúp ước tính phân phối với biểu đồ sau: nhập mô tả hình ảnh ở đây


1
không phải là vấn đề đáng kể nhưng khi sử dụng biểu đồ, nó thường giúp có tần số tương đối thay vì tần số tuyệt đối trên trục y.
posdef

nghĩa là, để cung cấp 120000/15000000 = 0,008 thay vì 120000 trên trục tung?
mbaitoff

@mbaitoff: Nhận xét của bạn cho câu trả lời của schenectady cho thấy rằng bạn ít quan tâm đến việc lấy tên của phân phối nhưng trong việc tìm hiểu TẠI SAO các giá trị được phân phối theo cách này. Điều này có đúng không?
steffen

1
@mbaitoff, tôi không chắc nó sẽ phù hợp với ứng dụng của bạn, nhưng trong các lĩnh vực ứng dụng liên quan, cường độ sóng trải qua (nhiều) phản xạ ngẫu nhiên giữa nguồn và máy thu được mô hình hóa bằng phân phối Rayleigh hoặc một trong những khái quát của nó, ví dụ như Rice hoặc phân phối Nakagami- . m
hồng y

2
Sự quan tâm thực sự đối với những dữ liệu này nằm ở hàng tá hoặc nhiều đột biến: lượng dữ liệu đủ lớn để chúng là thật , theo nghĩa là chúng là bằng chứng của các chế độ cục bộ thực tế. Dường như có một bộ dữ liệu phong phú ở đây với vô số thông tin sẽ bị bỏ qua là một công thức tham số đơn giản được sử dụng để tóm tắt phân phối của chúng.
whuber

Câu trả lời:


23

Sử dụng fitdistrplus:

Đây là liên kết CRAN để fitdistrplus.

Đây là liên kết họa tiết cũ cho fitdistrplus.

Nếu liên kết họa tiết không hoạt động, hãy thực hiện tìm kiếm "Sử dụng thư viện fitdistrplus để chỉ định phân phối từ dữ liệu".

Các họa tiết làm tốt công việc giải thích cách sử dụng gói. Bạn có thể xem cách phân phối khác nhau phù hợp trong một khoảng thời gian ngắn. Nó cũng tạo ra một sơ đồ Cullen / Frey.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây


(+1): Không biết gói đó trước đây.
steffen

1
(+1 (không biết đó được gọi là sơ đồ Cullen / Frey. Tôi đã phải tự mình nghĩ ra điều đó.
Glen_b -Reinstate Monica

hình ảnh thứ hai là với plotdistcomamnd? Làm thế nào tôi có thể lấy Sơ đồ Cullen / Frey?
juanpablo

1
@juanpablo - Hãy thử descdist(). Tôi đã cập nhật bài viết trên để bao gồm một số mã và một liên kết đến họa tiết cũ. Tôi không thể có được liên kết họa tiết ở trên để làm việc. Vì vậy, Google như sau: "Sử dụng thư viện fitdistrplus để chỉ định phân phối từ dữ liệu". Nó là một tập tin .pdf.
bill_080

3
@juanpablo - Tuyên bố f1g <- fitdist(x1, "gamma")phù hợp với phân phối gamma cho dữ liệu gốc x1và lưu trữ nó trong f1g. Biểu đồ phía trên bên trái trong plot(f1g)hiển thị biểu đồ cho dữ liệu gốc x1dưới dạng các thanh và biểu đồ mật độ gamma được trang bị từ f1gdưới dạng đường liên tục. Biểu đồ mật độ (đường liên tục) được vẽ trên biểu đồ như là một dấu hiệu cho thấy mức độ "phù hợp" thể hiện dữ liệu.
bill_080

6

Dân số khoảng 15 triệu mẫu.

Sau đó, bạn rất có thể sẽ từ chối bất kỳ phân phối cụ thể nào của một hình thức đơn giản, khép kín.

Ngay cả vết sưng nhỏ ở bên trái của biểu đồ có thể đủ để khiến chúng ta phải nói 'rõ ràng không phải như vậy và như vậy'.

Mặt khác, nó có lẽ được xấp xỉ khá tốt bởi một số phân phối phổ biến; ứng cử viên rõ ràng là những thứ như lognatural và gamma, nhưng có một loạt những người khác. Nếu bạn nhìn vào nhật ký của biến x, bạn có thể quyết định xem lognatural có ổn không (sau khi lấy nhật ký, biểu đồ sẽ trông đối xứng).

Nếu nhật ký bị lệch trái, hãy xem xét liệu Gamma có ổn không, nếu nó nghiêng phải, hãy xem xét liệu Gamma nghịch đảo hay (thậm chí nhiều hơn) Gaussian nghịch đảo có ổn không. Nhưng bài tập này là một trong những cách tìm phân phối đủ gần để sống cùng; không có gợi ý nào trong số này thực sự có tất cả các tính năng xuất hiện ở đó.

Nếu bạn có bất kỳ lý thuyết nào để hỗ trợ một lựa chọn, hãy bỏ qua tất cả các cuộc thảo luận này và sử dụng nó.


Wow, loại trực giác nào về vấn đề này; đẹp! :)
onurcanbektas

1

Tôi không chắc tại sao bạn muốn phân loại một mẫu thành một bản phân phối cụ thể với cỡ mẫu lớn như vậy; phân tích, so sánh nó với một mẫu khác, tìm kiếm sự giải thích vật lý của các thông số?

Hầu hết các gói thống kê (R, SAS, Minitab) cho phép một người vẽ dữ liệu trên biểu đồ mang lại một đường thẳng nếu dữ liệu đến từ một phân phối cụ thể. Tôi đã thấy các biểu đồ mang lại một đường thẳng nếu dữ liệu là bình thường (log bình thường - sau khi chuyển đổi nhật ký), Weibull và chi bình phương đến khai thác ngay lập tức. Kỹ thuật này sẽ cho phép bạn nhìn thấy các ngoại lệ và cung cấp cho bạn khả năng để gán lý do tại sao các điểm dữ liệu là các ngoại lệ. Trong R, biểu đồ xác suất bình thường được gọi là qqnorm.


Ý tưởng tốt đề xuất qqplot. Tuy nhiên, tôi nghĩ rằng lời giải thích của bạn về kỹ thuật này hơi mơ hồ / khó hiểu. Bạn có thể cung cấp một số mã R mẫu mực? Điều này sẽ làm tăng giá trị của câu trả lời quyết liệt.
steffen

Tôi hy vọng rằng ai đó đã gặp bức tranh như của tôi và điều tra phân phối cơ bản, bởi vì các giá trị có cơ sở vật lý.
mbaitoff

Tôi đang nghiên cứu nền tảng vật lý của phân phối mẫu - cách phân phối và tại sao.
mbaitoff
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.