Chuyển đổi phân phối Poisson sang phân phối bình thường


10

Tôi chủ yếu có một nền tảng khoa học máy tính nhưng bây giờ tôi đang cố gắng dạy cho mình những chỉ số cơ bản. Tôi có một số dữ liệu mà tôi nghĩ có phân phối Poisson

nhập mô tả hình ảnh ở đây

Tôi có hai câu hỏi:

  1. Đây có phải là một bản phân phối Poisson?
  2. Thứ hai, có thể chuyển đổi nó thành một bản phân phối bình thường không?

Bất kỳ trợ giúp sẽ được đánh giá cao. Cảm ơn nhiều


3
1. Không, phân phối Poisson thường có chế độ trong vùng lân cận tham số của nó và do đó, để khớp với phân phối Poisson có nghĩa là một giá trị rất nhỏ cho tham số. 2. Có và không. Bạn muốn làm gì với một bản phân phối bình thường?
Dilip Sarwate

Tôi đang cố gắng đưa dữ liệu này vào một hồi quy logistic. Tôi đã được tin rằng dữ liệu phân phối thông thường tạo ra kết quả tốt hơn nhiều
Abhi

Câu trả lời:


11

1) Những gì được mô tả dường như là (nhóm) dữ liệu liên tục được vẽ dưới dạng biểu đồ thanh.

Bạn hoàn toàn có thể kết luận rằng đó không phải là bản phân phối Poisson.

Biến ngẫu nhiên Poisson lấy các giá trị 0, 1, 2, ... và có đỉnh cao nhất ở 0 chỉ khi giá trị trung bình nhỏ hơn 1. Nó được sử dụng cho dữ liệu đếm; nếu bạn đã vẽ biểu đồ tương tự của dữ liệu Poisson, nó có thể trông giống như các ô bên dưới:

nhập mô tả hình ảnh ở đây

Đầu tiên là một Poisson cho thấy độ lệch tương tự với bạn. Bạn có thể thấy ý nghĩa của nó khá nhỏ (khoảng 0,6).

Thứ hai là một Poisson có nghĩa tương tự (theo phỏng đoán rất thô sơ) với bạn. Như bạn thấy, nó trông khá cân xứng.

Bạn có thể có độ lệch hoặc trung bình lớn, nhưng không phải cả hai cùng một lúc.

2) (i) Bạn không thể biến dữ liệu rời rạc thành bình thường -

Với dữ liệu được nhóm, sử dụng bất kỳ phép biến đổi tăng đơn điệu nào, bạn sẽ di chuyển tất cả các giá trị trong một nhóm đến cùng một vị trí, vì vậy nhóm thấp nhất sẽ vẫn có đỉnh cao nhất - xem sơ đồ bên dưới. Trong biểu đồ đầu tiên, chúng tôi di chuyển vị trí của các giá trị x để khớp với một cdf bình thường:

nhập mô tả hình ảnh ở đây

Trong biểu đồ thứ hai, chúng ta thấy hàm xác suất sau khi biến đổi. Chúng tôi thực sự không thể đạt được bất cứ điều gì như tính bình thường bởi vì cả hai đều rời rạc và lệch; bước nhảy lớn của nhóm đầu tiên sẽ vẫn là một bước nhảy lớn, bất kể bạn đẩy nó sang trái hay phải.

(ii) Dữ liệu sai lệch liên tục có thể được chuyển đổi để trông hợp lý bình thường. Nếu bạn có các giá trị thô (chưa được nhóm) và chúng không rời rạc nhiều, bạn có thể làm gì đó, nhưng ngay cả khi mọi người tìm cách chuyển đổi dữ liệu của họ, điều đó không cần thiết hoặc vấn đề tiềm ẩn của họ có thể được giải quyết theo cách khác (nói chung là tốt hơn) . Đôi khi biến đổi là một lựa chọn tốt, nhưng nó thường được thực hiện vì những lý do không chính đáng.

Vậy ... tại sao bạn muốn biến đổi nó?


Cảm ơn Glen vì câu trả lời rất chi tiết. Nó giải thích nhiều khái niệm. Tôi đang cố gắng đưa dữ liệu này vào mô hình hồi quy logistic. Tôi nghĩ (bây giờ tôi không chắc lắm) rằng dữ liệu phân phối thông thường tạo ra kết quả tốt hơn nhiều. Bạn đề xuất món gì?
Abhi

1
Đây là biến độc lập (một -variable)? Bạn có ý nghĩa gì bởi "kết quả tốt hơn" trong bối cảnh này? x
Glen_b -Reinstate Monica

@Glen_b Cảm ơn rất nhiều vì câu trả lời tuyệt vời. Tôi cũng đến từ nền tảng khoa học máy tính và đã bị mắc kẹt trong câu hỏi này: stats.stackexchange.com/questions/408232/. Xin vui lòng cho tôi biết suy nghĩ của bạn về điều này. Tôi mong muốn được nghe từ bạn. Cảm ơn bạn rất nhiều lần nữa :)
EmJ

Vui lòng không sử dụng ý kiến ​​để cố gắng tuyển người để trả lời câu hỏi của bạn. Tôi thấy câu hỏi của bạn rồi.
Glen_b -Reinstate Monica

0

Đăng thêm thông tin thú vị cho hậu thế.

Có một bài viết cũ hơn thảo luận về một vấn đề tương tự liên quan đến việc sử dụng dữ liệu đếm như một biến độc lập cho hồi quy logistic.

Đây là:

Việc sử dụng dữ liệu đếm làm biến độc lập có vi phạm bất kỳ giả định GLM nào không?

Như Glen đã đề cập nếu bạn chỉ đơn giản là cố gắng dự đoán một kết quả phân đôi, có thể bạn có thể sử dụng dữ liệu đếm chưa được dịch như một thành phần trực tiếp của mô hình hồi quy logistic của bạn. Tuy nhiên, một lưu ý cần thận trọng: Khi một biến độc lập (IV) được phân phối VÀ phân bố theo phạm vi nhiều mức độ lớn bằng cách sử dụng các giá trị thô có thể dẫn đến các điểm có ảnh hưởng lớn, do đó có thể làm sai lệch mô hình của bạn. Nếu đây là trường hợp có thể hữu ích để thực hiện chuyển đổi sang IV của bạn để có được một mô hình mạnh mẽ hơn.

Các biến đổi như căn bậc hai hoặc nhật ký có thể làm tăng mối quan hệ giữa IV và tỷ lệ cược. Ví dụ: nếu thay đổi trong X theo ba bậc độ lớn (cách xa giá trị X trung bình) tương ứng với thay đổi 0,1 trong xác suất xảy ra của Y (cách 0,5), thì sẽ khá an toàn khi cho rằng bất kỳ sự khác biệt nào về mô hình sẽ dẫn đến sai lệch đáng kể do đòn bẩy cực đoan từ các giá trị X ngoại lệ.

Để minh họa thêm, hãy tưởng tượng chúng tôi muốn sử dụng xếp hạng Scoville của nhiều loại ớt khác nhau (tên miền [X] = {0, 3,2 triệu}) để dự đoán xác suất một người phân loại hạt tiêu là "cay khó chịu" (phạm vi [Y] = {1 = có, 0 = không}) sau khi ăn hạt tiêu có xếp hạng tương ứng X.

https://en.wikipedia.org/wiki/Scoville_scale

Nếu bạn nhìn vào biểu đồ xếp hạng scoville, bạn có thể thấy rằng một biến đổi nhật ký của xếp hạng Scoville thô sẽ cho bạn một xấp xỉ gần hơn với xếp hạng chủ quan (1-10) của mỗi ớt.

Vì vậy, trong trường hợp này, nếu chúng ta muốn tạo ra một mô hình mạnh mẽ hơn để nắm bắt mối quan hệ thực sự giữa xếp hạng Scoville thô và xếp hạng nhiệt chủ quan, chúng ta có thể thực hiện chuyển đổi logarit trên các giá trị X. Bằng cách này, chúng tôi giảm tác động của miền X quá lớn, bằng cách "thu hẹp" khoảng cách giữa các giá trị khác nhau theo độ lớn và do đó giảm trọng lượng của bất kỳ ngoại lệ X nào (ví dụ như những kẻ không dung nạp capsaicin và / hoặc những kẻ điên gia vị điên cuồng! !!) có dự đoán của chúng tôi.

Hy vọng điều này thêm một số bối cảnh thú vị!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.