Cốt truyện QQ trong Python


11

Tôi đã tạo ra một âm mưu qq bằng cách sử dụng mã sau đây. Tôi biết rằng biểu đồ qq được sử dụng để kiểm tra xem dữ liệu có được phân phối bình thường hay không. Câu hỏi của tôi là các nhãn trục x và y chỉ ra điều gì trong biểu đồ qq và giá trị r bình phương đó là gì ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

nhập mô tả hình ảnh ở đây

Tôi biết rằng đã có một cuộc thảo luận về cốt truyện qq , nhưng tôi không thể hiểu khái niệm mặc dù đã trải qua cuộc thảo luận đó.


4
R2R2R2

R2R2R2R2

R2R2

Bạn có chắc chắn rằng bạn vẽ một âm mưu QQ? help(probplot)nêu: probplottạo ra một âm mưu xác suất, không nên nhầm lẫn với một âm mưu QQ hoặc PP.
abukaj

Câu trả lời:


9

Câu trả lời của Macond là chính xác, tuy nhiên từ bài viết gốc, tôi nghĩ rằng có thể hữu ích để đơn giản hóa các thông báo một chút.

Một âm mưu QQ là viết tắt của một "âm mưu lượng tử lượng tử" .

Đó là một âm mưu trong đó các trục được chuyển đổichủ đích để làm cho phân phối bình thường (hoặc Gaussian) xuất hiện theo một đường thẳng . Nói cách khác, một phân phối hoàn toàn bình thường sẽ chính xác đi theo một đường có độ dốc = 1 và chặn = 0.

Do đó, nếu cốt truyện dường như không - đại khái - một đường thẳng, thì phân phối cơ bản là không bình thường. Nếu nó uốn cong lên, chẳng hạn, có nhiều giá trị "flyer cao" hơn dự kiến. (Liên kết cung cấp thêm ví dụ.)


  1. Các nhãn x & y đại diện cho cái gì?

Các lượng tử lý thuyết được đặt dọc theo trục x. Đó là, trục x không phảidữ liệu của bạn , nó chỉ đơn giản là một kỳ vọng về nơi dữ liệu của bạn nên có, nếu nó là bình thường.

Các dữ liệu thực tế được vẽ dọc theo trục y.

Các giá trị là độ lệch chuẩn so với giá trị trung bình. Vì vậy, 0là giá trị trung bình của dữ liệu, 1là 1 độ lệch chuẩn ở trên, v.v. Điều này có nghĩa là, ví dụ, 68.27%tất cả dữ liệu của bạn phải nằm trong khoảng -1 & 1, nếu bạn có phân phối bình thường.

  1. R2

R2R2R2R2


Cuối cùng, có một cốt truyện tương tự hiếm khi được sử dụng gọi là lô pp . Cốt truyện này hữu ích hơn nếu bạn quan tâm đến việc tập trung vào nơi phần lớn dữ liệu nằm, thay vì các thái cực.


1
Từ xiên không phải là lựa chọn tốt nhất ở đây: Tôi muốn nói đã biến đổi .
Nick Cox

1

Trục Y hiển thị các giá trị của phân phối quan sát và trục X, các giá trị của phân phối lý thuyết.

Mỗi điểm là một lượng tử. Giả sử, nếu có 100 điểm trên ô, điểm đầu tiên (điểm ở phía dưới bên trái) biểu thị giới hạn trên cho một khoảng và khi được sắp xếp từ nhỏ nhất đến lớn nhất, 1% nhỏ nhất trong số các điểm dữ liệu của phân phối tương ứng ở trong khoảng này. Tương tự, điểm thứ 2 là giới hạn trên của một khoảng, trong đó 2 phần trăm điểm dữ liệu nhỏ nhất từ ​​phân phối được đặt. Đây là khái niệm về lượng tử. Nhưng nó không giới hạn trong một trường hợp có 100 khoảng, nó là một khái niệm chung và bạn có thể có càng nhiều khoảng thời gian càng tốt, sau đó bạn sẽ có nhiều lượng tử mô tả ranh giới của các khoảng.

Tôi đã sử dụng các điểm dữ liệu trong suốt câu trả lời của mình, như các điểm dữ liệu được sắp xếp, v.v. Điều này đề cập đến các phân phối rời rạc, nhưng khái niệm này có thể được khái quát cho các phân phối liên tục.

R2R2


3
R2R2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.