Làm thế nào để thảo luận về một scatterplot với nhiều dòng mới nổi?

Chúng tôi đã đo hai biến và biểu đồ phân tán dường như đề xuất nhiều mô hình "tuyến tính". Có cách nào để cố gắng chắt lọc những mô hình đó không? Xác định các biến độc lập khác đã trở nên khó khăn.

Scatterplot của hai biến

Cả hai biến bị lệch nhiều (về số lượng nhỏ), đây là một phân phối dự kiến trong miền của chúng tôi. Cường độ của dấu chấm biểu thị số lượng điểm dữ liệu (theo thang điểm $\log_{10}$ ) tại $<x,y>$ .

Ngoài ra, có cách nào để phân cụm các điểm?

Trong lĩnh vực của chúng tôi, người ta cho rằng hai biến này tương quan tuyến tính với nhau. Chúng tôi đang cố gắng để hiểu / giải thích tại sao nó không phải là trường hợp trong dữ liệu của chúng tôi.

(lưu ý, chúng tôi có 17 điểm dữ liệu)

cập nhật: cảm ơn bạn cho tất cả các câu trả lời, đây là một số yêu cầu làm rõ:

Cả hai biến chỉ là số nguyên, điều này giải thích một số mẫu trong biểu đồ phân tán log.
May mắn thay, theo định nghĩa, giá trị tối thiểu của cả hai biến là 1.
7 điểm là ("được giải thích" bởi độ lệch trái của dữ liệu) $<3,1>$

Dưới đây là các lô được yêu cầu:

phân tán log-log: Scatterplot trong nhật ký nhật ký

(khoảng trống được gây ra bởi các giá trị nguyên)

log-log cực: tọa độ cực $\theta = y$

Biểu đồ tỷ lệ:

Tần số là trên thang điểm từ nhật ký, kể từ thanh là 7M điểm, và sẽ ẩn các thanh khác. $1/3$

linear-model scatterplot

— Davy Landman
nguồn

Biểu đồ này trông như thế nào trong tọa độ cực

? (Nó có thể được khuyến khích đầu tiên để có logarit của

và

(cộng, nếu cần thiết, một khởi đầu nhỏ bù đắp cho số không tránh).) Kể từ khi tất cả các dòng dường như đang tỏa ra từ nguồn gốc, sau đó hình dung - đặc biệt là nếu

xung quanh biến các đường xuất hiện homoscedastic - sau đó tất cả các bạn cần làm là cụm các điểm trong

kích thước.

(r, θ)

$(r,\theta)$

X

$X$

Y

$Y$

θ

$\theta$

θ

$\theta$

— whuber

Có tỷ lệ liên quan đến việc có được Y và X không? Là các biến chỉ mất các giá trị rời rạc? Làm thế nào để nó trông giống như một âm mưu log-log?

— Glen_b -Reinstate Monica

@whuber & Glen_b Tôi đã thêm các ô với các phép biến đổi đó.

— Davy Landman

r

$r$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@whuber Tôi đã cập nhật cốt truyện, đặt theta trên y, đây có phải là dòng bạn muốn nói không?

— Davy Landman

Câu trả lời:

$Y$ $X$ $Y/X$

$X/k$ $kX$ $k$

$Y = 0$ $\log(Y + \text{constant})$

Một điểm của thuật ngữ: độ lệch trong số liệu thống kê được mô tả với tham chiếu đến đuôi được kéo dài hơn. Bạn có thể coi thuật ngữ này là ngược. Ở đây cả hai biến đều bị lệch sang giá trị cao hoặc dương hoặc lệch phải.

$Y = 1$ $Y = 0$

Như trước đây, tôi sẽ không tư vấn mô hình các sọc khác nhau mà không có lý do khoa học để phân biệt chúng hoặc xử lý chúng một cách riêng biệt. Bạn chỉ nên trung bình hơn những gì bạn có. (Có thể có các phương pháp đã biết với loại dữ liệu này để triệt tiêu sự không thống nhất. Nếu mọi người trong lĩnh vực của bạn thường xuyên đo hàng triệu điểm cho mỗi âm mưu, thật khó để tin rằng điều này chưa từng thấy trước đây.)

Sự tương quan chắc chắn phải tích cực. Ngoài một thử nghiệm có ý nghĩa chính thức, ở đây sẽ hoàn toàn vô dụng vì các tương quan phút sẽ đủ điều kiện quan trọng với cỡ mẫu này, cho dù nó được tuyên bố mạnh mẽ là vấn đề của các kỳ vọng và tiêu chuẩn trong lĩnh vực của bạn. So sánh tương quan của bạn một cách định lượng với kết quả của người khác là một cách để đi.

Chi tiết: Độ lệch vẫn được mô tả sai vòng theo quy ước thống kê. Các biến này là lệch phải; biệt ngữ đó phù hợp khi nhìn vào biểu đồ với trục cường độ ngang và lưu ý rằng độ lệch được đặt tên cho đuôi dài hơn, không phải là nồng độ có nhiều giá trị hơn.

— Nick Cox
nguồn

Tôi đã thêm biểu đồ log-log và cố gắng chính xác hơn về độ lệch.

— Davy Landman

\begin{aligned} Y_{i} & = α_{1} + β_{1} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_1 + \beta_1X_i + \epsilon_i \end{align}$

m^{t h}

$m^{th}$

\begin{aligned} Y_{i} & = α_{m} + β_{m} X_{i} + ϵ_{i} \end{aligned}

$\begin{align} Y_i &= \alpha_m + \beta_mX_i + \epsilon_i \end{align}$

M

$M$

m^{t h}

$m^{th}$

p_{m}

$p_m$

\sum_{m} p_{m} = 1

$\sum_m p_m =1$

$\epsilon$ $N(0,\sigma^2)$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} p_{m} \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M p_m\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

ϕ

$\phi$

3 M + 1

$3M+1$

\sum_{m} p_{m} = 1, p_{m} \geq 0

$\sum_m p_m=1,\; p_m\ge0$

α

$\alpha$

β

$\beta$

p_{m}

$p_m$

\frac{1}{M}

$\frac{1}{M}$

α

$\alpha$

β

$\beta$

$Z_i$ $p_m$ $p_m$ $Z_i$

\begin{aligned} L (α, β, σ) = \sum_{m = 1}^{M} (\frac{e x p (δ_{m} + γ_{m} Z_{i})}{\sum_{m^{'}} e x p (δ_{m^{'}} + γ_{m^{'}} Z_{i})}) \frac{1}{σ} ϕ (\frac{Y_{i} - α_{1} - β_{1} X_{i}}{σ}) \end{aligned}

$\begin{align} L(\alpha,\beta,\sigma) = \sum_{m=1}^M \left(\frac{exp(\delta_m+\gamma_mZ_i)}{\sum_{m'} exp(\delta_{m'}+\gamma_{m'}Z_i)}\right)\frac{1}{\sigma}\phi\left(\frac{Y_i-\alpha_1-\beta_1X_i}{\sigma}\right) \end{align}$

$5M+1$ $5M-1$ $\delta, \gamma$

$M$

— Hóa đơn
nguồn

M

$M$

Tôi đã quan sát hành vi tương tự trong một số bộ dữ liệu của tôi. Trong trường hợp của tôi, nhiều dòng khác nhau là do lỗi lượng tử hóa trong một trong các thuật toán xử lý của tôi.

Đó là, chúng tôi xem xét các biểu đồ phân tán dữ liệu đã xử lý và thuật toán xử lý có một số hiệu ứng lượng tử hóa, gây ra sự phụ thuộc trong dữ liệu trông giống hệt như bạn có ở trên.

Sửa các hiệu ứng lượng tử hóa, khiến đầu ra của chúng tôi trông mượt mà hơn và ít bị vón cục hơn.

Đối với bình luận "tương quan tuyến tính" của bạn. Những gì bạn trình bày là không đủ để xác định xem dữ liệu này có tương quan tuyến tính hay không. Đó là, trong một số lĩnh vực, hệ số tương quan> 0,7 được coi là tương quan tuyến tính mạnh. Vì hầu hết dữ liệu của bạn ở gần điểm gốc, nên có thể hiểu rằng dữ liệu của bạn có mối tương quan tuyến tính với những gì "trí tuệ thông thường" sẽ nói. Tương quan cho bạn biết rất ít về một tập dữ liệu.

— John
nguồn