Dòng phù hợp nhất không giống như một phù hợp tốt. Tại sao?


82

Hãy nhìn vào biểu đồ Excel này: đồ thị

Dòng 'phù hợp nhất' phù hợp nhất sẽ xuất hiện là một đường gần như thẳng đứng xuyên qua tâm của các điểm (được chỉnh sửa bằng tay màu đỏ). Tuy nhiên, đường xu hướng tuyến tính theo quyết định của Excel là đường màu đen chéo được hiển thị.

  1. Tại sao Excel tạo ra một cái gì đó (đối với mắt người) dường như là sai?
  2. Làm thế nào tôi có thể tạo ra một dòng phù hợp nhất trông trực quan hơn một chút (tức là một cái gì đó giống như dòng màu đỏ)?

Cập nhật 1. Một bảng tính Excel có dữ liệu và biểu đồ có sẵn ở đây: dữ liệu ví dụ , CSV trong Pastebin . Các kỹ thuật hồi quy type1 và type2 có sẵn dưới dạng các hàm excel không?

Cập nhật 2. Dữ liệu đại diện cho một người chơi dù lượn trong một cái nóng trong khi trôi theo gió. Mục tiêu cuối cùng là điều tra cường độ và hướng gió thay đổi theo chiều cao. Tôi là một kỹ sư, KHÔNG phải là nhà toán học hay nhà thống kê, vì vậy thông tin trong các phản hồi này đã cho tôi nhiều lĩnh vực nghiên cứu hơn.


5
Thành thật mà nói, tôi nghi ngờ rằng đây là một câu hỏi về hồi quy Deming so với OLS. Nhìn vào độ biến thiên tuyệt đối rất nhỏ trong và , tôi muốn nghĩ rằng đây có thể là một vấn đề số trong Excel. Bạn có thể chỉnh sửa câu hỏi của bạn để bao gồm dữ liệu? yxy
Stephan Kolassa

12
Hiện tượng này là một trong những khám phá thống kê lớn của thế kỷ 19 (nếu không phải mọi thời đại). Nó được gọi là hồi quy đối với giá trị trung bình . Thật vậy, đó là lý do tại sao thủ tục thống kê này được gọi là "hồi quy"!
whuber

3
Tôi nên nói thêm rằng lý do chính khiến sự phù hợp trông rất khác biệt là vì cốt truyện đã phóng đại rất nhiều tỷ lệ trong trục y. Bằng cách vẽ nó trong đó cả hai tỷ lệ tỷ lệ thuận với độ lệch chuẩn cận biên, bạn có thể đi đến những kết luận hoàn toàn khác nhau về sự phù hợp là "lẽ thường" hơn.
whuber

6
@StephanKolassa - Lưu ý lỗi sẽ lớn đến mức nào nếu bạn sử dụng đường màu đỏ và dự đoán cho ; đường màu đỏ không thể là một hình vuông nhỏ nhất phù hợp nhất. Excel chắc chắn có vấn đề của nó, nhưng tôi nghĩ đây không phải là một trong số chúng. x = - 0,714yx=0.714
jbowman

7
Điều này đã được giải quyết nhiều lần trên trang web (ví dụ xem tại đây ). Khi bạn hiểu đường hồi quy là gì, thật dễ dàng để biết tại sao đó là đường màu đen. Hãy tự hỏi mình hai câu hỏi: 1: giá trị trung bình của y khi x khoảng 0,712 là bao nhiêu? 2. Các đường màu đỏ và màu đen dự đoán nó sẽ là gì? ... [Bây giờ tôi đã ngừng đóng cửa vì trùng lặp vì có vấn đề cụ thể với dữ liệu của bạn rằng sẽ đáng để tập trung lại câu hỏi của bạn vào]
Glen_b

Câu trả lời:


111

Có một biến phụ thuộc?

Đường xu hướng trong Excel là từ hồi quy của biến phụ thuộc "lat" trên biến độc lập "lon". Những gì bạn gọi là "đường cảm giác chung" có thể đạt được khi bạn không chỉ định biến phụ thuộc và coi cả vĩ độ và kinh độ đều như nhau. Cái sau có thể thu được bằng cách áp dụng PCA . Cụ thể, đó là một trong những vectơ riêng của ma trận hiệp phương sai của các biến này. Bạn có thể nghĩ về nó như là một đường thu nhỏ khoảng cách ngắn nhất từ ​​bất kỳ điểm nào đến một đường thẳng, tức là bạn vẽ một đường vuông góc với đường thẳng và tối thiểu hóa tổng của các đường đó cho mỗi lần quan sát.(xi,yi)

nhập mô tả hình ảnh ở đây

Đây là cách bạn có thể làm điều đó trong R:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

Đường xu hướng mà bạn nhận được từ Excel là một ý nghĩa phổ biến như vectơ eigen từ PCA khi bạn hiểu rằng trong hồi quy Excel, các biến không bằng nhau. Ở đây bạn đang thu nhỏ khoảng cách dọc từ đến , trong đó trục y là vĩ độ và trục x là kinh độ. y ( x i )yiy(xi)

Việc bạn có muốn đối xử bình đẳng với các biến hay không phụ thuộc vào mục tiêu. Đó không phải là chất lượng vốn có của dữ liệu. Bạn phải chọn công cụ thống kê phù hợp để phân tích dữ liệu, trong trường hợp này chọn giữa hồi quy và PCA.

Một câu trả lời cho một câu hỏi không được hỏi

Vậy, tại sao trong trường hợp của bạn, một đường xu hướng (hồi quy) trong Excel dường như không phải là một công cụ phù hợp cho trường hợp của bạn? Lý do là đường xu hướng là câu trả lời cho câu hỏi chưa được hỏi. Đây là lý do tại sao.

Hồi quy Excel đang cố gắng ước tính các tham số của một dòng . Vì vậy, vấn đề đầu tiên là vĩ độ thậm chí không phải là chức năng của kinh độ, nói đúng (xem ghi chú ở cuối bài), và nó thậm chí không phải là vấn đề chính. Vấn đề thực sự là bạn thậm chí không quan tâm đến vị trí của dù lượn, bạn quan tâm đến gió.lat=a+b×lon

Hãy tưởng tượng rằng không có gió. Một người chơi dù lượn sẽ thực hiện cùng một vòng tròn lặp đi lặp lại. Điều gì sẽ là đường xu hướng? Rõ ràng, nó sẽ là đường ngang phẳng, độ dốc của nó bằng 0, nhưng điều đó không có nghĩa là gió thổi theo hướng ngang!

Đây là một âm mưu mô phỏng khi có một cơn gió mạnh dọc theo trục y, trong khi một người chơi dù lượn đang tạo ra những vòng tròn hoàn hảo. Bạn có thể thấy cách hồi quy tuyến tính tạo ra kết quả vô nghĩa, một đường xu hướng ngang. Trên thực tế, nó thậm chí hơi tiêu cực, nhưng không đáng kể. Hướng gió được hiển thị với một đường màu đỏ:yx

nhập mô tả hình ảnh ở đây

Mã R cho mô phỏng:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

Vì vậy, hướng của gió rõ ràng không phù hợp với đường xu hướng. Họ được liên kết, tất nhiên, nhưng theo một cách không tầm thường. Do đó, tuyên bố của tôi rằng đường xu hướng Excel là câu trả lời cho một số câu hỏi, nhưng không phải là câu hỏi mà bạn đã hỏi.

Tại sao PCA?

Như bạn đã lưu ý, có ít nhất hai thành phần chuyển động của dù lượn: sự trôi dạt với một chuyển động gió và vòng tròn được điều khiển bởi một chiếc dù lượn. Điều này được thấy rõ khi bạn kết nối các dấu chấm trên cốt truyện của mình:

nhập mô tả hình ảnh ở đây

Một mặt, chuyển động tròn thực sự gây phiền toái cho bạn: bạn quan tâm đến gió. Mặt khác, bạn không quan sát tốc độ gió, bạn chỉ quan sát dù lượn. Vì vậy, mục tiêu của bạn là suy ra cơn gió không thể quan sát được từ việc đọc vị trí của người chơi dù lượn có thể quan sát được. Đây chính xác là tình huống mà các công cụ như phân tích nhân tố và PCA có thể hữu ích.

Mục đích của PCA là cô lập một vài yếu tố xác định nhiều đầu ra bằng cách phân tích các mối tương quan trong đầu ra. Nó hiệu quả khi đầu ra được liên kết với các yếu tố tuyến tính, điều này xảy ra trong trường hợp dữ liệu của bạn: gió trôi chỉ đơn giản là thêm vào tọa độ của chuyển động tròn, đó là lý do tại sao PCA hoạt động ở đây.

Thiết lập PCA

Vì vậy, chúng tôi đã thiết lập rằng PCA nên có cơ hội ở đây, nhưng chúng tôi sẽ thực sự thiết lập nó như thế nào? Hãy bắt đầu với việc thêm một biến thứ ba, thời gian. Chúng ta sẽ chỉ định thời gian từ 1 đến 123 cho mỗi lần quan sát 123, giả sử tần suất lấy mẫu không đổi. Dưới đây là cách biểu đồ 3D trông giống như dữ liệu, cho thấy cấu trúc xoắn ốc của nó:

nhập mô tả hình ảnh ở đây

Cốt truyện tiếp theo cho thấy trung tâm tưởng tượng của một chiếc dù lượn là những vòng tròn màu nâu. Bạn có thể thấy nó trôi như thế nào trên mặt phẳng lat-lon với gió, trong khi dù lượn được hiển thị với một chấm màu xanh đang lượn quanh nó. Thời gian là trên trục dọc. Tôi đã kết nối trung tâm xoay với một vị trí tương ứng của dù lượn chỉ hiển thị hai vòng tròn đầu tiên.

nhập mô tả hình ảnh ở đây

Mã R tương ứng:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

Sự trôi dạt của tâm xoay dù được gây ra chủ yếu là do gió, và đường đi và tốc độ của sự trôi dạt tương quan với hướng và tốc độ của gió, các biến quan tâm không thể quan sát được. Đây là cách trôi dạt khi được chiếu lên mặt phẳng lat-lon:

nhập mô tả hình ảnh ở đây

Hồi quy PCA

Vì vậy, trước đó chúng tôi đã thiết lập rằng hồi quy tuyến tính thông thường dường như không hoạt động tốt ở đây. Chúng tôi cũng đã tìm ra lý do tại sao: bởi vì nó không phản ánh quá trình cơ bản, bởi vì chuyển động của dù lượn rất phi tuyến. Đó là sự kết hợp của chuyển động tròn và trôi tuyến tính. Chúng tôi cũng thảo luận rằng trong tình huống này, phân tích nhân tố có thể hữu ích. Đây là một phác thảo về một cách tiếp cận có thể để mô hình hóa dữ liệu này: hồi quy PCA . Nhưng nắm tay tôi sẽ cho bạn thấy những hồi quy PCA lắp đường cong:

nhập mô tả hình ảnh ở đây

Điều này đã đạt được như sau. Chạy PCA trên tập dữ liệu có thêm cột t = 1: 123, như đã thảo luận trước đó. Bạn nhận được ba thành phần chính. Cái đầu tiên đơn giản là t. Cột thứ hai tương ứng với cột lon và cột thứ ba đến lat.

Tôi khớp hai thành phần chính sau với một biến có dạng , trong đó được trích xuất từ ​​phân tích quang phổ của các thành phần. Chúng xảy ra có cùng tần số nhưng các pha khác nhau, điều này không gây ngạc nhiên khi có chuyển động tròn.ω , φasin(ωt+φ)ω,φ

Đó là nó. Để có được các giá trị được trang bị, bạn khôi phục dữ liệu từ các thành phần được trang bị bằng cách cắm chuyển vị của ma trận xoay PCA vào các thành phần chính được dự đoán. Mã R của tôi ở trên hiển thị các phần của quy trình và phần còn lại bạn có thể tìm ra dễ dàng.

Phần kết luận

Thật thú vị khi thấy PCA và các công cụ đơn giản khác mạnh đến mức nào khi nói đến các hiện tượng vật lý trong đó các quy trình cơ bản ổn định và các đầu vào chuyển thành đầu ra thông qua các mối quan hệ tuyến tính (hoặc tuyến tính hóa). Vì vậy, trong trường hợp của chúng ta, chuyển động tròn rất phi tuyến nhưng chúng ta dễ dàng tuyến tính hóa nó bằng cách sử dụng các hàm sin / cosine trên một tham số t thời gian. Lô đất của tôi được sản xuất chỉ với một vài dòng mã R như bạn đã thấy.

Mô hình hồi quy sẽ phản ánh quá trình cơ bản, sau đó chỉ bạn có thể mong đợi rằng các tham số của nó là có ý nghĩa. Nếu đây là một dù lượn trôi trong gió, thì một âm mưu phân tán đơn giản như trong câu hỏi ban đầu sẽ ẩn cấu trúc thời gian của quá trình.

Ngoài ra, hồi quy Excel là một phân tích cắt ngang, trong đó hồi quy tuyến tính hoạt động tốt nhất, trong khi dữ liệu của bạn là một quá trình chuỗi thời gian, trong đó các quan sát được sắp xếp theo thời gian. Phân tích chuỗi thời gian phải được áp dụng ở đây và nó được thực hiện trong hồi quy PCA.

Ghi chú về một chức năng

Vì một dù lượn đang tạo các vòng tròn, sẽ có nhiều vĩ độ tương ứng với một kinh độ duy nhất. Trong toán học, hàm ánh xạ một giá trị thành một giá trị . Đó là mối quan hệ nhiều-một, có nghĩa là nhiều có thể tương ứng với , nhưng không nhiều tương ứng với một . Đó là lý do tại sao không phải là một hàm, nói đúng ra.x y x y y x l a t = f ( l o n )y=f(x)xyxyyxlat=f(lon)


11
a sin ωt+b cos ωt

11
Việc bạn muốn đối xử với họ như nhau hay không phụ thuộc vào mục tiêu. Đó không phải là chất lượng vốn có của dữ liệu. - Điểm tuyệt vời và +1.
Richard Hardy

@NickCox, đúng vậy, nó cũng sẽ ít hoạt động hơn
Aksakal

Có thể đáng để chỉ ra rằng PCA là sự khái quát của hồi quy trục chính cho tình huống mà bạn có> 2 biến. Nhưng vì trong trường hợp này chỉ có 2 biến, tên tiêu chuẩn cho kỹ thuật sẽ là hồi quy trục chính (đôi khi còn được gọi là hồi quy trực giao hoặc hồi quy loại II).
Tom Wenseleers 27/03/18

61

Câu trả lời có lẽ liên quan đến cách bạn đánh giá về mặt tinh thần khoảng cách đến đường hồi quy. Hồi quy tiêu chuẩn (Loại 1) giảm thiểu lỗi bình phương, trong đó lỗi được tính dựa trên khoảng cách dọc với đường thẳng .

Hồi quy loại 2 có thể tương tự như phán đoán của bạn về dòng tốt nhất. Trong đó, lỗi bình phương được giảm thiểu là khoảng cách vuông góc với đường thẳng . Có một số hậu quả cho sự khác biệt này. Một điều quan trọng là nếu bạn hoán đổi các trục X và Y trong cốt truyện của mình và chỉnh lại dòng, bạn sẽ có được mối quan hệ khác nhau giữa các biến cho hồi quy Loại 1. Đối với hồi quy Loại 2, mối quan hệ vẫn giữ nguyên.

Ấn tượng của tôi là có một số lượng lớn các cuộc tranh luận về nơi sử dụng hồi quy Loại 1 so với Loại 2, và vì vậy tôi khuyên bạn nên đọc kỹ về sự khác biệt trước khi quyết định áp dụng. Hồi quy loại 1 thường được đề xuất trong trường hợp một trục được điều khiển bằng thực nghiệm hoặc ít nhất được đo với sai số ít hơn nhiều so với trục kia. Nếu các điều kiện này không được đáp ứng, hồi quy Loại 1 sẽ nghiêng về 0 và do đó nên sử dụng hồi quy Loại 2. Tuy nhiên, với độ ồn đủ ở cả hai trục, hồi quy loại 2 rõ ràng có xu hướng thiên lệch chúng về phía 1. Warton et al. (2006) và Smith (2009) là những nguồn tốt để hiểu cuộc tranh luận.

Cũng lưu ý rằng có một số phương pháp khác nhau nằm trong phạm vi rộng của hồi quy Loại 2 (Trục chính, Giảm trục chính và hồi quy trục chính tiêu chuẩn) và thuật ngữ về các phương pháp cụ thể không nhất quán.

Warton, DI, IJ Wright, DS Falster và M. Westoby. 2006. Phương pháp khớp dòng Bivariate cho phép đo. Biol. Khải huyền 81: 259 Từ291. doi: 10.1017 / S1464793106007007

Smith, RJ 2009. Về việc sử dụng và sử dụng sai trục chính giảm cho khớp đường. Là. J. Vật lý. Nhân loại. 140: 476 bóng486. doi: 10.1002 / ajpa.21090


CHỈNH SỬA :

@amoeba chỉ ra rằng cái mà tôi gọi là hồi quy Loại 2 ở trên còn được gọi là hồi quy trực giao; đây có thể là thuật ngữ thích hợp hơn Như tôi đã nói ở trên, thuật ngữ trong lĩnh vực này không nhất quán, đảm bảo sự chăm sóc thêm.


19
Tranh luận về việc nên sử dụng loại 1 hay loại 2? Không có gì để tranh luận khi bạn biết mục tiêu của mình (hàm mục tiêu hay hàm mất) là gì. Và nếu bạn không, tốt, thì bạn nên làm rõ điều đó trước khi tiếp tục.
Richard Hardy

7
Loại 2 cũng tạo ra kết quả vô nghĩa nếu cả hai trục sử dụng các đơn vị khác nhau.
John Dvorak

4
Bạn đang sử dụng "Loại 1" và "Loại 2" như thể đây là những thuật ngữ tiêu chuẩn. Có phải họ không? Tôi chưa bao giờ đứng đầu bất cứ ai gọi hồi quy thông thường và hồi quy trực giao "loại 1" và "loại 2".
amip

2
@RichardHardy Tất nhiên, làm rõ mục tiêu cụ thể của một người là tốt nhất. Nhưng như tôi đã nói trong câu trả lời, ấn tượng của tôi là có một cuộc tranh luận đang diễn ra về việc sử dụng chúng trong một tập hợp các trường hợp - và những bài báo mà tôi trích dẫn (cũng như các khuyến nghị mâu thuẫn mà tôi tiếp tục nhận được từ các nhà phê bình) dường như đã đưa ra điều này.
mkt

3
@mkt, cảm ơn bạn đã làm rõ. Thật vậy, có thể có một số cuộc tranh luận giữa những người không chắc chắn những gì họ đang theo dõi. Ở đó, trọng tâm của cuộc tranh luận là cái nào trong hai cái có liên quan hơn cho mục tiêu vấn đề của họ. Điều tôi muốn nhấn mạnh là không có tranh luận một khi mục tiêu của bạn được xác định rõ, tức là mục tiêu của vấn đề được dịch sang ngôn ngữ thống kê (điều này là không thể tránh khỏi nếu người ta sử dụng các phương pháp thống kê). Vì vậy, tôi đoán chúng tôi đồng ý, chúng tôi chỉ nhấn mạnh các phần khác nhau của tranh luận.
Richard Hardy

31

Câu hỏi mà Excel cố gắng trả lời là: "Giả sử y phụ thuộc vào x, dòng nào dự đoán y tốt nhất". Câu trả lời là do các biến thể rất lớn trong y, không có dòng nào có thể đặc biệt tốt và những gì Excel hiển thị là tốt nhất bạn có thể làm.

Nếu bạn lấy đường màu đỏ được đề xuất của mình và tiếp tục với nó tới x = -0,714 và x = -0,712, bạn sẽ thấy rằng các giá trị của nó là cách, thoát khỏi biểu đồ và nó nằm ở khoảng cách rất xa so với các giá trị y tương ứng .

Câu hỏi mà Excel trả lời không phải là "dòng nào gần điểm dữ liệu nhất", mà là "dòng nào là tốt nhất để dự đoán giá trị y từ giá trị x" và nó thực hiện chính xác.


4
Chính xác. Giả định cơ bản là "x được đưa ra, y được đo / dự đoán".
Floris

12

Tôi không muốn thêm bất cứ điều gì vào các câu trả lời khác, nhưng tôi muốn nói rằng bạn đã bị dẫn dắt bởi thuật ngữ xấu, đặc biệt là thuật ngữ "dòng phù hợp nhất" được sử dụng trong một số khóa học thống kê.

Theo trực giác, một "dòng phù hợp nhất" sẽ trông giống như dòng màu đỏ của bạn. Nhưng dòng được sản xuất bởi Excel không phải là "dòng phù hợp nhất"; nó thậm chí không cố gắng để được. Đây là một dòng trả lời câu hỏi: với giá trị của x, dự đoán tốt nhất của tôi cho y là gì? hoặc cách khác, giá trị y trung bình cho mỗi giá trị x là gì?

Lưu ý sự bất đối xứng ở đây giữa x và y; sử dụng tên "dòng phù hợp nhất" che khuất điều này. Excel cũng sử dụng "đường xu hướng".

Nó được giải thích rất tốt tại liên kết sau:

https: //www.stat.ber siêu.edu/~stark/SticiGui/Text/regression.htmlm

Bạn có thể muốn một cái gì đó giống như "Loại 2" trong câu trả lời ở trên hoặc "Dòng SD" tại trang khóa học thống kê Berkeley.


11

Một phần của vấn đề quang học xuất phát từ các thang đo khác nhau - nếu bạn sử dụng cùng một tỷ lệ trên cả hai trục, nó sẽ trông khác nhau.

Nói cách khác, bạn có thể làm cho hầu hết các dòng 'phù hợp nhất' trông như 'không trực quan' bằng cách trải rộng một trục.


1
Tôi đồng ý đây là câu trả lời - phạm vi X của các giá trị rộng khoảng 0,02, nhưng phạm vi Y chỉ khoảng 0,005 - trên thực tế, biểu đồ nên rộng khoảng 4 lần so với mức cao và rõ ràng là phù hợp nhất sẽ là ngang. Hiện tượng trong câu hỏi hoàn toàn trực quan do quy mô khác nhau.
RemcoGerlich

3
@RemcoGerlich Chúng tôi có thể đồng ý rằng như thể hiện trong câu hỏi, tỷ lệ khung hình của biểu đồ là không hữu ích. Nhưng gợi ý rằng bạn cần một biểu đồ rộng gấp 4 lần vì số lượng các phạm vi trong tỷ lệ đó là không hợp lý và chắc chắn không phải là vấn đề thực tế. Nếu các đơn vị trên một trong hai trục được thay đổi theo hệ số 1000, bạn sẽ đề xuất tỷ lệ khung hình là 4000 hoặc 0,004? Tỷ lệ 4x có thể chỉ là tác dụng phụ của các đơn vị khác nhau.
Nick Cox

4
Các câu trả lời khác cho câu trả lời đúng. Điều này thật đáng buồn. Nếu chúng ta nối lại các giá trị, sao cho chúng ta có cùng một hình ảnh trực quan, nhưng với các trục bằng nhau, thì đó vẫn là vấn đề khớp "loại 1" so với "loại 2".
Hans Janssen

1
Ông nói về "ý thức chung" phù hợp nhất, điều gì là đúng "với mắt người". Và sau đó, tỷ lệ của các trục là điều chính có liên quan.
RemcoGerlich

Anh ta có một điểm, đôi khi những gì có vẻ trực quan bị ảnh hưởng bởi những thứ ngớ ngẩn như nhân rộng, mặc dù đây không phải là trường hợp như vậy. Ở đây chúng ta có một sự không phù hợp thực sự giữa những gì excel làm và những gì OP muốn
Aksakal 18/03/18

4

Một vài cá nhân đã lưu ý rằng vấn đề là trực quan - tỷ lệ đồ họa được sử dụng tạo ra thông tin sai lệch. Cụ thể hơn, tỷ lệ của "lon" sao cho nó có vẻ như là một vòng xoắn chặt chẽ cho thấy đường hồi quy cung cấp mức độ phù hợp kém (một đánh giá mà tôi đồng ý, đường màu đỏ bạn vẽ sẽ cung cấp các lỗi bình phương thấp hơn nếu dữ liệu được định hình theo cách trình bày).

Dưới đây tôi cung cấp một biểu đồ phân tán được tạo trong Excel với tỷ lệ thay đổi cho "lon" được thay đổi để nó không tạo ra vòng xoắn chặt chẽ trong biểu đồ phân tán của bạn. Với sự thay đổi này, đường hồi quy hiện cung cấp sự phù hợp thị giác tốt hơn và tôi nghĩ giúp chứng minh làm thế nào tỷ lệ trong biểu đồ phân tán ban đầu cung cấp một đánh giá sai lệch về sự phù hợp.

Tôi nghĩ rằng hồi quy hoạt động tốt ở đây. Tôi không nghĩ rằng một phân tích phức tạp hơn là cần thiết.

nhập mô tả hình ảnh ở đây

Đối với bất kỳ ai quan tâm, tôi đã vẽ sơ đồ dữ liệu bằng công cụ ánh xạ và hiển thị hồi quy phù hợp với dữ liệu. Các chấm màu đỏ là dữ liệu được ghi lại và màu xanh lá cây là đường hồi quy.

nhập mô tả hình ảnh ở đây

Và đây là cùng một dữ liệu trong một biểu đồ phân tán với đường hồi quy; ở đây lat được coi là điểm phụ thuộc và lat được đảo ngược để phù hợp với hồ sơ địa lý.

nhập mô tả hình ảnh ở đây


1
Hồi quy không cho thấy hướng gió trôi
Aksakal 18/03/18

Chúng tôi chỉ biết lat và lon, và đối với dữ liệu được cung cấp, nó cho thấy sự thay đổi của người này so với người kia.
Bryan

Vậy đường xu hướng này có ý nghĩa gì?
Aksakal

Giả sử điểm đầu tiên trong tệp dữ liệu là vị trí bắt đầu, có vẻ như có một sự gia tăng nhỏ về phía bắc trong tuyến đường đi về phía đông. Dữ liệu không cung cấp thông tin về cường độ hoặc chiều cao của gió, nhưng không cung cấp hướng - phía đông bắc.
Bryan

Sửa lỗi, phần mềm lập bản đồ tôi đã sử dụng yêu cầu lat-lon, nhưng dữ liệu của anh ta là lon-lat, do đó hướng gió sẽ hơi hướng bắc về phía đông, tức là có một chuyển động nhẹ về phía đông khi đi về phía bắc (hoặc chuyển động nhẹ về phía tây ở phía nam đi du lịch).
Bryan

1

Hồi quy bình phương tối thiểu bình phương (OLS) nhầm lẫn của bạn (giúp giảm thiểu tổng độ lệch bình phương về các giá trị dự đoán, (dự đoán được quan sát) ^ 2) và hồi quy trục chính (giúp giảm thiểu tổng bình phương của khoảng cách vuông góc giữa mỗi điểm và đường hồi quy, đôi khi điều này được gọi là hồi quy loại II, hồi quy trực giao hoặc hồi quy thành phần chính được tiêu chuẩn hóa).

Nếu bạn muốn so sánh hai cách tiếp cận chỉ trong R, hãy xem

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

nhập mô tả hình ảnh ở đây

plot(fit,method="MA") # major axis regression

nhập mô tả hình ảnh ở đây

Những gì bạn thấy trực quan nhất (đường màu đỏ của bạn) chỉ là hồi quy trục chính, mà nói trực quan thực sự là cái nhìn hợp lý nhất, vì nó giảm thiểu khoảng cách vuông góc với các điểm của bạn. Hồi quy OLS sẽ chỉ xuất hiện để giảm thiểu khoảng cách vuông góc với các điểm của bạn nếu biến x và y có cùng thang đo và / hoặc có cùng số lỗi (bạn có thể thấy điều này đơn giản dựa trên định lý của Pythagoras). Trong trường hợp của bạn, biến y của bạn có cách lan truyền nhiều hơn trên nó, do đó sự khác biệt ...


0

Câu trả lời PCA là tốt nhất bởi vì tôi nghĩ đó là những gì bạn nên làm với mô tả vấn đề của bạn, tuy nhiên câu trả lời PCA có thể gây nhầm lẫn cho PCA và hồi quy là những điều hoàn toàn khác nhau. Nếu bạn muốn ngoại suy tập dữ liệu cụ thể này thì bạn cần thực hiện hồi quy và có thể muốn thực hiện hồi quy Deming (mà tôi đoán đôi khi đi theo Loại II, chưa bao giờ nghe mô tả này). Tuy nhiên, nếu bạn muốn tìm ra hướng nào là quan trọng nhất (người bản địa) và có một số liệu về tác động tương đối của chúng đối với tập dữ liệu (giá trị riêng) thì PCA là cách tiếp cận chính xác.


4
Đây chủ yếu là một loạt các ý kiến ​​về câu trả lời khác. Nó sẽ là tốt hơn để bình luận trực tiếp trên mỗi. Tôi không thấy rằng câu trả lời của @Aksakal gây nhầm lẫn cho PCA và hồi quy cả.
Nick Cox

Tôi muốn bình luận trực tiếp, nhưng không đủ uy tín. Tôi không nghĩ Aksakal là hồi quy khó hiểu, nhưng nghĩ rằng đáng để chỉ ra cho OP rằng PCA và hồi quy hoàn toàn khác nhau.
Andrew H
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.