Tại sao hồi quy tuyến tính sử dụng hàm chi phí dựa trên khoảng cách dọc giữa giả thuyết và điểm dữ liệu đầu vào?


14

Giả sử chúng ta có các điểm dữ liệu đầu vào (dự đoán) và đầu ra (phản hồi) A, B, C, D, E và chúng ta muốn khớp một đường qua các điểm. Đây là một vấn đề đơn giản để minh họa cho câu hỏi, nhưng cũng có thể được mở rộng sang kích thước cao hơn.

Báo cáo vấn đề

nhập mô tả hình ảnh ở đây

Giả thuyết phù hợp nhất hoặc hiện tại được thể hiện bằng đường màu đen ở trên. Mũi tên màu xanh ( ) biểu thị khoảng cách dọc giữa điểm dữ liệu và mức phù hợp nhất hiện tại, bằng cách vẽ một đường thẳng đứng từ điểm cho đến khi nó giao nhau với đường.

Mũi tên màu xanh lá cây ( ) được vẽ sao cho vuông góc với giả thuyết hiện tại tại điểm giao nhau và do đó biểu thị khoảng cách nhỏ nhất giữa điểm dữ liệu và giả thuyết hiện tại. Đối với các điểm A và B, một đường được vẽ sao cho thẳng đứng với dự đoán tốt nhất hiện tại và tương tự như một đường thẳng đứng với trục x. Đối với hai điểm này, các đường màu xanh lam và xanh lục trùng nhau, nhưng chúng không cho các điểm C, D và E.

Nguyên tắc bình phương nhỏ nhất xác định hàm chi phí cho hồi quy tuyến tính bằng cách vẽ một đường thẳng đứng qua các điểm dữ liệu (A, B, C, D hoặc E) cho giả thuyết ước tính ( ), tại bất kỳ chu kỳ đào tạo cụ thể nào và được đại diện bởi

CostFunction=i=1N(yihθ(xi))2

Ở đây đại diện cho các điểm dữ liệu và đại diện cho sự phù hợp nhất.(xi,yi)hθ(xi)

Khoảng cách tối thiểu giữa một điểm (A, B, C, D hoặc E) được biểu thị bằng một đường vuông góc được vẽ từ điểm đó đến dự đoán tốt nhất hiện tại (mũi tên màu xanh lá cây).

Mục tiêu của hàm bình phương tối thiểu là xác định hàm mục tiêu mà khi được tối thiểu hóa sẽ tạo ra khoảng cách nhỏ nhất giữa giả thuyết và tất cả các điểm kết hợp, nhưng sẽ nhất thiết phải giảm thiểu khoảng cách giữa giả thuyết và một điểm đầu vào.

** Câu hỏi **

Tại sao chúng ta không định nghĩa Hàm chi phí cho hồi quy tuyến tính là khoảng cách nhỏ nhất giữa điểm dữ liệu đầu vào và giả thuyết (được xác định bởi một đường vuông góc với giả thuyết) đi qua datapoin, như được đưa ra bởi ( )?


5
Hồi quy tuyến tính đơn giản giả định rằng không có lỗi trong các giá trị của tọa độ x của các quan sát (ví dụ: vì chúng là các thao tác thử nghiệm). Nếu có lỗi trên trục x, người ta có thể giải quyết chúng bằng cách giảm thiểu hàm chi phí tương tự như hàm bạn đề xuất; điều này đòi hỏi phải đặt tỷ lệ giữa phương sai của các lỗi trên trục x và y. Nếu tỷ lệ , số tiền này sẽ giảm thiểu khoảng cách vuông góc giữa các điểm và đường thẳng (hồi quy trực giao). Nếu tỷ lệ 1, nó được gọi là hồi quy Deeming=11
matteo

Xem bài đăng này trên PCA: cerebralmastication.com/2010/09/ trên
James

Câu trả lời:


13

Khi bạn có nhiễu ở cả biến phụ thuộc (lỗi dọc) và biến độc lập (lỗi ngang), hàm mục tiêu bình phương nhỏ nhất có thể được sửa đổi để kết hợp các lỗi ngang này. Vấn đề làm thế nào để cân hai loại lỗi này. Trọng số này thường phụ thuộc vào tỷ lệ phương sai của hai lỗi:

  1. Nếu phương sai của lỗi dọc là cực kỳ lớn so với phương sai của lỗi ngang, OLS là chính xác.
  2. Nếu phương sai của sai số ngang là tương đối rất lớn cho phương sai của sai số dọc, nghịch đảo bình phương nhỏ nhất (trong đó là thụt lùi về y và nghịch đảo của hệ số ước lượng cho y được sử dụng như ước tính của β ) là thích hợp.xyyβ
  3. Nếu tỷ lệ phương sai của sai số dọc với phương sai của sai số ngang bằng tỷ lệ phương sai của các biến phụ thuộc và biến độc lập, chúng ta có trường hợp hồi quy "đường chéo", trong đó ước tính nhất quán hóa ra là giá trị trung bình hình học của OLS và ước lượng bình phương nhỏ nhất nghịch đảo.
  4. Nếu tỷ lệ của các phương sai lỗi này là một, thì chúng ta có trường hợp hồi quy "trực giao", trong đó tổng các lỗi bình phương được đo dọc theo một đường vuông góc với đường ước lượng được giảm thiểu. Đây là những gì bạn đã có trong tâm trí.

Trong thực tế, nhược điểm lớn của quy trình này là tỷ lệ phương sai lỗi thường không được biết và thường không thể ước tính được, do đó, con đường phía trước không rõ ràng.


Tôi đã cố chỉnh sửa để thay đổi "phụ thuộc" thành "độc lập" trong câu đầu tiên nhưng các chỉnh sửa phải có 6 ký tự. Có thể cập nhật câu trả lời để sửa lỗi đánh máy?
Ryan Stout

@RyanStout Cảm ơn, và đã hoàn thành. Tôi nghĩ rằng chèn không gian sẽ giúp bạn xung quanh đó.
Dimitriy V. Masterov

Bây giờ tôi có một chút bối rối: không phải lỗi dọc là lỗi trong biến phụ thuộc (y) và lỗi ngang trong biến độc lập (x)?
Ryan Stout

@RyanStout Tôi lại làm hỏng nó một lần nữa
Dimitriy V. Masterov

9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

Đó là một điểm hay. Tôi đã suy nghĩ làm thế nào để tính toán Hàm Chi phí nói chung.
alpha_989

Tôi không chắc chắn làm thế nào để đánh giá khoảng cách giữa điểm và mặt phẳng / mặt phẳng phi tuyến tính, nhưng để đánh giá khoảng cách giữa một điểm và mặt phẳng / mặt phẳng tuyến tính, chúng ta có thể không cần tối thiểu hóa lồng nhau: mathinsight.org/distance_point_plane
alpha_989

Thứ hai, khi chúng tôi sử dụng hồi quy, mục tiêu của chúng tôi là đánh giá các trọng số để tìm ra mức phù hợp nhất. Từ những gì tôi hiểu, trong quá trình tính toán thực tế, chúng ta hiếm khi đánh giá hàm chi phí, nhưng một số đạo hàm của hàm chi phí?
alpha_989

1
@whuber. Tôi hiểu rồi. Khi chúng tôi thiết lập các ý nghĩa cho hai thuật ngữ đó, tôi đồng ý rằng các vấn đề đang được giải quyết là khác nhau (có hoặc không có khả năng xảy ra lỗi trong x). Tôi không nghĩ rằng bạn sẽ nhận được sự đồng ý rộng rãi từ những người hiểu biết về ý nghĩa của các điều khoản đó, nhưng đó là một điểm phụ.
ngẫu nhiên

1
@Stochastic Tôi đồng ý có thể có sự mơ hồ về khái niệm "khớp đường cong", nhưng khái niệm hồi quy tôi đang viện dẫn xuất hiện trong các bài viết của các cơ quan có thẩm quyền tốt nhất.
whuber

2

Phiên bản đơn giản hóa là X được cho là không có lỗi. Vì vậy, nếu bạn nhìn vào điểm E trong cốt truyện của mình chẳng hạn, thì giả định rằng tọa độ X của nó là chính xác. Thông thường, đây là trường hợp khi chúng ta có thể kiểm soát X, nói cách khác là khi chúng ta có thể đặt nó thành một giá trị cụ thể. Trong trường hợp đó, lỗi duy nhất có thể tồn tại là theo hướng Y và đó là lý do tại sao hàm lỗi / chi phí chỉ bao gồm hướng Y.

Bất cứ khi nào không phải như vậy, bất cứ khi nào chúng ta không kiểm soát X và X đều có thể có lỗi, mọi người sẽ kết hợp hướng X trong hàm lỗi trong một thứ gọi là hồi quy loại II hoặc mô hình II và các biến thể của nó. Có thể khó thực hiện điều này nếu X và Y có các thang đo khác nhau, do đó bạn phải suy nghĩ về các chuẩn hóa và như vậy.


1

Có nguy cơ bị prosaic, lý do cho hàm lỗi là do cách hiểu chuẩn là x được đưa ra và người ta đang cố gắng mô tả (hoặc dự đoán) thành phần y tốt nhất. Vì vậy, không có lỗi trong 'x'. Ví dụ, bạn có thể thử và hiểu (hoặc dự đoán) giá đóng cửa của một cổ phiếu vào ngày mai dựa trên giá đóng cửa hôm nay. Tương tự như vậy, người ta có thể thử và hiểu nhiệt độ trung bình vào ngày mai về nhiệt độ trung bình ngày nay. Rõ ràng những ví dụ này là những suy nghĩ đơn giản, nhưng đó là ý tưởng. Ngẫu nhiên, một điều mà hầu hết mọi người không nhận ra, nhưng tôi nghĩ rõ ràng từ các ví dụ của bạn, là nếu một hồi quy y chống lại x đường hồi quy thì không cần phải có bất kỳ sự tương đồng cụ thể nào với hồi quy của x so với y. Hồi quy trực giao là thuật ngữ cho hồi quy trong đó người ta cố gắng tìm dòng thu nhỏ khoảng cách các điểm từ một dòng. Ví dụ, nếu một người đang cố gắng tìm hiểu mối quan hệ giữa giá của cổ phiếu IBM và giá của cổ phiếu AAPL, đó sẽ là phương pháp thích hợp.


1

Bạn đã đúng rằng, khi khớp một đường qua các điểm, khoảng cách trực giao là hàm mất tự nhiên nhất có thể được áp dụng cho các đường tùy ý (lưu ý rằng khoảng cách y trở nên vô nghĩa đối với các đường vuông góc với trục x). Vấn đề này được biết đến dưới một số tên, ví dụ "hồi quy trực giao" hoặc (thuật ngữ được sử dụng nhiều nhất, AFAIK) "Phân tích thành phần chính" (PCA). Để thảo luận về vấn đề này trong các chiều tối tùy ý, xem

Späth: "Hình vuông nhỏ nhất trực giao phù hợp với đa tạp tuyến tính." Numerische Mathematik 48, trang 441 trừ445, 1986

Như @aginensky đã chỉ ra, ý tưởng đằng sau Hồi quy tuyến tính không phải là khớp một đường qua các điểm, mà là để dự đoán các giá trị y cho các giá trị x đã cho. Đó là lý do tại sao chỉ có khoảng cách trong y được sử dụng, đó là độ chính xác dự đoán.

x(t)pii=1Nt

Wang, Pottmann, Liu: "Lắp đường cong B-spline để chỉ các đám mây bằng cách thu nhỏ khoảng cách bình phương dựa trên độ cong." Giao dịch ACM trên đồ họa 25.2, trang 214-238, 2006

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.