Khả năng hồi quy tuyến tính


7

Tôi đang cố gắng hiểu làm thế nào mọi người rút ra Khả năng cho hồi quy tuyến tính đơn giản. Hãy nói rằng chúng ta chỉ có một tính năng x và kết quả y. Tôi không nghi ngờ biểu hiện với mật độ bình thường và tôi cũng không nghi ngờ rằng người ta có thể biến sản phẩm thành các yếu tố đơn giản hơn do tính độc lập. Tôi nghi ngờ làm thế nào mọi người rút ra biểu hiện này. Dường như có cả một sở thú (giả định một phần) về đầu vào và hầu như ở mọi nơi, bước quan trọng (namyle làm thế nào để lấy được sản phẩm có mật độ bình thường) trong đó người ta thực sự phải sử dụng các giả định chính xác bị bỏ qua :-(

Những gì tôi nghĩ là tự nhiên để giả định là như sau: Chúng tôi được cung cấp một bộ huấn luyện cố định và cho rằng(xi,yi)i=1,2,...,n

  1. các cặp trong tập huấn luyện cố định có độ dài đến từ các biến ngẫu nhiên được phân phối iid(xi,yi)n(Xi,Yi)
  2. Yi=β0Xi+ϵi
  3. các là các biến một chiều iid ngẫu nhiên mỗi phân phối như với được biết đến (để đơn giản hóa) (có lẽ ta nên thừa nhận điều gì đó về mật độ có điều kiện ở đây? Mọi người dường như không chắc chắn những gì thực sự giả định ở đây ...)ϵiN(0,σ)σfϵi|Xi

Đặt và đặt . Bây giờ mục tiêu là xác định mật độ có điều kiện . Rõ ràng, Y=(Y1,...,Yn)X=(X1,...,Xn)fY|X=f(Y,X)fX

fY|X=i=1nfYi|Xi

Câu hỏi:

Làm thế nào để tiến hành từ đây?

Tôi không thấy các giả định cung cấp thông tin về hoặc về vì vậy tôi chỉ đơn giản là không thể tính được đại lượng này . Ngoài ra, một số người có thể nghĩ rằng và thường được phân phối (hoặc thường được phân phối) có nghĩa là thường được phân phối, nhưng ...f(Yi,Xi)fXifYi|Xi=f(Yi,Xi)fXiYi=β0Xi+ϵiϵiϵi|XiYi|X

Có một câu lệnh cho các biến ngẫu nhiên được phân phối bình thường nhưng nó sẽ như sau: Nếu được phân phối bình thường và là các ma trận cố định thì thường được phân phối lại. Trong trường hợp trên, là đó là không một ma trận liên tục.XA,BAX+BBβ0Xi

Các nguồn khác dường như cho rằng thường được phân phối ngay lập tức. Đây dường như là một giả định kỳ lạ ... làm thế nào chúng ta có thể kiểm tra điều đó trên một tập dữ liệu thực?fYi|Xi

Trân trọng + cảm ơn,

FW


Có vấn đề trong thiết lập của bạn. Chẳng hạn, câu lệnh "biến ngẫu nhiên được phân phối iid" thường không chính xác. Ít nhất thường có các phương tiện khác nhau, vì vậy chúng không chỉ là những lý do này. (Xi,Yi)Xi
Aksakal

Mặc dù bạn cho rằng bạn chưa giả định bất cứ điều gì về phân phối chung, nhưng rõ ràng bạn đã đưa ra một giả định cực kỳ mạnh mẽ về nó trong (2) và (3).
whuber

@whuber: câu hỏi không phải là liệu hồi quy tuyến tính có phải là mô hình tốt hay không ... ngay cả khi tính toán một SVM, bạn hoàn toàn đưa ra các giả định rất mạnh mẽ về các bản phân phối ... vì bạn không đi theo cách bay bổng mà bạn che giấu điều này trong công thức mặc dù. Câu hỏi đặt ra là: cho rằng Hồi quy tuyến tính là một mô hình tốt, làm thế nào để tôi thực sự nấu công thức để tính toán các tham số :-)
Fabian Werner

@Aksakal: Tôi không hiểu bạn đang nói về điều gì, tôi xin lỗi ... Đây có vẻ là một cuộc thảo luận khá triết học: có cùng một ý nghĩa, được phân phối giống hệt nhau trong hầu hết tất cả các thiết lập trong học máy. Bạn có ý nghĩa gì với "chúng không có cùng một nghĩa"? Xi
Fabian Werner

@Aksakal: Ví dụ: trong một nhóm người được chọn ngẫu nhiên, tuổi của một Individuum cố định có phụ thuộc vào tuổi của những người khác không? Hầu như không có cơ hội bạn chọn các thành viên trong cùng một gia đình là nhỏ ...
Fabian Werner

Câu trả lời:


3

Giả định chính để lấy được là nhiễu độc lập với đầu vào, đó là độc lập với . Bạn không cần phải biết hoặc giả sử bất cứ điều gì về việc phân phối .fYi|XiϵiXiXi

Bạn bắt đầu với:

fYi|Xi(x,y)=p(Yi=y|Xi=x)=p(β0x+ϵi=y|Xi=x)=p(ϵi=yβ0x|Xi=x)

Bây giờ giả định độc lập được sử dụng, vì độc lập với , mật độ của nó với giá trị chỉ đơn giản là mật độ của nó:εTôiXTôiXTôi

p(εTôi= =y-β0x|XTôi= =x)= =p(εTôi= =y-β0x)= =...e(y-β0x)2/2σ2

Ngoài ra, bạn có thể nói rằng sự phân phối tiếng ồn có điều kiện choXTôi là bình thường với phương sai không đổi (và có nghĩa là 0) với bất kỳ giá trị nào của . Đây là những gì thực sự quan trọng. Nhưng điều này hoàn toàn tương đương với giả định thông thường:XTôi

  • εTôi độc lập vớiXTôi
  • εTôi thường được phân phối (với giá trị trung bình 0)

Câu trả lời rất tốt, cảm ơn bạn !!! Tuy nhiên, tôi vẫn đang vật lộn với những điều sau: làm thế nào để bạn kết luận rằng , tức là tại sao Bạn có tin rằng điều hòa trên một biến ngẫu nhiên trong cài đặt mật độ (không phải giá trị dự kiến ​​có điều kiện và những thứ như vậy) chỉ là thay thế bởi giá trị cụ thể ?? p(ε= =y-β0X|X= =x)= =p(ε= =y-β0x|X= =x)
Fabian Werner

Dễ thấy hơn với các biến rời rạc, vì bạn xử lý trực tiếp các xác suất có điều kiện đơn giản của các sự kiện. . Cuối cùng, bạn chỉ cần lưu ý rằng, như các sự kiện (bộ), . Nó chỉ là logic. Ý tưởng tương tự giữ mật độ. P(Y= =f(X)|X= =x)= =P(Y= =f(X) và X= =x)/P(X= =x)(Y= =f(X) và X= =x)= =(Y= =f(x) và X= =x)
Benoit Sanchez

Cuối cùng, có nó hoạt động như thay thế.
Benoit Sanchez

2

Nhờ câu trả lời của Benoit Sanchez, cuối cùng tôi cũng hiểu (nhưng bị mắc kẹt trên con đường sai lầm của một quy tắc thay thế cho mật độ có điều kiện). Câu trả lời như sau:

Người ta cần phải giả định rằng

  1. Các cặp đến từ các biến ngẫu nhiên sao cho các biến độc lập(xTôi,yTôi)(XTôi,YTôi)ZTôi= =(XTôi,YTôi)
  2. YTôi= =β0XTôi+εTôi
  3. Các được IID. phân phốiεTôiN(0,σ)
  4. εTôi độc lập với (lỗi không tăng hoặc giảm với tính năng nhưng không liên quan đến nó)XTôi
  5. X= =(X1,...,Xn) và có mật độ chung . Đặc biệt, tất cả có mật độ chung .Y= =(Y1,...,Yn)fX,Y(XTôi,YTôi)fXTôi,YTôi

Người ta cần quan sát đơn giản sau: Cho biến ngẫu nhiên có giá trị thực với mật độ chung và bijection sao cho và khác nhau thì tức là mật độ của biến ngẫu nhiên được chuyển đổi là mật độ cũ được đánh giá tại một điểm được chuyển đổi.nZ1,...,ZnfZ1,...,ZnΦ:RnRnΦΦ-1

fΦ(Z1,...,Zn)(z1,...,zn)= =|phát hiện(Φ-1)|fZ1,...,Zn(Φ-1(z1,...,zn))

Quan sát chính là biến ngẫu nhiên hai chiều là một phép biến đổi đơn giản của , cụ thể là trong đó . Chúng ta có . Ma trận vi phân của nó là là một yếu tố quyết định.(YTôi,XTôi)(εTôi,XTôi)

(YTôi,XTôi)= =Φ(εTôi,XTôi)
Φ(e,x)= =(e+β0x,x)Φ-1(y,x)= =(y-β0x,x)
Φ-1= =(1β001)

Bây giờ chúng tôi áp dụng quan sát cho tình huống này và có được

fYTôi,XTôi(y,x)= =fΦ(εTôi,XTôi)(y,x)= =1fεTôi,XTôi(Φ-1(y,x))= =fεTôi,XTôi(y-β0x,x)

Bây giờ độc lập với theo giả định, do đó hay đúng hơn là và từ đây (và từ theo giả định không phụ thuộc) người ta có được các phương trình khả năng thông thường.εTôiXTôi

fYTôi,XTôi(y,x)= =fεTôi(y-β0x)fX(x)
fYTôi|XTôi(y|x)= =fεTôi(y-β0x)fX(x)fX(x)= =fεTôi(y-β0x)
fY,X= =ΠTôifYTôi,XTôi

Bây giờ tôi hạnh phúc :-)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.