Có thể phân hủy phần dư được trang bị thành sai lệch và phương sai, sau khi lắp mô hình tuyến tính?

9

Tôi muốn phân loại các điểm dữ liệu là cần một mô hình phức tạp hơn hoặc không cần một mô hình phức tạp hơn. Suy nghĩ hiện tại của tôi là điều chỉnh tất cả dữ liệu cho một mô hình tuyến tính đơn giản và quan sát kích thước của phần dư để thực hiện phân loại này. Sau đó tôi đã đọc một số thông tin về các đóng góp sai lệch và sai lệch và nhận ra rằng nếu tôi có thể tính toán sai lệch trực tiếp, thì đó có thể là một biện pháp tốt hơn sau đó làm việc với tổng sai số (dư hoặc chuẩn hóa).

Có thể ước tính sai lệch trực tiếp với một mô hình tuyến tính? Có hay không có dữ liệu kiểm tra? Xác nhận chéo sẽ giúp ở đây?

Nếu không, người ta có thể sử dụng một nhóm khởi động trung bình của các mô hình tuyến tính (tôi nghĩ nó được gọi là đóng bao) để ước tính sai lệch không?

— km
nguồn

1

Có lẽ đây là tương đương (dư so với sai lệch) vì phương sai trong hằng số?

— kmace

1

Bạn có thể làm rõ những gì bạn có ý nghĩa bằng tuyên bố đầu tiên của bài viết của bạn? Trong đó bạn muốn phân loại "điểm dữ liệu" (quan sát riêng lẻ?) Là "cần phức tạp hơn, hoặc không cần mô hình phức tạp hơn". Tôi không rõ chính xác điều này có nghĩa là gì (mặc dù nghe có vẻ như là một phát hiện ngoại lệ hoặc vấn đề loại phù hợp khác) hoặc cách nó liên quan đến các câu hỏi sau về ước tính sai lệch.

— Ryan Simmons

Ý tôi là có một tập hợp con các mẫu của tôi có hàm mục tiêu khác

. Vì vậy, giả sử rằng đối với hầu hết các mẫu, hàm mục tiêu thực sự như sau:

và đối với thiểu số các mẫu, hàm mục tiêu là:

f (x)

$f(x)$

f_{1} (x) = 3 x_{1} + 2 x_{2}

$f_1(x) = 3x_1 + 2x_2$

f_{2} (x) = 3 x_{1} + 2 x_{2} + x_{1} x_{2}

$f_2(x) = 3x_1 + 2x_2 + x_1x_2$ . Nếu tôi không cho phép các thuật ngữ tương tác trong mô hình của mình (bộ giả thuyết của tôi không chứa chúng), thì tôi sẽ phù hợp với tất cả dữ liệu và xem các mẫu có lỗi lớn có thể có chức năng đích

f_{2}

$f_2$

— kmace

2

Như Ryan đã chỉ ra, câu hỏi không được nêu rõ ràng. Nhận xét của bạn chỉ ra hướng "lòng tốt phù hợp". Nhưng nó là không thể để biến điều này xung quanh. Bạn dường như có một khái niệm trước trong tâm trí, đó là sai lệch. Bạn có thể tính toán nhiều thứ nếu bạn kết hợp một mô hình và một số dữ liệu và xác định các tham số mô hình. Nhưng do bạn luôn bắt đầu với một tập dữ liệu bị giới hạn về mặt thống kê, không có sự thật nào bạn có thể khám phá bằng cách đào mạnh hơn hoặc dùng nhiều xẻng hơn. Không có phương pháp nào bạn áp dụng sẽ mang lại sự thật, nhưng nó có thể cho thấy bạn có thể sai như thế nào.

— cherub

12

Nói chung, bạn không thể phân tách lỗi (phần dư) thành các thành phần sai lệch và phương sai. Lý do đơn giản là bạn thường không biết chức năng thực sự. Nhớ lại rằng và là điều chưa biết bạn muốn để ước tính. $bias(\hat f(x)) = E[\hat f(x) - f(x)],$ $f(x)$

Còn bootstrapping thì sao? Có thể ước tính thiên vị của một ước lượng bởi bootstrapping, nhưng nó không phải về mô hình đóng bao, và tôi không tin rằng có một cách để sử dụng bootstrap để đánh giá thiên vị trong vì bootstrapping vẫn dựa trên một số khái niệm về Sự thật và không thể, bất chấp nguồn gốc của tên của nó, tạo ra một cái gì đó từ hư vô. $\hat f(x),$

Để làm rõ: ước tính bootstrap sai lệch trong công cụ ước tính là $\hat \theta$

{\hat{b i a s}}_{B} = {\hat{θ}}^{*} (\cdot) - \hat{θ},

$\widehat{bias}_B = \hat\theta^*(\cdot) - \hat \theta,$

với là mức trung bình của số liệu thống kê của bạn tính theo mẫu bootstrap . Quá trình này mô phỏng việc lấy mẫu từ một số người và tính toán số lượng quan tâm của bạn. Điều này chỉ hoạt động nếu có thể về nguyên tắc được tính trực tiếp từ người dân. Ước tính bootstrap của bias đánh giá xem liệu ước tính của plug-in có nghĩa là chỉ thực hiện cùng một tính toán trên một mẫu thay vì trong dân số. $\hat\theta^*(\cdot)$ $B$ $\hat\theta$

Nếu bạn chỉ muốn sử dụng số dư của mình để đánh giá sự phù hợp của mô hình, điều đó là hoàn toàn có thể. Nếu bạn, như bạn nói trong các ý kiến, muốn so sánh các mô hình lồng nhau và , bạn có thể làm ANOVA để kiểm tra xem mô hình lớn hơn có làm giảm đáng kể tổng lỗi bình phương hay không. $f_1(x) = 3x_1 + 2x_2$ $f_2(x) = 3x_1 + 2x_2 + x_1x_2$

— einar
nguồn

8

Một tình huống mà bạn có thể có được ước tính về sự phân tách là nếu bạn có các điểm được nhân rộng (nghĩa là có nhiều hơn một phản hồi cho các kết hợp khác nhau của các yếu tố dự đoán).

Điều này chủ yếu giới hạn trong các tình huống mà bạn có quyền kiểm soát các biến độc lập (chẳng hạn như trong các thử nghiệm) hoặc khi chúng hoàn toàn rời rạc (khi không có quá nhiều kết hợp x và bạn có thể lấy một mẫu đủ lớn để kết hợp giá trị x được nhiều điểm).

Các điểm được nhân rộng cung cấp cho bạn một cách ước lượng mô hình trung bình không có điều kiện. Trong những tình huống như vậy, có khả năng phân tách tổng bình phương còn lại thành lỗi thuần túy và thiếu sự phù hợp , nhưng bạn cũng có ước tính trực tiếp (mặc dù rất ồn ào) về độ lệch ở mỗi kết hợp giá trị x mà bạn có nhiều phản hồi.

— Glen_b -Reinstate Monica
nguồn

Tôi không nghĩ rằng điều này sẽ làm việc. Xem xét trường hợp bạn bỏ qua một biến giải thích quan trọng từ mô hình của bạn. Nếu biến giải thích này là trực giao với tất cả các biến giải thích khác, tôi tin rằng tác dụng của nó (hoặc thiếu) không thể được phát hiện với điều này hoặc bất kỳ phương pháp nào khác được đề xuất trong các câu trả lời khác.

— Cagdas Ozgenc

2

@Cagdas Nó không hoạt động trong mọi hoàn cảnh; nó phát hiện sai lệch từ dạng mô hình bị xác định sai, không nhất thiết phải thiếu các yếu tố dự đoán

— Glen_b -Reinstate Monica

1

Trong lĩnh vực lọc Kalman có phần phức tạp hơn, đôi khi người ta kiểm tra các phần dư (các phép đo quan sát trừ đi các phép đo dự đoán) để tìm kiếm các thay đổi mô hình hoặc điều kiện lỗi. Về lý thuyết, nếu mô hình là hoàn hảo và nhiễu là Gaussian, thì phần dư cũng phải là Gaussian với giá trị trung bình bằng 0 và cũng phù hợp với ma trận hiệp phương sai dự đoán. Mọi người có thể kiểm tra giá trị trung bình bằng các thử nghiệm liên tiếp như Thử nghiệm tỷ lệ xác suất tuần tự (SPRT). Tình huống của bạn là khác nhau vì bạn có một lô dữ liệu cố định thay vì một luồng dữ liệu mới ổn định. Nhưng ý tưởng cơ bản về việc xem xét phân phối mẫu của phần dư vẫn có thể được áp dụng.

Bạn chỉ ra rằng quá trình bạn đang lập mô hình có thể thay đổi đôi khi. Sau đó, để làm nhiều hơn với dữ liệu bạn có, có lẽ bạn cần xác định các yếu tố khác gây ra thay đổi đó. Xem xét 2 khả năng: (1) có thể bạn cần các mô hình cục bộ thay vì một mô hình toàn cầu, ví dụ: bởi vì có các phi tuyến nghiêm trọng chỉ ở một số vùng vận hành hoặc (2), có thể quá trình thay đổi theo thời gian.

Nếu đây là một hệ thống vật lý và các mẫu của bạn không cách nhau khoảng thời gian lớn, thì có thể các thay đổi quy trình này vẫn tồn tại trong các khoảng thời gian đáng kể. Đó là, các tham số mô hình thực sự đôi khi có thể thay đổi, tồn tại trong một khoảng thời gian. Nếu dữ liệu của bạn được đóng dấu thời gian, bạn có thể xem xét số dư theo thời gian. Chẳng hạn, giả sử bạn có vừa y = Ax + b bằng cách sử dụng tất cả dữ liệu của mình, tìm A và b. Sau đó quay lại và kiểm tra chuỗi dư r [k] = y [k] - Ax [k] - b, trong đó k là một chỉ số tương ứng với thời gian theo thứ tự tuần tự. Tìm kiếm các mẫu theo thời gian, ví dụ: các khoảng thời gian thống kê tóm tắt như | | r [k] || vẫn cao hơn bình thường trong một thời gian. Các thử nghiệm tuần tự sẽ nhạy cảm nhất trong việc phát hiện các loại sai lệch kéo dài, giống như SPRT hoặc thậm chí CUSUM cho các chỉ số vectơ riêng lẻ.

— gms
nguồn

1

Câu trả lời là không , bởi vì độ lệch và phương sai là các thuộc tính của tham số mô hình, thay vì dữ liệu được sử dụng để ước tính chúng. Có một ngoại lệ một phần cho tuyên bố đó liên quan đến sai lệch và phương sai khác nhau (ha!) Thông qua không gian dự đoán; nhiều hơn về điều đó dưới đây. Lưu ý rằng điều này hoàn toàn không liên quan gì đến việc biết một số chức năng "đúng" liên quan đến các yếu tố dự đoán và biến trả lời.

$β$ $\hatβ=(X^TX)^{-1}X^TY$ $X$ $N×P$ $\hatβ$ $P×1$ $Y$ $N×1$ $N$ $P$ $\hatβ$ $N_{iter}$ $N$ $N_{iter}$ $\hatβ$ $N$ $P$

$\hatβ_{best}$ $P$ $\hatβ_{best_j}-\hatβ_j$ $j$ $1$ $N_{iter}$

Có nhiều cách tương ứng về sai lệch và sai lệch liên quan đến chính dữ liệu, nhưng chúng phức tạp hơn một chút. Như bạn có thể thấy, độ lệch và phương sai có thể được ước tính cho các mô hình tuyến tính, nhưng bạn sẽ yêu cầu khá nhiều dữ liệu chờ đợi. Một vấn đề khó hiểu hơn là một khi bạn bắt đầu làm việc với một bộ dữ liệu cố định, các phân tích của bạn sẽ bị ô nhiễm bởi phương sai cá nhân của bạn , trong đó bạn sẽ bắt đầu lang thang trong khu vườn của những con đường mòn và không có cách nào để biết điều đó sẽ sao chép ngoài mẫu (trừ khi bạn chỉ đưa ra một mô hình duy nhất và chạy phân tích này và cam kết để nó một mình sau đó).

$Y$ $\hat{Y}$ $Y-\hat{Y}$ $\hat{Y}=X\hatβ$ $\hatβ$ $Y$ $X$

— Josh
nguồn