Lựa chọn giữa các hồi quy mạnh khác nhau trong R

Tôi đang viết một chương trình để đánh giá bất động sản và tôi thực sự không hiểu sự khác biệt giữa một số mô hình hồi quy mạnh mẽ, đó là lý do tại sao tôi không biết nên chọn cái nào.

Tôi đã thử lmrob, ltsRegvà rlm. đối với cùng một tập dữ liệu, cả ba phương thức đều cho tôi các giá trị khác nhau cho các hệ số.

Tôi nghĩ rằng nó là tốt nhất để sử dụng ltsRegbởi vì, summary(ltsReg())cung cấp thông tin về R-squaredvà p-valuesvà điều này sẽ giúp tôi để quyết định xem khi chấp nhận hay bác bỏ mô hình.

Bạn có nghĩ rằng đó ltsReglà một lựa chọn tốt?

EDIT: Tôi vừa đọc trên Thống kê mức độ phù hợp rằng bình phương R được điều chỉnh nói chung là chỉ số tốt nhất về sự phù hợp chất lượng

r regression p-value r-squared

— Paul
nguồn

Cả giá trị p và

đều có thể gây hiểu nhầm vì vậy việc chọn gói dựa trên thực tế là nó xuất ra chúng không thực sự là một tiêu chí tốt cho lựa chọn đó ...

R^{2}

$R^2$

— Tim

sau đó làm thế nào tôi có thể quyết định nếu mô hình là một mô hình hợp lệ mà không có âm mưu?

— Paul

Cũng xem xét hồi quy thứ tự vì nó có thể mạnh hơn và dễ hiểu hơn, và mạnh mẽ hơn.

— Frank Mitchell

@ user603: Tôi xác nhận nó. để đánh giá một bất động sản, tôi tạo ra một số mô hình, trong đó có số lượng đặc điểm khác nhau (ví dụ: 1. price ~ LivingArea + floorNumber + age + ...).

— Paul

Ai đó muốn đóng câu hỏi này! Tôi không nghĩ điều đó là đúng, ngay cả khi trên bề mặt, đó là về việc chọn các hàm R, nó thực sự là về cách thức và lý do tại sao chọn các phương pháp hồi quy mạnh mẽ, đó là, ontopic.

— kjetil b halvorsen

Trong ký hiệu tôi sẽ sử dụng, sẽ là số lượng biến thiết kế (bao gồm cả số hạng không đổi), số lượng quan sát với (nếu điều kiện cuối cùng này không được đáp ứng, gói sẽ không trả về phù hợp nhưng một lỗi, vì vậy tôi giả sử nó được đáp ứng). Tôi sẽ biểu thị bằng vectơ của các hệ số được ước tính bởi FLTS ( ) và các hệ số được ước tính bởi MM ( ). Tôi cũng sẽ viết: $p$ $n$ $n\geq2p+1$ $\hat{\boldsymbol\beta}_{FLTS}$ ltsReg $\hat{\boldsymbol\beta}_{MM}$ lmrob

r_{i}^{2} (\hat{β}) = (y_{i} - x_{i}^{⊤} \hat{β})^{2}

$r^2_i(\hat{\boldsymbol\beta})=(y_i-\boldsymbol x_i^\top\hat{\boldsymbol\beta})^2$

(đây là phần dư bình phương, không phải là phần chuẩn!)

Các rlmchức năng phù hợp với một 'M' ước lượng hồi quy và, như đề nghị @Frank Harrell đã khiến trong các ý kiến cho câu hỏi của bạn, nó không phải là mạnh mẽ để tách trên không gian thiết kế. Hồi quy thông thường có điểm phân tích (tỷ lệ dữ liệu của bạn cần được thay thế bằng các ngoại lệ để kéo các hệ số được trang bị thành các giá trị tùy ý) về cơ bản là có nghĩa là một ngoại lệ duy nhất (bất kể !) Đủ để hiển thị phù hợp vô nghĩa . Đối với ước tính hồi quy M (ví dụ hồi quy Huber M), điểm phân tích về cơ bản là . Điều này có phần cao hơn nhưng trong thực tế vẫn khó chịu gần bằng 0 (vì thường sẽ lớn). Kết luận duy nhất có thể được rút ra từ $1/n$ $n$ $1/(p+1)$ $p$ rlmviệc tìm kiếm sự phù hợp khác với hai phương pháp còn lại là nó đã bị ảnh hưởng bởi các ngoại lệ thiết kế và phải có nhiều hơn trong số này trong tập dữ liệu của bạn. $p+1$

Ngược lại, hai thuật toán còn lại mạnh mẽ hơn nhiều: điểm phân tích của chúng chỉ dưới và quan trọng hơn, không co lại khi trở nên lớn. Khi điều chỉnh mô hình tuyến tính bằng phương pháp mạnh, bạn giả sử rằng ít nhất quan sát trong dữ liệu của bạn không bị nhiễm bẩn. Nhiệm vụ của hai thuật toán này là tìm ra những quan sát đó và phù hợp với chúng nhất có thể. Chính xác hơn, nếu chúng ta biểu thị: $1/2$ $p$ $h=\lfloor(n+p+1)/2\rfloor+1$

\begin{aligned} H_{F L T S} & = {i : r_{i}^{2} ({\hat{β}}_{F L T S}) \leq q_{h / n} (r_{i}^{2} ({\hat{β}}_{F L T S}))} \\ H_{M M} & = {i : r_{i}^{2} ({\hat{β}}_{M M}) \leq q_{h / n} (r_{i}^{2} ({\hat{β}}_{M M}))} \end{aligned}

$\begin{align} H_{FLTS} &= \{i:r^2_i(\hat{\boldsymbol\beta}_{FLTS})\leq q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{FLTS}))\} \\ H_{MM} &= \{i:r^2_i(\hat{\boldsymbol\beta}_{MM})\leq q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{MM}))\} \end{align}$

(trong đó là lượng tử của vectơ ) $q_{h/n}(r^2_i(\hat{\boldsymbol\beta}_{MM}))$ $h/n$ $r^2_i(\hat{\boldsymbol\beta}_{MM})$

sau đó ( ) cố gắng khớp các quan sát với các chỉ số trong ( ). $\hat{\boldsymbol\beta}_{MM}$ $\hat{\boldsymbol\beta}_{FLTS}$ $H_{MM}$ $H_{FLTS}$

Thực tế là có sự khác biệt lớn giữa và chỉ ra rằng hai thuật toán không xác định cùng một tập hợp quan sát là ngoại lệ. Điều này có nghĩa là ít nhất một trong số chúng bị ảnh hưởng bởi các ngoại lệ. Trong trường hợp này, sử dụng (đã điều chỉnh) hoặc bất kỳ một thống kê nào từ một trong hai số liệu phù hợp để quyết định sử dụng, mặc dù trực quan, là một ý tưởng tồi tệ : phù hợp bị ô nhiễm thường có lượng dư nhỏ hơn so với sạch (nhưng vì kiến thức về Đây là lý do người ta sử dụng số liệu thống kê mạnh mẽ ngay từ đầu, tôi cho rằng OP nhận thức rõ về thực tế này và tôi không cần phải mở rộng về điều này). $\hat{\boldsymbol\beta}_{FLTS}$ $\hat{\boldsymbol\beta}_{MM}$ $R^2$

Hai sự phù hợp mạnh mẽ cho kết quả mâu thuẫn và câu hỏi nào là chính xác? Một cách để giải quyết điều này là xem xét tập hợp:

H^{+} = H_{M M} \cap H_{F L T S}

$H^+=H_{MM}\cap H_{FLTS}$

bởi vì , . Hơn nữa, nếu một trong hai hoặc không có ngoại lệ, thì . Giải pháp tôi đề xuất khai thác thực tế này. Tính toán: $h\geq[n/2]$ $\#\{H^+\}\geq p$ $H_{MM}$ $H_{FLTS}$ $H^+$

D (H^{+}, {\hat{β}}_{F L T S}, {\hat{β}}_{M M}) = \sum_{i \in H^{+}} (r_{i}^{2} ({\hat{β}}_{F L T S}) - r_{i}^{2} ({\hat{β}}_{M M}))

$D(H^+,\hat{\boldsymbol\beta}_{FLTS},\hat{\boldsymbol\beta}_{MM})=\sum_{i\in H^+}\left(r^2_i(\hat{\boldsymbol\beta}_{FLTS})-r^2_i(\hat{\boldsymbol\beta}_{MM})\right)$

Ví dụ: nếu , thì phù hợp với các quan sát tốt hơn và vì vậy tôi sẽ tin tưởng hơn. Và ngược lại. $D(H^+,\hat{\boldsymbol\beta}_{FLTS},\hat{\boldsymbol\beta}_{MM})<0$ $\hat{\boldsymbol\beta}_{FLTS}$ $\hat{\boldsymbol\beta}_{MM}$ $\hat{\boldsymbol\beta}_{FLTS}$

— người dùng603
nguồn

+1. Tôi đoán bạn đang sử dụng để làm tròn xuống số nguyên hoặc hàm sàn . Tôi tìm thấy các ký hiệu sau rõ ràng hơn. Thật dễ dàng để giả định cho người đọc mới biết ký hiệu đó cho làm tròn số nguyên để cho rằng dấu ngoặc vuông chỉ là dấu ngoặc.

[]

$[\ \ ]$

⌊ ⌋

$\lfloor\ \ \rfloor$

— Nick Cox