Làm thế nào để giải thích Bootstrap?


7

Tôi là một người mới thực sự khi nói về thống kê vì vậy xin đừng phán xét tôi và câu hỏi của tôi;)

Tôi đang thực hiện phân tích hồi quy tuyến tính với SPSS và vì dữ liệu của tôi không được phân phối bình thường cũng như không thể hiện tính đồng nhất, tôi đã quyết định sử dụng bootstrapping.

Bây giờ, tôi thực sự bối rối khi nói đến việc giải thích đầu ra. SPSS cung cấp cho tôi bản tóm tắt mô hình và hệ số "bình thường" cũng như hệ số tóm tắt bootstrap và hệ số bootstrap. Tôi có bây giờ, chỉ giải thích phần bootstrap? Hoặc là giá trị F chẳng hạn vẫn có liên quan, nghĩa là nếu F không đáng kể, tôi cũng không thể diễn giải khoảng thời gian bootstrap mặc dù nó có ý nghĩa?

Câu trả lời:


4

Ý tưởng trực quan đằng sau bootstrap là thế này: nếu tập dữ liệu ban đầu của bạn là một kết quả rút ngẫu nhiên từ toàn bộ dân số, thì nếu bạn lấy mẫu từ mẫu (có thay thế), thì điều đó cũng thể hiện sự rút ra từ toàn bộ dân số. Sau đó, bạn có thể ước tính mô hình của mình trên tất cả các bộ dữ liệu khởi động. Điều này cung cấp cho bạn một số lượng lớn các ước tính và do đó bạn có thể xem xét độ lệch chuẩn của các ước tính của mình - hóa ra điều này thường đưa ra dự đoán tốt về lỗi tiêu chuẩn của các ước tính. Trên thực tế, lỗi tiêu chuẩn của các ước tính có thể được coi là chính xác như thế này nếu bạn lấy nhiều bộ dữ liệu từ dân số thực.

Ví dụ, giả sử có một ngoại lệ trong tập dữ liệu của bạn: sau đó trong nhiều bộ dữ liệu đã được khởi động mà quan sát không được bao gồm và vì vậy đối với các bộ dữ liệu đó, bạn thấy các hệ số ước tính thay đổi rất nhiều.

Tương tự, bạn có thể xem thống kê F cho từng bộ dữ liệu bootstrap. Ví dụ, bạn có thể thấy mô hình bị từ chối bao nhiêu lần. Nhưng tôi không đủ quen thuộc với SPSS để biết những gì nó báo cáo là thống kê F: nó có phải là thống kê F trung bình không?


4

Như @Superpronker đã đề cập, nó thực sự phụ thuộc vào những gì SPSS đang làm với bootstrap. Bao gồm mã của bạn và đầu ra sẽ giúp rất nhiều. Ngoài ra bootstrap là một chủ đề với một lượng lớn tài liệu. Bạn có thể thấy điều này bằng cách đơn giản nhìn vào thư mục trong phiên bản 2007 của tôi về Phương pháp Bootstrap được xuất bản bởi Wiley. Vì vậy, tôi nghĩ rằng bạn thực sự cũng cần ít nhất một hướng dẫn cơ bản về bootstrap. Đôi khi đi đến Wikipedia giúp với loại điều này.

Trong hồi quy có nhiều cách khác nhau để xử lý các vấn đề như tính không đồng nhất và tính không quy tắc. Nếu thử nghiệm F mà bạn đề cập là từ giải pháp OLS đến hồi quy tuyến tính trong đó tính quy tắc và tính đồng nhất bị bỏ qua và do không quan trọng, bạn có nghĩa là thử nghiệm F không thể cho bạn biết rằng bất kỳ hệ số hồi quy nào khác 0, nó có thể có thể là bạn nên bỏ qua nó và áp dụng một cách tiếp cận khác.

Bootstrap có thể là một cách tiếp cận để giải quyết vấn đề. Trong hồi quy có hai cách tiếp cận bootstrap phổ biến. Một cái được gọi là phần dư bootstrapping và cái còn lại được gọi là vectơ bootstrapping . Bạn nên tìm hiểu xem một SPSS nào đang sử dụng. Có một số tài liệu nói rằng các vectơ bootstrapping mạnh mẽ hơn theo nghĩa là nó đòi hỏi ít giả định hơn. Vectơ là tập hợp các giá trị quan sát của trong đó là biến phụ thuộc và là biến dự đoán trong mô hình của bạn. Từ mô tả vấn đề của bạn, chúng tôi không biết là hay . Cho mỗi(Y,X1,X2,,Xk)YXjkk1>1j có liên quan đến một tham số hồi quy được ước tính.Xjbj

Các phương pháp dư bootstrapping lấy dư, nơi là cỡ mẫu của bạn, và nó mẫu với thay thế từ tập hợp các dư. Trong chương trình máy tính, điều này được thực hiện bằng phương pháp Monte Carlo.nn

Mô hình là trong đó là một thuật ngữ lỗi. Ban đầu bạn có được n dư bằng cách lấy là thứ còn sót lại . Ở đây biểu thị ước tính của tham số hồi quy . Chúng tôi sử dụng ký hiệu và để biểu thị giá trị quan sát thứ của biến phụ thuộc và giá trị quan sát thứ của biến dự đoán thứ tương ứng.Y=b1X1+b2X2++bkXk+eeyib^1x1ib^2x2ib^kxkiib^jbjyixjiiij

Vì điều này trở nên phức tạp, tôi khuyên bạn nên xem một tài liệu tham khảo về phần dư bootstrapping Văn bản Chapman và Hall năm 1993 của Efron và Tibshirani là một khả năng. Kết quả cuối cùng là các bản phân phối bootstrap cho từng tham số hồi quy và một trong số các khoảng tin cậy bootstrap có thể được sử dụng. Phương pháp phân vị của Efron là khả năng khả dĩ nhất. Nếu khoảng tin cậy không chứa 0, tham số hồi quy được coi là đáng kể.


2

Tóm lại, bootstrap chung trong SPSS Statistics được mô tả như vậy trong phần trợ giúp.

Các đơn giản phương pháp là trường hợp lấy mẫu lại với thay thế từ các tập dữ liệu ban đầu. Các phân tầng phương pháp là trường hợp resampling với thay thế từ các tập dữ liệu ban đầu, trong tầng lớp nhân dân được xác định bởi các cross-phân loại của các biến tầng lớp nhân dân.

Một số thủ tục có các lựa chọn khác.

Hướng dẫn sử dụng Thuật toán, có sẵn trực tuyến, bao gồm các chi tiết cho jackknife, trường hợp, phân tầng, dư và thay đổi kích thước hoang dã.

Đối với câu hỏi ban đầu của người dùng, câu hỏi cho biết "dữ liệu của tôi không được phân phối bình thường cũng không thể hiện tính đồng nhất", điều này có thể phản ánh một quan niệm sai lầm về giả định quy tắc có nghĩa là gì trong hồi quy. Đó là về thuật ngữ lỗi, không phải là các biến trong phương trình.

Và một câu hỏi cho Michael: sách của bạn về bootstrapping có giá trên Amazon cho Kindle từ 107 đến 237 đô la! Tại sao? Tôi rất thích đọc một trong số này, nhưng chi phí thì phi thường. Thật không may, tôi không có một thư viện tốt để thay thế cho việc mua hàng.


Nếu bạn muốn mua cuốn sách đừng đến đó. Đó là quá nhiều đắt tiền. Kiểm tra trang web Wiley để xem họ đang bán chúng để làm gì. Đối với amazon, họ thường đóng vai trò là người bán hàng. Cuốn sách có thể hoặc không thể không được sử dụng và giá được đặt bởi người bán. Ngoài ra một số trang web như amazon làm đấu giá cho sách. Những người bán này đang cố gắng lợi dụng những người không biết giá trị thực của cuốn sách. Mặt khác, đôi khi bạn có thể tìm thấy những cuốn sách mới hoặc đã qua sử dụng là những món hời. Tìm kiếm trên mạng nếu bạn thực sự muốn mua.
Michael R. Chernick

Cảm ơn đã giải thích về SPSS. Tôi chắc chắn rằng điều này sẽ giúp OP. Tôi nâng cao câu trả lời của bạn. Ngoài ra, việc lấy mẫu lại trường hợp cũng giống như những gì tôi gọi là vectơ bootstrapping.
Michael R. Chernick

Tôi nghĩ rằng một số ý kiến ​​của chúng tôi đã bị xóa bởi một màn hình. Có thể là chúng ta không nên đề cập đến giá trên trang web. Tôi chỉ muốn nói rằng tôi đã kiểm tra Wiley và amazon. Thật không may, những cuốn sách mới đang trở nên đắt hơn mọi lúc. Trên trang Wiley tôi đã thấy phiên bản đầu tiên của cuốn sách bootstrap của tôi với giá rất thấp. Cuốn sách không còn xuất bản nên chỉ có sẵn được sử dụng và không có nhu cầu kể từ khi phiên bản thứ hai được phát hành. Nếu bạn nhìn vào những cuốn sách kỹ thuật tương đương khác đang được bán mới, có lẽ bạn sẽ thấy rằng những cuốn sách mới của tôi phù hợp với những cuốn sách khác.
Michael R. Chernick

AFAIK không có gì bị xóa. Các cuộc thảo luận ở trên về giá sách không thực sự có ý nghĩa đối với câu hỏi & có thể sẽ bị xóa sau một thời gian vì lý do đó, nhưng chúng tôi không có chính sách cụ thể về việc không cho phép đề cập đến giá sách.
Scortchi - Phục hồi Monica

Vì cuốn sách trong câu hỏi đã được đề nghị trong câu trả lời, đối với tôi, dường như các cuộc thảo luận về giá là vô bổ.
JKP
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.