Ảnh hưởng còn lại so với ngoại lệ


10

Đầu tiên, tôi nên nói rằng tôi đã tìm kiếm trên trang web này để tìm câu trả lời. Tôi không tìm thấy câu hỏi nào trả lời câu hỏi của mình hoặc trình độ hiểu biết của tôi quá thấp Tôi không nhận ra mình đã đọc câu trả lời.

Tôi đang học cho kỳ thi Thống kê AP. Tôi phải học hồi quy tuyến tính và một trong những chủ đề là phần dư. Tôi có một bản Giới thiệu về Thống kê và Phân tích Dữ liệu ở trang 253.

Các điểm bất thường trong tập dữ liệu bivariate là những điểm nằm cách xa hầu hết các điểm khác trong biểu đồ phân tán theo hướng hoặc hướngxy

Một quan sát có khả năng là một quan sát có ảnh hưởng nếu nó có giá trị nằm cách xa phần còn lại của dữ liệu (tách biệt với phần còn lại của dữ liệu theo hướng ). Để xác định xem quan sát trên thực tế có ảnh hưởng hay không, chúng tôi đánh giá xem việc loại bỏ quan sát này có ảnh hưởng lớn đến giá trị của độ dốc hoặc chặn của đường vuông góc nhỏ nhất hay không.xx

Một quan sát là một ngoại lệ nếu nó có số dư lớn. Quan sát xa hơn nằm cách xa đường vuông góc nhỏ nhất theo hướng .y

Stattreck.com nêu bốn phương pháp để xác định ngoại lệ từ phần dư:

Các điểm dữ liệu phân kỳ theo cách lớn từ mẫu tổng thể được gọi là các ngoại lệ. Có bốn cách mà một điểm dữ liệu có thể được coi là ngoại lệ.

  1. Nó có thể có giá trị X cực cao so với các điểm dữ liệu khác.
  2. Nó có thể có giá trị Y cực cao so với các điểm dữ liệu khác.
  3. Nó có thể có các giá trị X và Y cực đoan.
  4. Nó có thể cách xa phần còn lại của dữ liệu, ngay cả khi không có giá trị X hoặc Y cực đoan.

Hai nguồn này dường như mâu thuẫn với nhau. Bất cứ ai có thể giúp làm sáng tỏ sự nhầm lẫn của tôi. Ngoài ra, làm thế nào để xác định cực đoan. Thống kê AP sử dụng quy tắc nếu điểm dữ liệu nằm ngoài (Q1-1.5IQR, Q3 + 1.5IQR) thì đó là một ngoại lệ. Tôi không biết làm thế nào để áp dụng điều đó từ chỉ một biểu đồ ra khỏi phần dư.

Câu trả lời:


5

Trang web stattrek dường như có một mô tả tốt hơn nhiều về các ngoại lệ và các điểm ảnh hưởng so với sách giáo khoa của bạn nhưng bạn chỉ trích dẫn một đoạn văn ngắn có thể gây hiểu nhầm. Tôi không có cuốn sách đặc biệt đó vì vậy tôi không thể xem xét nó trong ngữ cảnh. Mặc dù vậy, hãy ghi nhớ rằng đoạn văn trong sách giáo khoa mà bạn trích dẫn nói, "có khả năng". Nó cũng không độc quyền. Giữ những điểm đó trong tâm trí, stattrek và cuốn sách của bạn không nhất thiết không đồng ý. Nhưng có vẻ như cuốn sách của bạn đang gây hiểu lầm theo nghĩa mà nó ngụ ý (từ đoạn văn ngắn này) rằng sự khác biệt duy nhất giữa các ngoại lệ và các điểm ảnh hưởng là liệu chúng có lệch trên trục x hay y hay không. Điều đó là không chính xác.

"Quy tắc" cho các ngoại lệ khác nhau tùy thuộc vào ngữ cảnh. Quy tắc bạn trích dẫn chỉ là quy tắc và có, không thực sự được thiết kế cho hồi quy. Có một vài cách để sử dụng nó. Có thể dễ hình dung hơn nếu bạn tưởng tượng nhiều giá trị y ở mỗi x và kiểm tra phần dư. Các ví dụ hồi quy sách giáo khoa điển hình là quá đơn giản để xem quy tắc ngoại lệ đó có thể hoạt động như thế nào và trong hầu hết các trường hợp thực tế, nó khá vô dụng. Hy vọng, trong cuộc sống thực, bạn thu thập nhiều dữ liệu hơn. Nếu bạn cần áp dụng quy tắc lượng tử cho các ngoại lệ cho vấn đề hồi quy thì họ sẽ cung cấp dữ liệu phù hợp.


Cảm ơn câu trả lời, thật khó chịu khi các cuốn sách khác nhau cố gắng nêu ra các quy tắc này mà không thực sự nói nó phụ thuộc vào dữ liệu, như bạn đang nói.
MaoYiyi

1
Trên thực tế, tôi cũng đã nói nó sai ... nó phụ thuộc vào lý thuyết, phương pháp và dữ liệu ... toàn bộ nghiên cứu.
John

5

Tôi đồng ý với John. Dưới đây là một vài điểm. Một quan sát có ảnh hưởng là (nghiêm ngặt) một ảnh hưởng đến các ước tính tham số. Một độ lệch nhỏ trong giá trị Y mang lại sự thay đổi lớn trong (các) tham số beta ước tính. Trong hồi quy đơn giản của 1 biến so với biến khác, các biến có ảnh hưởng chính xác là các biến có giá trị X khác xa giá trị trung bình của X. Trong hồi quy bội (một số biến độc lập), tình hình phức tạp hơn. Bạn phải nhìn vào đường chéo của ma trận mũ , và phần mềm hồi quy sẽ cung cấp cho bạn điều này. Google "đòn bẩy".X(XX)1X

Ảnh hưởng là một chức năng của các điểm thiết kế (các giá trị X), như trong sách giáo khoa của bạn.

Lưu ý rằng ảnh hưởng là sức mạnh. Trong một thử nghiệm được thiết kế, bạn muốn các giá trị X có ảnh hưởng, giả sử bạn có thể đo chính xác giá trị Y tương ứng. Bạn nhận được nhiều bang cho buck theo cách đó.

Đối với tôi, một ngoại lệ về cơ bản là một sai lầm - đó là, một quan sát không theo cùng một mô hình với phần còn lại của dữ liệu. Điều này có thể xảy ra do lỗi thu thập dữ liệu hoặc do chủ đề cụ thể đó không bình thường theo một cách nào đó.

Tôi không giống như định nghĩa của stattrek về một ngoại lệ vì nhiều lý do. Hồi quy không đối xứng trong Y và X. Y được mô hình hóa như một biến ngẫu nhiên và X được giả sử là cố định và được biết đến. Sự kỳ lạ ở chữ Y không giống với sự kỳ lạ ở chữ X. Ảnh hưởng và ngoại lệ có nghĩa là những thứ khác nhau. Ảnh hưởng, trong hồi quy bội, không được phát hiện bằng cách xem xét các ô dư. Một mô tả tốt về các ngoại lệ và ảnh hưởng cho trường hợp biến đơn sẽ giúp bạn hiểu được nhiều trường hợp.

Tôi không thích sách giáo khoa của bạn hơn nữa, vì những lý do được đưa ra bởi John.

Tóm lại, ngoại lệ có ảnh hưởng là nguy hiểm. Họ cần được kiểm tra chặt chẽ và xử lý.


Việc bạn không thích giải thích hồi quy stattrek là phù hợp nếu bạn đến từ một nền tảng trong đó các thí nghiệm thực sự là chuẩn mực. Lý do của bạn tất cả áp dụng ở đó. Nhưng nếu bạn đến từ một nền tảng mà các thiết kế bán thử nghiệm phổ biến hơn thì trang web stattrek có liên quan nhiều hơn. Trong những trường hợp đó, cả hai giá trị x và y thường chỉ là các mẫu ngẫu nhiên.
Giăng

@ John làm thế nào về nền tảng của việc muốn vượt qua kỳ thi thống kê AP? Thiết kế bán thí nghiệm là gì? Có phải đó là sử dụng bảng số ngẫu nhiên cho một mô phỏng?
MaoYiyi

1
Tôi không biết gì về kỳ thi thống kê AP. Các thử nghiệm thực sự là những thử nghiệm mà bạn thao tác biến dự đoán và tạo các nhóm để kiểm tra nhiều giả thuyết hoặc nhóm kiểm soát và nhóm thử nghiệm, v.v. Thiết kế thử nghiệm gần giống như bất kỳ thứ gì khác trông giống như một thử nghiệm. Vì vậy, hãy tưởng tượng một hồi quy trong đó giá trị x là trọng số và giá trị y là một số kỹ năng thể thao. Bạn không thao tác một trong hai biến, bạn lấy mẫu ngẫu nhiên cả hai. Vì vậy, những lời chỉ trích về stattrek của Placidia khá hợp lệ đối với các thí nghiệm thực sự nhưng không nhiều như vậy đối với quasi.
Giăng

@ John ... Tôi đến từ một nền tảng nơi các thí nghiệm được thiết kế được coi là tiêu chuẩn vàng. Trong thực tế, tôi biết rằng X và Y thường là cả hai mẫu ngẫu nhiên, điều này đặt ra câu hỏi tại sao hồi quy đang được sử dụng và không phải là một dạng phân tích biến tiềm ẩn nào đó.
Placidia

Khi bạn chỉ có hai biến số ... :) Đôi khi, bạn có lý thuyết tốt để đề xuất một điều dự đoán một điều khác, ví dụ: chiều cao và xác suất vào NBA ... cả hai mẫu ngẫu nhiên. Trong trường hợp với một, hoặc một vài (đặc biệt là không tương quan) hồi quy mối quan hệ tuyến tính là tốt.
Giăng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.