Tôi có thể bỏ qua các hệ số cho các yếu tố không đáng kể trong mô hình tuyến tính không?


15

Sau khi tìm kiếm làm rõ về các hệ số mô hình tuyến tính ở đây, tôi có một câu hỏi tiếp theo liên quan đến việc không có ý nghĩa (giá trị p cao) cho các hệ số của các mức yếu tố.

Ví dụ: Nếu mô hình tuyến tính của tôi bao gồm một yếu tố có 10 cấp độ và chỉ có 3 trong số các mức đó có giá trị p đáng kể được liên kết với chúng, khi sử dụng mô hình để dự đoán Y, tôi có thể chọn không bao gồm thuật ngữ hệ số nếu đối tượng rơi vào một trong các mức độ không quan trọng?

Quyết liệt hơn, sẽ là sai lầm khi gộp 7 cấp độ không đáng kể thành một cấp độ và phân tích lại?


2
Chà, bạn có thể có được suy luận thiên vị bằng cách làm điều đó - ví dụ: nếu bạn đang hình thành các khoảng dự đoán, xác suất bảo hiểm có thể sẽ sai đối với các cá nhân ở bất kỳ mức nào trong 7 mức không đáng kể.
Macro

1
Bạn đã nhận được một số câu trả lời tốt ở đây, nhưng bạn cũng có thể quan tâm tại sao không phù hợp để bỏ các yếu tố có giá trị p cao. Thật đáng để chỉ ra rằng điều này tương đương về mặt logic với quy trình chọn mô hình tự động, mặc dù bạn đang tự làm, thay vì máy tính làm việc đó cho bạn. Đọc qua câu hỏi này và các câu trả lời được cung cấp có thể giúp w / hiểu lý do tại sao những điều này là đúng.
gung - Phục hồi Monica

1
Q này có một bản sao chính xác từ tháng 11 năm 2012: stats.stackexchange.com/questions/18745/ . Có một chút thông tin kích thích tư duy ở đó quá.
rolando2

2
Đây là một câu hỏi quan trọng như vậy, và chưa có câu trả lời ủng hộ lập luận bằng lý thuyết. Khi nó đứng, họ chỉ là ý kiến. Ngay cả cuốn sách được liên kết trong một trong những câu trả lời (kết luận khác với các câu trả lời khác) cung cấp tài liệu tham khảo. Vì điều này, tôi không tin tưởng bất kỳ ai trong số họ, và do đó thà không làm gì cả (tức là giữ tất cả các danh mục / yếu tố).
luchonacho

Câu trả lời:


13

Nếu bạn đang đặt một biến dự đoán có nhiều cấp độ, bạn có thể đặt biến đó hoặc không, bạn không thể chọn và chọn cấp độ. Bạn có thể muốn cơ cấu lại các mức của biến dự đoán để giảm số cấp (nếu điều đó có ý nghĩa trong bối cảnh phân tích của bạn.) Tuy nhiên, tôi không chắc liệu điều này có gây ra một số loại vô hiệu thống kê hay không nếu bạn mức độ sụp đổ bởi vì bạn thấy chúng không đáng kể.

Ngoài ra, chỉ cần một lưu ý, bạn nói giá trị nhỏ là không đáng kể. Tôi giả sử rằng bạn có nghĩa là giá trị p nhỏ có ý nghĩa, nghĩa là: giá trị p của 0,0001 là đáng kể và do đó bạn từ chối null (giả sử mức α ?). pppα>.0001


(Sửa lỗi chính tả p-value của tôi.) Điểm tốt ở đây. Vì vậy, mức độ sụp đổ, miễn là nó dựa trên một số lý do hợp lý và hợp lý trong thế giới thực của nghiên cứu (điều đó cũng có thể xảy ra để phân tích chúng dọc theo sự phá vỡ ý nghĩa) là hợp lý, nhưng không chỉ tùy ý dựa vào tầm quan trọng của chúng . Hiểu rồi.
Plants4theForest

15

@ Phản ứng của Ellie là một trong những tốt.

Nếu bạn đang đặt một biến với một số cấp độ, bạn cần giữ lại tất cả các cấp độ đó trong phân tích của mình. Chọn và lựa chọn dựa trên mức ý nghĩa sẽ làm sai lệch kết quả của bạn và làm những điều rất kỳ lạ đối với suy luận của bạn, ngay cả khi bằng một phép lạ nào đó, ước tính của bạn vẫn giữ nguyên, vì bạn sẽ có những lỗ hổng trong các hiệu ứng ước tính của mình qua các mức độ khác nhau của Biến đổi.

Tôi sẽ xem xét xem xét ước tính của bạn cho từng cấp độ của người dự đoán bằng đồ họa. Bạn đang nhìn thấy một xu hướng khi bạn lên cấp, hay nó thất thường?

Nói chung, tôi cũng phản đối việc mã hóa lại các biến dựa trên các kiểm tra thống kê - hoặc hoàn toàn dựa trên các khoảnh khắc thống kê. Sự phân chia trong biến của bạn nên dựa trên một cái gì đó vững chắc hơn - các điểm cắt có ý nghĩa logic, lợi ích trường trong một điểm chuyển tiếp cụ thể, v.v.


8

Mở rộng trên hai câu trả lời hay mà bạn đã nhận được, hãy xem xét vấn đề này một cách thực chất. Giả sử biến phụ thuộc của bạn là (nói) thu nhập và biến độc lập của bạn là (nói) dân tộc, với các cấp độ, theo định nghĩa điều tra dân số (Trắng, Đen / Afr <., Am. Ấn Độ / Alaska Bản địa, Châu Á, Hawaii Hawaii / Pac Islander, khác và đa chủng tộc). Giả sử bạn giả mã với White là danh mục tham khảo và bạn nhận được

Income=b0+b1BAA+b2AIAN+b3AS+b4NHPI+b5O+b6MR

Nếu bạn đang thực hiện nghiên cứu này ở thành phố New York, có lẽ bạn sẽ nhận được rất ít người Hawaii bản địa / người dân đảo Thái Bình Dương. Bạn có thể quyết định bao gồm chúng (nếu có) với những người khác. Tuy nhiên, bạn không thể sử dụng phương trình đầy đủ và chỉ không bao gồm hệ số đó. Sau đó, việc đánh chặn sẽ sai, và bất kỳ giá trị dự đoán nào cho thu nhập.

Nhưng làm thế nào bạn nên kết hợp các loại?

Như những người khác nói, nó phải có ý nghĩa .


4

Để đưa ra một ý kiến ​​khác: tại sao không bao gồm nó như là một hiệu ứng ngẫu nhiên? Điều đó sẽ xử phạt những cấp độ đó với sự hỗ trợ yếu và đảm bảo kích thước hiệu ứng của chúng là tối thiểu. Bằng cách đó bạn có thể giữ tất cả chúng trong mà không lo nhận được những dự đoán ngớ ngẩn.

Và vâng, điều này được thúc đẩy nhiều hơn từ quan điểm của Bayes về các hiệu ứng ngẫu nhiên so với toàn bộ quan điểm "mẫu của tất cả các cấp độ có thể" về các hiệu ứng ngẫu nhiên.


0

Tôi cũng đã tự hỏi liệu tôi có thể kết hợp các danh mục không quan trọng với danh mục tham khảo hay không. Các tuyên bố sau trong cuốn sách "Khai thác dữ liệu cho trí tuệ doanh nghiệp: Khái niệm, kỹ thuật và ứng dụng trong Microsoft Office Excel® với XLMiner®, Phiên bản 2 của Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Kích thước Phần rút gọn) ( Kết quả tìm kiếm của Google ) dường như hỗ trợ câu thứ hai của phản hồi @ Ellie:

  • "Các mô hình hồi quy được trang bị cũng có thể được sử dụng để kết hợp thêm các danh mục tương tự: các danh mục có hệ số không có ý nghĩa thống kê (nghĩa là có giá trị p cao) có thể được kết hợp với danh mục tham chiếu vì sự khác biệt của chúng với danh mục tham chiếu dường như không có ảnh hưởng đáng kể đến biến đầu ra "
  • "Các danh mục có giá trị hệ số tương tự (và cùng dấu) thường có thể được kết hợp vì ảnh hưởng của chúng đến biến đầu ra là tương tự nhau"

Tuy nhiên, tôi có kế hoạch kiểm tra với các chuyên gia về chủ đề xem việc kết hợp các danh mục có hợp lý hay không (như ngụ ý trong các câu trả lời / nhận xét trước đây, ví dụ @Fomite, @gung).


Câu trả lời này bị mâu thuẫn bởi các câu trả lời khác ở đây.
kjetil b halvorsen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.