Các thuật toán để lựa chọn mô hình tự động


193

Tôi muốn thực hiện một thuật toán để lựa chọn mô hình tự động. Tôi đang nghĩ đến việc thực hiện hồi quy từng bước nhưng mọi thứ sẽ làm được (mặc dù nó phải dựa trên hồi quy tuyến tính).

Vấn đề của tôi là tôi không thể tìm thấy một phương pháp, hoặc một triển khai nguồn mở (tôi đang sử dụng java). Phương pháp tôi có trong đầu sẽ là một cái gì đó như:

  1. tính ma trận tương quan của tất cả các yếu tố
  2. chọn các yếu tố có mối tương quan thấp với nhau
  3. loại bỏ các yếu tố có chỉ số t thấp
  4. thêm các yếu tố khác (vẫn dựa trên yếu tố tương quan thấp được tìm thấy trong 2.).
  5. nhắc lại nhiều lần cho đến khi một số tiêu chí (ví dụ AIC) vượt quá một ngưỡng nhất định hoặc không thể hoặc chúng tôi không thể tìm thấy giá trị lớn hơn.

Tôi nhận ra có một triển khai R cho điều này (stepAIC), nhưng tôi thấy mã này khá khó hiểu. Ngoài ra tôi đã không thể tìm thấy các bài viết mô tả hồi quy từng bước.


72
Thành thật mà nói, tôi nghĩ rằng đây là một ý tưởng tai hại , chỉ cần được đảm bảo để dẫn đến nhiều kết luận sai.
gung

4
@gung: mặc dù tôi đồng ý rằng mù quáng theo kết quả của việc lựa chọn mô hình là một ý tưởng tồi, tôi nghĩ nó có thể hữu ích như một điểm khởi đầu của một phân tích. Trong trường hợp của tôi, tôi có sẵn hàng trăm yếu tố và tôi muốn chọn 5-10 yếu tố phù hợp nhất. Tôi không thấy làm thế nào tôi có thể làm điều đó mà không cần lựa chọn mô hình tự động (sau này sẽ được sửa đổi bằng tay).
S4M

12
Tất cả các quy trình lựa chọn mô hình phải tuân theo các vấn đề mà tôi thảo luận trong câu trả lời của tôi dưới đây. Ngoài ra, số lượng các yếu tố có thể bạn muốn tìm kiếm càng lớn, những vấn đề đó càng trở nên cực đoan và sự gia tăng không phải là tuyến tính. Mặc dù có một số cách tiếp cận tốt hơn (được thảo luận bởi @Zach), nên được sử dụng cùng với xác thực chéo (được thảo luận bởi @JackTanner), lựa chọn dựa trên t, r và AIC không nằm trong số đó. Hơn nữa, với hàng trăm yếu tố, lượng dữ liệu cần thiết có thể dễ dàng lên tới hàng triệu. Thật không may, bạn có một nhiệm vụ rất khó khăn trước bạn.
gung

7
Mục đích của việc lựa chọn mô hình là gì? Đây có phải là một mô hình dự báo / dự báo hay bạn đang tìm kiếm các biến quan trọng? Ngoài ra, tập dữ liệu bạn đang sử dụng lớn đến mức nào - có bao nhiêu sự phản đối và bao nhiêu biến?
xác suất

6
Các quan điểm thú vị ở đây, nhưng tôi nghĩ rằng quan điểm tiêu cực đối với các thủ tục lựa chọn mô hình thuật toán là một chút ngày. Lấy ví dụ, công việc gần đây của David Hendry trong lĩnh vực kinh tế lượng, đặc biệt là công việc của ông về phần mềm PcGive và phương pháp bão hòa. Một bài giảng cung cấp một cái nhìn tổng quan về phương pháp của mình có thể được tìm thấy ở đây . Như @MichaelCécick đã chỉ ra (và Hendry cũng sẽ làm như vậy!), Kiến thức về chủ đề là rất quan trọng. Đây là lý do tại sao có giá trị trong các chuyên gia môn học - để cho các thuật toán hoạt động một mình là sai lầm.
Graeme Walsh

Câu trả lời:


333

Tôi nghĩ rằng cách tiếp cận này là sai, nhưng có lẽ nó sẽ hữu ích hơn nếu tôi giải thích tại sao. Muốn biết mô hình tốt nhất được cung cấp một số thông tin về một số lượng lớn các biến là khá dễ hiểu. Hơn nữa, đó là một tình huống mà mọi người dường như thấy mình thường xuyên. Ngoài ra, nhiều sách giáo khoa (và các khóa học) về hồi quy bao gồm các phương pháp lựa chọn từng bước, trong đó ngụ ý rằng chúng phải hợp pháp. Thật không may, tuy nhiên, chúng không phải, và việc kết hợp tình huống và mục tiêu này khá khó khăn để điều hướng thành công. Sau đây là danh sách các vấn đề với quy trình lựa chọn mô hình từng bước tự động (được quy cho Frank Harrell và được sao chép từ đây ):

  1. Nó mang lại giá trị bình phương R bị sai lệch cao là cao.
  2. Các thử nghiệm F và chi bình phương được trích dẫn bên cạnh mỗi biến số trên bản in không có phân phối được yêu cầu.
  3. Phương pháp mang lại khoảng tin cậy cho các hiệu ứng và giá trị dự đoán bị thu hẹp một cách giả tạo; xem Altman và Andersen (1989).
  4. Nó mang lại giá trị p không có ý nghĩa chính xác và việc điều chỉnh thích hợp cho chúng là một vấn đề khó khăn.
  5. Nó đưa ra các hệ số hồi quy sai lệch cần co ngót (hệ số cho các biến còn lại là quá lớn; xem Tibshirani [1996]).
  6. Nó có vấn đề nghiêm trọng trong sự hiện diện của cộng sự.
  7. Nó dựa trên các phương pháp (ví dụ, kiểm tra F cho các mô hình lồng nhau) được dự định sẽ được sử dụng để kiểm tra các giả thuyết được chỉ định trước.
  8. Tăng kích thước mẫu không giúp ích nhiều; xem Derksen và Keselman (1992).
  9. Nó cho phép chúng ta không nghĩ về vấn đề.
  10. Nó sử dụng rất nhiều giấy.

Câu hỏi là, những gì quá tệ về các thủ tục này / tại sao những vấn đề này xảy ra? Hầu hết những người đã tham gia một khóa hồi quy cơ bản đều quen thuộc với khái niệm hồi quy trung bình , vì vậy đây là những gì tôi sử dụng để giải thích những vấn đề này. (Mặc dù lúc đầu điều này có vẻ lạc đề, hãy đồng ý với tôi, tôi hứa là nó có liên quan.)

Hãy tưởng tượng một huấn luyện viên theo dõi trường trung học vào ngày đầu tiên thử sức. Ba mươi đứa trẻ xuất hiện. Những đứa trẻ này có một số mức độ tiềm năng tiềm ẩn mà cả huấn luyện viên, cũng không phải ai khác có thể truy cập trực tiếp. Kết quả là, huấn luyện viên làm điều duy nhất anh ta có thể làm, đó là tất cả họ đều chạy một cú 100m. Thời đại có lẽ là thước đo khả năng nội tại của họ và được thực hiện như vậy. Tuy nhiên, chúng có xác suất; một số tỷ lệ làm thế nào một người làm tốt dựa trên khả năng thực tế của họ và một số tỷ lệ là ngẫu nhiên. Hãy tưởng tượng rằng tình huống thực sự là như sau:

set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)

Kết quả của cuộc đua đầu tiên được hiển thị trong hình dưới đây cùng với ý kiến ​​của huấn luyện viên cho các em.

cuộc đua đầu tiên

Lưu ý rằng phân vùng trẻ em theo thời gian chủng tộc của chúng để lại sự chồng chéo về khả năng nội tại của chúng - thực tế này rất quan trọng. Sau khi khen ngợi một số người, và la mắng một số người khác (như huấn luyện viên có xu hướng làm), anh ta đã cho họ chạy lại. Dưới đây là kết quả của cuộc đua thứ hai với phản ứng của huấn luyện viên (mô phỏng từ cùng một mô hình ở trên):

cuộc đua thứ hai

Lưu ý rằng khả năng nội tại của chúng là giống hệt nhau, nhưng thời gian nảy xung quanh so với chủng tộc đầu tiên. Từ quan điểm của huấn luyện viên, những người mà anh ta hét lên có xu hướng cải thiện, và những người anh ta ca ngợi có xu hướng làm tồi tệ hơn (tôi đã điều chỉnh ví dụ cụ thể này từ trích dẫn của Kahneman được liệt kê trên trang wiki), mặc dù thực sự hồi quy theo nghĩa là một phép toán đơn giản hệ quả của việc huấn luyện viên chọn các vận động viên cho đội dựa trên một phép đo là một phần ngẫu nhiên.

Bây giờ, điều này có liên quan gì với các kỹ thuật chọn mô hình tự động (ví dụ: từng bước)? Phát triển và xác nhận một mô hình dựa trên cùng một bộ dữ liệu đôi khi được gọi là nạo vét dữ liệu. Mặc dù có một số mối quan hệ cơ bản giữa các biến và các mối quan hệ mạnh hơn được dự kiến ​​sẽ mang lại điểm số cao hơn (ví dụ: thống kê t cao hơn), đây là các biến ngẫu nhiên và các giá trị nhận ra có lỗi. Do đó, khi bạn chọn các biến dựa trên việc có các giá trị nhận ra cao hơn (hoặc thấp hơn), chúng có thể là do giá trị thực, lỗi hoặc cả hai. Nếu bạn tiến hành theo cách này, bạn sẽ ngạc nhiên như huấn luyện viên sau cuộc đua thứ hai. Điều này đúng cho dù bạn chọn các biến dựa trên việc có số liệu thống kê t cao hoặc tỷ lệ xen kẽ thấp. Đúng, sử dụng AIC tốt hơn sử dụng giá trị p, vì nó phạt mô hình vì độ phức tạp, nhưng AIC tự nó là một biến ngẫu nhiên (nếu bạn thực hiện một nghiên cứu nhiều lần và phù hợp với cùng một mô hình, AIC sẽ nảy ra giống như mọi thứ khác). Không may,

Tôi hy vọng điều này là hữu ích.


43
Giải thích hiện tượng của nạo vét dữ liệu.
Frank Harrell

17
Đây là một câu trả lời được suy nghĩ rất kỹ, mặc dù tôi hoàn toàn không đồng ý với ý kiến ​​cho rằng aic là một sự cải tiến so với giá trị p (hoặc bic hoặc tương tự), trong bối cảnh lựa chọn mô hình tuyến tính. mọi hình phạt như aic có dạng tương đương với việc đặt giá trị p thành (cả nhập và thoát). aic về cơ bản cho bạn biết cách chọn giá trị p. 2L+kpPr(χ12>k)
xác suất

7
Nhận xét của tôi liên quan đến việc sử dụng aic cho thuật toán từng bước hoặc tương tự. Nhận xét của tôi cũng quá ngắn gọn. Lưu ý là số lượng biến, là hình phạt ( cho aic cho bic) và âm hai lần khả năng đăng nhập tối đa. Aic và bic khác nhau về mặt khái niệm nhưng không hoạt động so với giá trị p khi thực hiện lựa chọn kiểu "tập hợp con" mà không co rút các hệ số khác không. pk2logN2L
xác suất

9
@gung - nếu bạn lấy chênh lệch giữa hai mô hình với một tham số khác nhau, bạn sẽ nhận được . Bây giờ thuật ngữ đầu tiên là thống kê tỷ lệ khả năng dựa trên giá trị p. Vì vậy, chúng tôi đang thêm tham số phụ nếu thống kê tỷ lệ khả năng lớn hơn một số điểm cắt. Điều này giống như những gì phương pháp giá trị p đang làm. Chỉ có một sự khác biệt về khái niệm ở đây(2L1+2p0+2)(2L0+2p0)=2(L1L0)+2
xác suất

2
để minh họa tại sao AIC không giải quyết được vấn đề, hãy xem: Mundry, R. (2011). Các vấn đề trong suy luận thống kê dựa trên lý thuyết thông tin Một bình luận từ quan điểm của một người thường xuyên. Sinh thái học hành vi và xã hội học, 65 (1), 57-68.
11:51

70

Kiểm tra gói caret trong R. Nó sẽ giúp bạn xác thực chéo các mô hình hồi quy từng bước (sử dụng method='lmStepAIC'hoặc method='glmStepAIC') và có thể giúp bạn hiểu làm thế nào các loại mô hình này có xu hướng có hiệu suất dự đoán kém. Hơn nữa, bạn có thể sử dụng findCorrelationhàm trong dấu mũ để xác định và loại bỏ các biến cộng tuyến và rfehàm trong dấu mũ để loại bỏ các biến có thống kê t (sử dụng rfeControl=rfeControl(functions=lmFuncs)) thấp.

Tuy nhiên, như đã đề cập trong các câu trả lời trước, các phương pháp lựa chọn biến này có thể khiến bạn gặp rắc rối, đặc biệt nếu bạn thực hiện chúng lặp đi lặp lại. Hãy chắc chắn rằng bạn đánh giá hiệu suất của mình trên bộ kiểm tra tổ chức HOÀN TOÀN HOÀN TOÀN. Thậm chí đừng nhìn vào bộ kiểm tra cho đến khi bạn hài lòng với thuật toán của mình!

Cuối cùng, có thể tốt hơn (và đơn giản hơn) khi sử dụng mô hình dự đoán với lựa chọn tính năng "tích hợp", chẳng hạn như hồi quy sườn, lasso hoặc lưới đàn hồi. Cụ thể, hãy thử method=glmnetđối số cho dấu mũ và so sánh độ chính xác được xác thực chéo của mô hình đó với method=lmStepAICđối số. Tôi đoán là cái trước sẽ cho bạn độ chính xác ngoài mẫu cao hơn nhiều và bạn không phải lo lắng về việc triển khai và xác thực thuật toán chọn biến tùy chỉnh của mình.


1
Các hình phạt như pareto kép tốt hơn sườn núi và lasso từ góc độ thống kê, vì chúng không thu nhỏ các hệ số khác không rõ ràng. Nhưng thật không may, chúng luôn dẫn đến một hình phạt không lồi, vì vậy chúng tồi tệ hơn từ góc độ tính toán. Tôi nghĩ rằng một hình phạt dựa trên bản phân phối Cauchy sẽ tốt . log(λ2+β2)
xác suất

2
@probabilityislogic Bạn có biết bất kỳ triển khai tốt nào của hình phạt pareto kép, trong một ngôn ngữ như rhay pythonkhông? Tôi muốn thử nó.
Zach

1
Theo những gì tôi hiểu, việc lựa chọn mô hình bằng AIC và xác thực bỏ qua một lần về cơ bản là giống nhau (tương đương tiệm cận, xem Stone, 1977) , vì vậy AIC và một số loại xác thực chéo có thể dẫn đến rất giống nhau các kết quả. Tuy nhiên, tôi đã không sử dụng gói caret và từ phương thức gọi, có vẻ như AIC thực sự được sử dụng trong một số trường hợp.
fileunderwater

38

Tôi hoàn toàn đồng tình với các vấn đề được nêu ra bởi @gung. Điều đó nói rằng, thực tế mà nói, lựa chọn mô hình là một vấn đề thực sự cần một giải pháp thực sự. Đây là một cái gì đó tôi sẽ sử dụng trong thực tế.

  1. Chia dữ liệu của bạn thành tập huấn luyện, xác nhận và kiểm tra.
  2. Mô hình đào tạo trên tập huấn luyện của bạn.
  3. Đo hiệu suất mô hình trên bộ xác thực bằng cách sử dụng một số liệu như RMSE dự đoán và chọn mô hình có lỗi dự đoán thấp nhất.
  4. Tạo ra các mô hình mới khi cần thiết, lặp lại các bước 2-3.
  5. Báo cáo mô hình thực hiện tốt như thế nào trên bộ thử nghiệm.

Đối với một ví dụ về việc sử dụng phương pháp này trong thế giới thực, tôi tin rằng nó đã được sử dụng trong cuộc thi Giải thưởng Netflix.


15
Chia tách dữ liệu không đáng tin cậy trừ khi . n>20000
Frank Harrell

5
@Frank: Tại sao bạn nghĩ N cần phải cao như vậy?
rolando2

14
Vì độ chính xác kém. Nếu bạn chia lại một lần nữa, bạn có thể nhận được nhiều kết quả khác nhau. Đó là lý do tại sao mọi người thực hiện 100 lần lặp lại xác thực chéo 10 lần hoặc bootstrapping.
Frank Harrell

10
@FrankHarrell Con số n> 20000 đó phụ thuộc vào cái gì? Có phải nó dựa trên nhận xét của người đăng ban đầu về việc có " vài trăm yếu tố " không? Hoặc nó độc lập với bất kỳ khía cạnh nào của dữ liệu?
Darren Cook

33
Loại cài đặt mà tôi kiểm tra phân tách dữ liệu là n = 17000 với tỷ lệ 0,3 có một sự kiện và có khoảng 50 tham số được kiểm tra hoặc được trang bị trong mô hình logistic nhị phân. Tôi đã sử dụng phân chia ngẫu nhiên 1: 1. Vùng ROC được xác thực trong mẫu thử đã thay đổi đáng kể khi tôi phân tách lại dữ liệu và bắt đầu lại. Xem trong Nghiên cứu về Phương pháp được sử dụng trong Văn bản trong biostat.mc.vanderbilt.edu/rms để nghiên cứu mô phỏng và các tài liệu liên quan cung cấp thêm thông tin.
Frank Harrell

15

Để trả lời câu hỏi, có một số tùy chọn: 1) tất cả tập hợp con theo AIC / BIC 2) từng bước theo giá trị p) theo từng bước của AIC / BIC 4) như LASSO (có thể dựa trên AIC / BIC hoặc CV 5) thuật toán di truyền (GA) 6) khác? 7) sử dụng lựa chọn theo định hướng không tự động, lý thuyết ("kiến thức chủ đề")

Câu hỏi tiếp theo sẽ là phương pháp nào tốt hơn. Bài viết này (doi: 10.1016 / j.amc.2013.05.016) chỉ ra rằng tất cả các hồi quy có thể có được. Đưa ra kết quả tương tự cho phương pháp mới được đề xuất của họ và từng bước là tồi tệ hơn. Một GA đơn giản là giữa chúng. Bài viết này (DOI: 10.1080 / 10618600.1998.10474784) so ​​sánh hồi quy bị phạt (Bridge, Lasso, v.v.) với các bước nhảy vọt (dường như là một thuật toán tìm kiếm đầy đủ nhưng nhanh hơn) và cũng tìm thấy mô hình cầu phù hợp với mô hình tốt nhất từ lựa chọn tập hợp con theo phương pháp bước nhảy vọt. Bài viết này (doi: 10.1186 / 1471-2105-15-88) cho thấy GA tốt hơn LASSO. Bài viết này (DOI: 10.1198 / jcgs.2009.06164) đã đề xuất một phương pháp - về cơ bản là phương pháp tất cả các tập hợp con (dựa trên BIC) nhưng khéo léo giảm thời gian tính toán. Họ chứng minh phương pháp này tốt hơn LASSO. Thật thú vị, bài báo này (DOI: 10.1111 / j.1461-0248.2009.01361.

Vì vậy, tổng thể các kết quả là hỗn hợp nhưng tôi có một ấn tượng rằng GA có vẻ rất tốt mặc dù từng bước có thể không quá tệ và nó rất nhanh.

Đối với 7), việc sử dụng lựa chọn theo định hướng không tự động, lý thuyết ("kiến thức chủ đề"). Nó tốn thời gian và nó không nhất thiết phải tốt hơn phương pháp tự động. Trong thực tế trong tài liệu chuỗi thời gian, người ta đã xác định rõ rằng phương pháp tự động (đặc biệt là phần mềm thương mại) vượt trội hơn các chuyên gia về con người "bằng một mức đáng kể" (doi: 10.1016 / S0169-2070 (01) 00119-4, trang561, ví dụ: chọn làm mịn theo cấp số nhân và các mô hình ARIMA).


6
Xin lưu ý rằng bạn có thể nhận được hiệu suất khác nhau trong các nghiên cứu mô phỏng của các thuật toán lựa chọn khác nhau bằng cách thay đổi quy trình tạo dữ liệu để ưu tiên (ngay cả khi không cố ý) một thói quen cụ thể. Vấn đề về cách tiếp cận nào sẽ nhanh hơn hay chậm hơn là khác biệt, nhưng có khả năng vẫn còn quan trọng.
gung

2
Trên thực tế, các ví dụ trong bài viết gốc của Tibshirani trên LASSO minh họa rõ ràng quan điểm của @ gung. Điều tương tự cũng xảy ra đối với các nghiên cứu so sánh các phương pháp khác nhau trên dữ liệu thực. BTW, là tài liệu tham khảo cuối cùng của bạn phải không? Bài viết của Clements & Hendry với DOI mà bạn đưa ra không đưa ra tuyên bố rằng các phương pháp tự động vượt trội so với các chuyên gia về con người, hoặc sử dụng các từ "bằng một lề đáng kể". (Sẽ thật tuyệt nếu bạn cung cấp tài liệu tham khảo đầy đủ.)
Scortchi

Tìm thấy nó: Goodrich (2001), "Phần mềm thương mại trong cuộc thi M3", Int. J. Dự báo., 17, tr. 560 Phản565. Nó nằm trong cùng bộ sưu tập "Bình luận về Cuộc thi M3" như bài viết của Clements & Hendry, đó là lý do tại sao việc làm cho DOI gửi tôi đến đó.
Scortchi

Dù sao, không rõ ràng rằng bình luận của Goodrich có liên quan gì đến chuyên môn về vấn đề này .
Scortchi

1
@Scortchi có thể rõ ràng hơn về bài viết bắt đầu từ trang 581 về vấn đề tạp chí đó. Nó liên quan nhiều hơn đến "Cạnh tranh M2", trong đó, các phương pháp dự báo tự động được so sánh với các chuyên gia về con người được mời (bao gồm cả một số tên tuổi trong văn học chuỗi thời gian), những người biết bối cảnh kinh tế / công nghiệp và thậm chí có thể hỏi thêm thông tin từ các công ty cung cấp dữ liệu.
heran_xp 18/03/2015

6

Đây là một câu trả lời ngoài trường bên trái - thay vì sử dụng hồi quy tuyến tính, hãy sử dụng cây hồi quy (gói rpart). Điều này phù hợp với lựa chọn mô hình tự động vì với một chút công việc bạn có thể tự động hóa việc lựa chọn cp, tham số được sử dụng để tránh khớp quá mức.


3

mô hình tuyến tính có thể được tối ưu hóa bằng cách thực hiện thuật toán di truyền theo cách chọn hầu hết các biến độc lập có giá trị. Các biến được biểu diễn dưới dạng gen trong thuật toán và bộ nhiễm sắc thể tốt nhất (bộ gen) sau đó được chọn sau các toán tử chéo, đột biến, v.v. Nó dựa trên lựa chọn tự nhiên - sau đó 'thế hệ' tốt nhất có thể tồn tại, nói cách khác, thuật toán tối ưu hóa chức năng ước tính phụ thuộc vào mô hình cụ thể.


2
Điều đó sẽ chọn các biến "tốt nhất" trong dữ liệu , không nhất thiết là các biến tốt nhất trong quy trình / dân số tạo dữ liệu, vì nó chỉ có quyền truy cập vào dữ liệu. Nó không thực sự khác biệt so với phương pháp từng bước mà OP muốn.
gung

0

Chúng tôi có một chức năng trong gói số liệu thống kê cơ sở R, được gọi là bước (), lựa chọn, chuyển tiếp, lùi hoặc chọn từng mô hình dựa trên AIC thấp nhất. Điều này cũng hoạt động cho các biến yếu tố. Đây không phải là máy chủ mục đích ở đây?.


-51

Tôi thấy câu hỏi của tôi tạo ra rất nhiều sự quan tâm và một cuộc tranh luận thú vị về tính hợp lệ của phương pháp lựa chọn mô hình tự động. Mặc dù tôi đồng ý rằng việc chấp nhận kết quả của lựa chọn tự động là rủi ro, nó có thể được sử dụng làm điểm khởi đầu. Vì vậy, đây là cách tôi triển khai nó cho vấn đề cụ thể của mình, đó là tìm ra n yếu tố tốt nhất để giải thích một biến đã cho

  1. làm tất cả các biến hồi quy so với các yếu tố riêng lẻ
  2. sắp xếp hồi quy theo một tiêu chí nhất định (giả sử AIC)
  3. loại bỏ các yếu tố có chỉ số t thấp: chúng vô dụng trong việc giải thích biến của chúng tôi
  4. với thứ tự được đưa ra trong 2., hãy thử thêm từng yếu tố vào mô hình và giữ chúng khi chúng cải thiện tiêu chí của chúng tôi. lặp đi lặp lại cho tất cả các yếu tố.

Một lần nữa, điều này rất thô sơ, có thể có cách để cải thiện phương pháp, nhưng đó là điểm khởi đầu của tôi. Tôi đang đăng câu trả lời này với hy vọng nó có thể hữu ích cho người khác. Bình luận được chào đón!


47
(1) Tôi chưa chứng kiến ​​bất kỳ "cuộc tranh luận" nào trong chủ đề này: tất cả các câu trả lời và bình luận đều có cùng một thông điệp cơ bản. (2) Việc triển khai của bạn dường như là một phiên bản đặc biệt của hồi quy từng bước . Tôi đồng ý rằng nó có thể hữu ích như một điểm khởi đầu với điều kiện nó không tự động được chấp nhận như là một kết thúc.
whuber

28
bạn thực sự đã chấp nhận câu trả lời của riêng bạn mà đi ngược lại mọi tranh luận được đưa ra bởi cộng đồng. Không có gì đáng ngạc nhiên khi thấy những tiêu cực ở đây ...
11:30

23
Tôi tin rằng đây là lần đầu tiên tôi thấy rất nhiều lượt tải xuống. @SAM tại sao bạn không chấp nhận một số câu trả lời xuất sắc khác và xóa "câu trả lời" của bạn?
Marbel

Đây có phải là câu trả lời bị đánh giá thấp nhất từ ​​trước đến nay của SE không?
mkt

2
Dường như bạn đã trả lời câu hỏi quan trọng của @probabilityislogic bằng cách nói mục tiêu của bạn "để tìm ra n yếu tố tốt nhất để giải thích một biến đã cho." Xây dựng mô hình để giải thích (để hiểu nguyên nhân) cần được thực hiện có chủ ý và thường mạnh hơn nhiều so với xây dựng mô hình để dự đoán.
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.