Lựa chọn biến cho mô hình dự đoán có thực sự cần thiết trong năm 2016?


67

Câu hỏi này đã được hỏi trên CV một số năm trước, có vẻ như đáng để đăng lại theo thứ tự 1) công nghệ điện toán tốt hơn (ví dụ: tính toán song song, HPC, v.v.) và 2) các kỹ thuật mới hơn, ví dụ [3].

Đầu tiên, một số bối cảnh. Giả sử mục tiêu không phải là kiểm tra giả thuyết, không phải ước tính hiệu quả, mà là dự đoán về tập kiểm tra không nhìn thấy. Vì vậy, không có trọng lượng được trao cho bất kỳ lợi ích có thể giải thích. Thứ hai, giả sử bạn không thể loại trừ sự liên quan của bất kỳ yếu tố dự đoán nào về việc xem xét vấn đề, tức là. tất cả chúng có vẻ hợp lý riêng lẻ hoặc kết hợp với các yếu tố dự đoán khác. Thứ ba, bạn đang đối đầu với (hàng trăm) hàng triệu người dự đoán. Thứ tư, giả sử bạn có quyền truy cập vào AWS với ngân sách không giới hạn, do đó khả năng tính toán không phải là một hạn chế.

Các reaon thông thường để lựa chọn biến là 1) hiệu quả; nhanh hơn để phù hợp với một mô hình nhỏ hơn và rẻ hơn để thu thập ít dự đoán hơn, 2) diễn giải; biết các biến "quan trọng" mang lại cái nhìn sâu sắc về quy trình cơ bản [1].

Bây giờ người ta biết rộng rãi rằng nhiều phương pháp lựa chọn biến là không hiệu quả và thường hoàn toàn nguy hiểm (ví dụ như hồi quy từng bước) [2].

Thứ hai, nếu mô hình được chọn là bất kỳ tốt, người ta không cần phải cắt giảm danh sách các dự đoán. Các mô hình nên làm điều đó cho bạn. Một ví dụ điển hình là lasso, chỉ định hệ số 0 cho tất cả các biến không liên quan.

Tôi biết rằng một số người ủng hộ việc sử dụng mô hình "con voi", tức là. ném mọi dự đoán có thể tưởng tượng vào sự phù hợp và chạy với nó [2].

Có bất kỳ lý do cơ bản để thực hiện lựa chọn biến nếu mục tiêu là độ chính xác dự đoán?

[1] Reunanen, J. (2003). Quá mức trong việc so sánh giữa các phương pháp lựa chọn biến. Tạp chí Nghiên cứu Máy học, 3, 1371-1382.

[2] Mitchell, F. (2015). Chiến lược mô hình hồi quy: với các ứng dụng cho mô hình tuyến tính, hồi quy logistic và thứ tự và phân tích tỷ lệ sống. Mùa xuân.

[3] Taylor, J., & Tibshirani, RJ (2015). Học thống kê và suy luận chọn lọc. Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia, 112 (25), 7629-7634.

[4] Zhou, J., Foster, D., Stine, R., & Ungar, L. (2005, tháng 8). Lựa chọn tính năng phát trực tuyến bằng cách sử dụng đầu tư alpha. Trong Kỷ yếu của hội nghị quốc tế ACM SIGKDD lần thứ mười một về khám phá tri thức trong khai thác dữ liệu (trang 384-393). ACM.


6
Câu hỏi đầu tiên rất hay - nó có thể được đóng lại như một bản sao, nhưng tôi đánh giá cao rằng bạn đã dành nhiều nỗ lực để đặt ra những gì bạn cảm thấy phân biệt nó. Tôi khuyên bạn nên chỉnh sửa tiêu đề, vì vậy rõ ràng bạn chỉ tập trung vào dự đoán.
Cá bạc

5
Nếu câu hỏi này đã được hỏi nhưng bạn thấy điều quan trọng là phải đăng lại nó sau một thời gian trôi qua hơn có thể bạn có thể cung cấp một liên kết đến câu hỏi trước không? Thật thú vị khi có thể so sánh các câu trả lời trước đó.
Tim

1
@ qbert65536 Một quan điểm là bạn không. Lựa chọn tính năng vốn không đáng tin cậy.
horaceT

8
Các phương thức tự động chọn một tập hợp con các tính năng thưa thớt (ví dụ: các mẫu bị phạt l1) cũng đang thực hiện lựa chọn tính năng. Vì vậy, câu hỏi quan trọng không phải là "lựa chọn tính năng tốt / xấu", mà là "các tính chất nào phân biệt các phương pháp lựa chọn tính năng tốt với các phương pháp xấu?". Được thực hiện cùng với ước tính tham số (như trong lasso) là một thuộc tính và chúng tôi có thể hỏi liệu điều đó có quan trọng không (cùng với nhiều thuộc tính khác).
user20160

2
@ToussaintLouverture Kể từ khi tôi đăng câu hỏi này một năm trước, tôi có suy nghĩ thứ hai (và thứ ba). Bây giờ tôi tin rằng câu hỏi thích hợp là, nó quan trọng như thế nào đối với nỗ lực hướng tới lựa chọn biến, thay vì lựa chọn mô hình để chọn một mô hình có khả năng tổng quát hơn từ tất cả các tính năng của một thử nghiệm.
horaceT

Câu trả lời:


37

Đã có tin đồn trong nhiều năm rằng Google sử dụng tất cả các tính năng có sẵn trong việc xây dựng các thuật toán dự đoán của mình. Tuy nhiên, cho đến nay, không có tuyên bố từ chối, giải thích hoặc giấy trắng nào xuất hiện để làm rõ và / hoặc tranh chấp tin đồn này. Thậm chí không có bằng sáng chế được công bố của họ giúp đỡ trong sự hiểu biết. Kết quả là, không ai bên ngoài Google biết họ đang làm gì, theo sự hiểu biết tốt nhất của tôi.

/ * Cập nhật vào tháng 9 năm 2019, một nhà truyền giáo Google Tensorflow đã ghi lại trong một bài thuyết trình nói rằng các kỹ sư của Google thường xuyên đánh giá hơn 5 tỷ thông số cho phiên bản hiện tại của PageRank . * /

Như OP lưu ý, một trong những vấn đề lớn nhất trong mô hình dự đoán là sự kết hợp giữa kiểm tra giả thuyết cổ điển và đặc tả mô hình cẩn thận so với khai thác dữ liệu thuần túy. Những người được đào tạo kinh điển có thể trở nên khá giáo điều về sự cần thiết của "sự nghiêm ngặt" trong thiết kế và phát triển mô hình. Thực tế là khi phải đối mặt với số lượng lớn các dự đoán ứng viên và nhiều mục tiêu có thể hoặc các biến phụ thuộc, khung cổ điển không hoạt động, giữ cũng không cung cấp hướng dẫn hữu ích. Nhiều bài báo gần đây mô tả vấn đề nan giải này từ bài báo xuất sắc của Hayopadhyay và Lipson Đập vỡ dữ liệu: Khám phá trật tự ẩn giấu trong dữ liệu http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

Nút thắt quan trọng là hầu hết các thuật toán so sánh dữ liệu ngày nay đều dựa vào một chuyên gia về con người để chỉ định 'tính năng' của dữ liệu có liên quan để so sánh. Ở đây, chúng tôi đề xuất một nguyên tắc mới để ước tính sự giống nhau giữa các nguồn của luồng dữ liệu tùy ý, không sử dụng kiến ​​thức tên miền cũng như học tập.

Đến bài báo AER năm ngoái về các vấn đề chính sách dự đoán của Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 làm cho trường hợp khai thác dữ liệu và dự đoán là công cụ hữu ích trong hoạch định chính sách kinh tế, trích dẫn các trường hợp trong đó "suy luận nguyên nhân không phải là trung tâm, hoặc thậm chí là cần thiết. "

Thực tế là câu hỏi lớn hơn, trị giá 64.000 đô la là sự thay đổi lớn trong suy nghĩ và thách thức đối với khuôn khổ thử nghiệm giả thuyết cổ điển ẩn chứa, ví dụ, hội nghị chuyên đề Edge.org này về tư duy khoa học "lỗi thời" https://www.edge.org/ phản hồi / những gì khoa học-ý tưởng đã sẵn sàng cho nghỉ hưu cũng như bài viết gần đây của Eric Beinhocker về "kinh tế học mới" đưa ra một số đề xuất cấp tiến để tích hợp các ngành khác nhau rộng rãi như kinh tế học hành vi, lý thuyết phức tạp, mô hình dự đoán lý thuyết phát triển, mạng và danh mục đầu tư như một nền tảng để thực hiện và áp dụng chính sách https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Không cần phải nói, những vấn đề này vượt xa các mối quan tâm kinh tế đơn thuần và cho thấy rằng chúng ta đang trải qua một sự thay đổi cơ bản trong các mô hình khoa học. Các quan điểm thay đổi là cơ bản như sự khác biệt giữa giảm thiểu, Occam's Razor giống như xây dựng mô hình so với Nguyên tắc mở rộng của Epicurus hoặc nhiều giải thích đại khái rằng nếu một số phát hiện giải thích điều gì đó, hãy giữ lại tất cả ... https: // en. wikipedia.org/wiki/Principl_of_plenitude

Tất nhiên, những kẻ như Beinhocker hoàn toàn không bị ảnh hưởng bởi thực tiễn, trong các mối quan tâm về các giải pháp thống kê được áp dụng cho mô hình phát triển này. Viết ra những câu hỏi khó hiểu về lựa chọn biến số siêu cao, OP tương đối không đặc biệt về các phương pháp khả thi để xây dựng mô hình có thể tận dụng, ví dụ Lasso, LAR, thuật toán từng bước hoặc "mô hình con voi sử dụng tất cả thông tin có sẵn. Thực tế là, ngay cả với AWS hoặc siêu máy tính, bạn không thể sử dụng tất cả các thông tin có sẵn cùng một lúc - đơn giản là không có đủ RAM để tải tất cả vào. Điều này có nghĩa là gì? ví dụ: Khám phá của NSF trong các bộ dữ liệu phức tạp hoặc lớn: Các chủ đề thống kê phổ biếnđể "phân chia và chinh phục" các thuật toán để khai thác dữ liệu lớn, ví dụ như Wang, et al, Báo cáo về Phương pháp thống kê và tính toán cho dữ liệu lớn http://arxiv.org/pdf/1502.07989.pdf cũng như Leskovec, et al cuốn sách Khai thác các bộ dữ liệu khổng lồ http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=M+

Hiện tại có hàng trăm, nếu không phải là hàng ngàn bài báo liên quan đến các khía cạnh khác nhau của những thách thức này, tất cả đều đề xuất các công cụ phân tích khác nhau rộng rãi như là cốt lõi của chúng từ các thuật toán phân chia và chinh phục các thuật toán nghiến; mô hình "học sâu" không giám sát; lý thuyết ma trận ngẫu nhiên áp dụng cho xây dựng hiệp phương sai lớn; Mô hình tenor Bayes đến cổ điển, hồi quy logistic có giám sát, và nhiều hơn nữa. Mười lăm năm trước, cuộc tranh luận chủ yếu tập trung vào các câu hỏi liên quan đến giá trị tương đối của các giải pháp Bayes phân cấp so với các mô hình hỗn hợp hữu hạn thường xuyên. Trong một bài viết đề cập đến những vấn đề này, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.197.788&rep=rep1&type=pdfTrong thực tế, đã đi đến kết luận rằng các phương pháp lý thuyết khác nhau, trong thực tế, đã tạo ra kết quả tương đương phần lớn ngoại trừ các vấn đề liên quan đến dữ liệu thưa thớt và / hoặc chiều cao trong đó các mô hình HB có lợi thế. Ngày nay với sự ra đời của các giải pháp D & C, bất kỳ mô hình HB tùy tiện nào có thể được hưởng trong lịch sử đều bị loại bỏ.

Logic cơ bản của các cách giải quyết D & C này, phần lớn, là sự mở rộng của kỹ thuật rừng ngẫu nhiên nổi tiếng của Breiman, dựa trên việc tái cấu trúc lại các quan sát và tính năng. Breiman đã thực hiện công việc của mình vào cuối những năm 90 trên một CPU khi dữ liệu khổng lồ có nghĩa là vài chục hợp đồng biểu diễn và một vài nghìn tính năng. Trên các nền tảng đa lõi, song song ngày nay, có thể chạy các thuật toán phân tích terabyte dữ liệu chứa hàng chục triệu tính năng xây dựng hàng triệu mô hình mini "RF" trong vài giờ.

Có bất kỳ số lượng câu hỏi quan trọng đến từ tất cả những điều này. Người ta phải làm với một mối quan tâm về việc mất độ chính xác do tính chất gần đúng của các cách giải quyết này. Vấn đề này đã được Chen và Xie đề cập đến trong bài báo của họ, Phương pháp phân tách và chinh phục để phân tích dữ liệu cực lớn http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf nơi họ kết luận rằng các xấp xỉ khác nhau không thể phân biệt với các mô hình "thông tin đầy đủ".

Một mối quan tâm thứ hai, theo hiểu biết tốt nhất của tôi đã không được tài liệu giải quyết thỏa đáng, phải làm với những gì được thực hiện với kết quả (tức là "tham số") từ hàng triệu mô hình nhỏ dự đoán một khi có cách giải quyết đã được cuộn lại và tóm tắt. Nói cách khác, làm thế nào để người ta thực hiện một cái gì đó đơn giản như "chấm điểm" dữ liệu mới với những kết quả này? Các hệ số mô hình nhỏ sẽ được lưu và lưu trữ hay chỉ đơn giản là chạy lại thuật toán d & c trên dữ liệu mới?

Trong cuốn sách của mình, Numbers Rule Your World , Kaiser Fung mô tả tình huống khó xử mà Netflix phải đối mặt khi được giới thiệu với một nhóm chỉ gồm 104 mô hình được trao bởi những người chiến thắng trong cuộc thi của họ. Trên thực tế, những người chiến thắng đã giảm thiểu MSE so với tất cả các đối thủ khác, nhưng điều này chỉ chuyển thành cải thiện một số thập phân về độ chính xác trên thang đánh giá loại 5 điểm, Likert được sử dụng bởi hệ thống đề xuất phim của họ. Ngoài ra, việc bảo trì CNTT cần thiết cho nhóm mô hình này có chi phí cao hơn nhiều so với bất kỳ khoản tiết kiệm nào được thấy từ "cải tiến" về độ chính xác của mô hình.

Sau đó, có toàn bộ câu hỏi về việc "tối ưu hóa" thậm chí có thể với thông tin về cường độ này hay không. Chẳng hạn, Emmanuel Derman, nhà vật lý và kỹ sư tài chính, trong cuốn sách My Life as a Quant cho thấy tối ưu hóa là một huyền thoại không bền vững, ít nhất là trong kỹ thuật tài chính.

Cuối cùng, các câu hỏi quan trọng liên quan đến tầm quan trọng của tính năng tương đối với số lượng lớn các tính năng vẫn chưa được giải quyết.

Không có câu trả lời dễ dàng nào cho các câu hỏi liên quan đến nhu cầu lựa chọn biến và những thách thức mới được mở ra bởi các giải pháp hiện tại, Epicurean vẫn còn phải giải quyết. Điểm mấu chốt là bây giờ chúng ta đều là những nhà khoa học dữ liệu.

**** EDIT *** Tài liệu tham khảo

  1. Hayopadhyay I, Lipson H. 2014 Đập vỡ dữ liệu: phát hiện ra thứ tự ẩn trong dữ liệu. JR Sóc. Giao diện 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan và Ziad Obermeyer. 2015. "Vấn đề chính sách dự đoán." Tạp chí kinh tế Mỹ, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023

  3. Edge.org, Câu hỏi thường niên năm 2014: Ý TƯỞNG KHOA HỌC S READN SÀNG ĐỂ KIẾM TIỀN? https://www.edge.org/responses/what-scientific-idea-is- yet-for-retorrow

  4. Eric Beinhocker, Làm thế nào những thay đổi sâu sắc trong kinh tế làm cho những cuộc tranh luận trái phải không liên quan, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. Nguyên tắc sử thi của nhiều giải thích: giữ tất cả các mô hình. Wikipedia https://www.cferencehero.com/file/p6tt7ej/Epicurus-Principl-of-Multipl-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, Discovery in Complex hoặc Massive Datasets: Các chủ đề thống kê chung, Hội thảo do Quỹ khoa học quốc gia tài trợ, ngày 16 đến 17 tháng 10 năm 2007 https://www.nsf.gov/mps/dms/document/DiscoveryInComplexOrMassiveDatasets.pdf

  7. Phương pháp thống kê và tính toán cho dữ liệu lớn, Tài liệu làm việc của Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu và Jun Yan, ngày 29 tháng 10 năm 2015 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Khai thác dữ liệu khổng lồ, Nhà xuất bản Đại học Cambridge; 2 phiên bản (ngày 29 tháng 12 năm 2014) Mã số: 980-1107077 232

  9. Ma trận hiệp phương sai mẫu lớn và phân tích dữ liệu chiều cao (sê-ri Cambridge về toán học thống kê và xác suất), bởi Jianfeng Yao, Shurong Zheng, Zhidong Bai, Nhà xuất bản Đại học Cambridge; 1 phiên bản (ngày 30 tháng 3 năm 2015) Mã số: 980-1107065178

  10. RICK L. ANDREWS, ANDREW AINSLIE và IMRAN S. CURRIM, Một so sánh thực nghiệm về các mô hình lựa chọn logit với các biểu hiện không đồng nhất liên tục của tạp chí, Tạp chí nghiên cứu tiếp thị, 479 Vol. XXXIX (tháng 11 năm 2002), 479 Từ487 http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.197.788&rep=rep1&type=pdf

  11. Phương pháp phân tách và chinh phục để phân tích dữ liệu cực lớn, Xueying Chen và Minge Xie, Báo cáo kỹ thuật của DIMACS 2012-01, tháng 1 năm 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf

  12. Kaiser Fung, Những con số thống trị thế giới của bạn: Ảnh hưởng tiềm ẩn của xác suất và thống kê đối với mọi thứ bạn làm, McGraw-Hill Education; 1 phiên bản (ngày 15 tháng 2 năm 2010) Mã số: 976-0071626538

  13. Emmanuel Derman, My Life as a Quant: Reflection on Vật lý và Tài chính, Wiley; 1 phiên bản (ngày 11 tháng 1 năm 2016) Mã số: 980-0470192733

* Cập nhật vào tháng 11 năm 2017 *

Cuốn sách năm 2013 của Nathan Kutz, Mô hình hóa dựa trên dữ liệu và tính toán khoa học: Các phương pháp cho các hệ thống phức tạp & Dữ liệu lớn là một chuyến tham quan toán học và PDE tập trung vào lựa chọn biến cũng như các phương pháp và công cụ giảm kích thước. Một đoạn giới thiệu tuyệt vời, 1 giờ về suy nghĩ của anh ấy có thể được tìm thấy trong video Youtube Data Driven Discovery of Dynamicical Systems and PDEs . Trong đó, ông đưa ra các tài liệu tham khảo cho những phát triển mới nhất trong lĩnh vực này. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
Tại cặp vợ chồng của School Learning Summer School vài năm trước, một người bạn từ Google đã nói chuyện (quên tên). Ông đã đề cập đến một vài mô hình (phân loại nhị phân) trong sản xuất liên quan đến khoảng ~ 200 triệu tính năng được đào tạo hàng loạt trên ~ 30 Tb bộ dữ liệu; hầu hết trong số chúng có thể là các tính năng nhị phân. Tôi không nhớ anh ấy từng đề cập đến lựa chọn biến.
horaceT

1
Nhận xét tuyệt vời (mặc dù một phần của nó đã đi vào một tiếp tuyến). Tôi đặc biệt thích viễn cảnh mà nhiều ý tưởng lỗi thời cần kiểm tra lại trong kỷ nguyên của Dữ liệu lớn.
horaceT

1
@horaceT Rất thú vị. Ít nhất điều đó xác nhận tin đồn. Cảm ơn. Chương trình ML nào vậy?
Mike Hunter

1
MLSS 2012 tại UC Santa Cruz. Người nói là Tushar Chandra, đây là slide, users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@Glen_b Cảm ơn các ý kiến. Tôi nghĩ rằng tôi đã cung cấp tên và tiêu đề cho các tài liệu tham khảo chính xác vì vấn đề liên kết bị hỏng. Bất kể, tôi sẽ thêm một phần tham khảo ở cuối. Hãy cho tôi biết nếu thiếu bất cứ điều gì.
Mike Hunter

14

Về mặt dự đoán, có lẽ bạn cần nghĩ về câu hỏi làm thế nào nhanh chóng mô hình học được các tính năng quan trọng. Ngay cả khi nghĩ về OLS, điều này sẽ cung cấp cho bạn một cái gì đó giống như lựa chọn mô hình được cung cấp đủ dữ liệu. Nhưng chúng tôi biết rằng nó không hội tụ đủ nhanh đến giải pháp này - vì vậy chúng tôi tìm kiếm thứ gì đó tốt hơn.

Hầu hết các phương pháp đang đưa ra một giả định về loại betas / hệ số sẽ gặp phải (giống như phân phối trước trong mô hình bayesian). Họ làm việc tốt nhất khi những giả định này nắm giữ. Ví dụ, hồi quy r sườn / lasso giả định hầu hết các betas có cùng tỷ lệ với hầu hết gần bằng không. Chúng sẽ không hoạt động tốt đối với các hồi quy "kim trong đống cỏ khô" trong đó hầu hết các betas đều bằng 0 và một số betas rất lớn (tức là quy mô rất khác nhau). Lựa chọn tính năng có thể hoạt động tốt hơn ở đây - lasso có thể bị kẹt giữa tiếng ồn bị thu hẹp và tín hiệu không bị ảnh hưởng. Lựa chọn tính năng hay thay đổi hơn - hiệu ứng là "tín hiệu" hoặc "nhiễu".

Về mặt quyết định - bạn cần có một số ý tưởng về loại biến dự đoán nào bạn có. Bạn có một vài cái thực sự tốt? Hoặc tất cả các biến là yếu? Điều này sẽ lái hồ sơ của betas bạn sẽ có. Và phương pháp phạt / lựa chọn nào bạn sử dụng (ngựa cho các khóa học và tất cả những thứ đó).

Lựa chọn tính năng cũng không tệ nhưng một số xấp xỉ cũ hơn do các hạn chế tính toán không còn tốt nữa (từng bước, chuyển tiếp). Tính trung bình của mô hình bằng cách sử dụng lựa chọn tính năng (tất cả các mô hình 1 var, 2 mô hình var, v.v. được đánh giá bằng hiệu suất của chúng) sẽ làm rất tốt công việc dự đoán. Nhưng về cơ bản, chúng đang xử phạt các betas thông qua trọng số được đưa ra cho các mô hình với biến đó bị loại trừ - chỉ không trực tiếp - và không phải là một cách giải quyết vấn đề tối ưu hóa lồi.


12

Tôi cho bạn quan điểm của ngành công nghiệp.

Các ngành công nghiệp không muốn chi tiền cho các cảm biến và hệ thống giám sát mà họ không biết họ sẽ được hưởng lợi bao nhiêu.

Chẳng hạn, tôi không muốn đặt tên, vì vậy hãy tưởng tượng một thành phần có 10 cảm biến thu thập dữ liệu mỗi phút. Chủ sở hữu tài sản quay sang tôi và hỏi tôi bạn có thể dự đoán hành vi của thành phần của tôi với các dữ liệu này từ 10 cảm biến như thế nào? Sau đó, họ thực hiện một phân tích lợi ích chi phí.

Sau đó, họ có cùng một thành phần với 20 cảm biến, họ hỏi tôi, một lần nữa, bạn có thể dự đoán hành vi của thành phần của tôi với những dữ liệu này từ 20 cảm biến như thế nào? Họ thực hiện một phân tích lợi ích chi phí khác.

Ở mỗi trường hợp này, họ so sánh lợi ích với chi phí đầu tư do lắp đặt cảm biến. (Đây không chỉ là thêm một cảm biến $ 10 vào một thành phần. Rất nhiều yếu tố đóng vai trò). Đây là nơi một phân tích lựa chọn biến có thể hữu ích.


1
Điểm tốt. Nhưng bạn sẽ không biết 10 cảm biến đủ tốt hoặc cần thêm 10 cảm biến nữa cho đến khi bạn có một số dữ liệu từ 20.
horaceT

Đúng, và bạn luôn có thể suy đoán dựa trên một số nghiên cứu. Bạn cài đặt mỗi cảm biến với một mục tiêu, để tránh thất bại. Nếu tỷ lệ thất bại thấp hoặc bạn đã bao phủ các phần quan trọng của một thành phần, bạn biết rằng việc thêm 1 cảm biến sẽ không mang lại lợi nhuận lớn. Vì vậy, bạn không cần phải cài đặt các cảm biến đó, thu thập dữ liệu và thực hiện nghiên cứu để biết liệu các cảm biến bổ sung đó có thực sự đủ tốt hay không.
PeyM87

'Cảm biến' có thể không có nghĩa là cảm biến - trong công ty của tôi, chúng tôi đăng ký tất cả dữ liệu của chúng tôi, vì vậy thực sự có cơ hội khám phá các tính năng không đóng góp cho bất cứ điều gì và cắt giảm chi phí bằng cách xóa chúng khỏi dịch vụ đăng ký (rõ ràng, tỷ lệ đăng ký được tính ở mức cao hơn các cột riêng lẻ, nhưng chắc chắn có thể tưởng tượng được một yếu tố của thuê bao đóng góp một tính năng cho mô hình cuối cùng và có thể ngừng nếu nó không cải thiện hiệu suất)
Robert de Graaf

9

Là một phần của thuật toán học mô hình dự đoán thuần túy, lựa chọn biến không nhất thiết là xấu từ quan điểm hiệu suất cũng không tự động nguy hiểm. Tuy nhiên, có một số vấn đề mà người ta nên nhận thức được.

Để thực hiện các câu hỏi cụ thể hơn một chút, chúng ta hãy xem xét các vấn đề hồi quy tuyến tính với cho , và và là vectơ chiều của các biến và tham số tương ứng. Mục tiêu là tìm ra một xấp xỉ tốt của hàm đó là dự đoán của cho . Điều này có thể đạt được bằng cách ước tínhi = 1 , ... , N X i β p x E ( Y | X = x ) = X T β , Y X = x β

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβsử dụng kết hợp lựa chọn biến và tối thiểu hóa hàm mất có hoặc không có hình phạt. Phương pháp lấy trung bình mô hình hoặc phương pháp Bayes cũng có thể được sử dụng, nhưng hãy tập trung vào các dự đoán mô hình đơn lẻ.

Các thuật toán lựa chọn theo chiều như lựa chọn biến tiến và lùi có thể được xem là những nỗ lực gần đúng để giải quyết vấn đề lựa chọn tập hợp con tốt nhất, rất khó tính toán (rất khó để cải thiện sức mạnh tính toán ít). Sự quan tâm là tìm kiếm cho mỗi mô hình tốt nhất (hoặc ít nhất là tốt) với biến. Sau đó, chúng tôi có thể tối ưu hóa hơn .k=1,,min(N,p)kk

Điều nguy hiểm với quy trình lựa chọn biến như vậy là nhiều kết quả phân phối chuẩn không hợp lệ theo điều kiện lựa chọn biến. Điều này giữ cho các bài kiểm tra tiêu chuẩn và khoảng tin cậy, và là một trong những vấn đề mà Mitchell [2] đang cảnh báo. Breiman cũng cảnh báo về việc lựa chọn mô hình dựa trên ví dụ Mallows' trong The Little Bootstrap ... . của Mallows , hoặc AIC cho vấn đề đó, không tính đến việc lựa chọn mô hình và họ sẽ đưa ra các lỗi dự đoán quá lạc quan.CpCp

Tuy nhiên, xác thực chéo có thể được sử dụng để ước tính lỗi dự đoán và để chọn , và lựa chọn biến có thể đạt được sự cân bằng tốt giữa sai lệch và phương sai. Điều này đặc biệt đúng nếu có một vài tọa độ lớn với phần còn lại gần bằng 0 như @probabilityislogic đề cập.kβ

Các phương pháp thu nhỏ như hồi quy sườn và lasso có thể đạt được sự đánh đổi tốt giữa sai lệch và phương sai mà không cần chọn biến rõ ràng. Tuy nhiên, như OP đề cập, lasso không ngầm định lựa chọn biến. Nó không thực sự là mô hình mà là phương pháp để phù hợp với mô hình thực hiện lựa chọn biến. Từ quan điểm đó, lựa chọn biến (ẩn hoặc tường minh) chỉ đơn giản là một phần của phương thức để khớp mô hình với dữ liệu và nó nên được coi là như vậy.

Các thuật toán để tính toán công cụ ước tính Lasso có thể được hưởng lợi từ lựa chọn biến (hoặc sàng lọc). Trong học thống kê với độ thưa thớt: Lasso và khái quát hóa , Phần 5.10, nó mô tả cách sàng lọc, như được thực hiện trong glmnet, là hữu ích. Nó có thể dẫn đến tính toán nhanh hơn đáng kể của công cụ ước tính Lasso.

Một kinh nghiệm cá nhân là từ một ví dụ trong đó lựa chọn biến cho phép điều chỉnh mô hình phức tạp hơn (mô hình phụ gia tổng quát) bằng cách sử dụng các biến đã chọn. Kết quả xác thực chéo cho thấy mô hình này vượt trội so với một số lựa chọn thay thế mặc dù không phải là một khu rừng ngẫu nhiên. Nếu gamsel đã xuất hiện tích hợp các mô hình phụ gia tổng quát với lựa chọn biến tôi có thể đã cân nhắc dùng thử.

Chỉnh sửa: Kể từ khi tôi viết câu trả lời này, có một bài viết về ứng dụng cụ thể mà tôi có trong tâm trí. Mã R để tái tạo kết quả trong bài báo có sẵn.

Tóm lại tôi sẽ nói rằng lựa chọn biến (dưới dạng này hay dạng khác) vẫn sẽ hữu ích ngay cả đối với mục đích dự đoán thuần túy như một cách để kiểm soát sự đánh đổi sai lệch. Nếu không phải vì những lý do khác, thì ít nhất là vì các mô hình phức tạp hơn có thể không thể xử lý số lượng rất lớn các biến ngoài luồng. Tuy nhiên, theo thời gian, chúng ta sẽ thấy các phát triển như gamsel tích hợp lựa chọn biến vào phương pháp ước tính.

Tất nhiên, điều luôn cần thiết là chúng ta coi lựa chọn biến là một phần của phương pháp ước tính. Điều nguy hiểm là tin rằng lựa chọn biến thực hiện giống như một lời sấm truyền và xác định tập hợp các biến chính xác. Nếu chúng tôi tin điều đó và tiến hành như thể các biến không được chọn dựa trên dữ liệu, thì chúng tôi có nguy cơ mắc lỗi.


1
Tôi không rõ làm thế nào lựa chọn biến làm cho nó có thể phù hợp với một mô hình phức tạp hơn. Với lựa chọn biến, bạn vẫn đang ước tính cùng một số lượng lớn các tham số; bạn chỉ đang ước tính một số trong số họ là số không. Sự ổn định của một mô hình có điều kiện được trang bị sau khi lựa chọn biến có thể là một ảo ảnh.
Frank Harrell

1
@Harrell, trong ví dụ cụ thể, việc lựa chọn biến được thực hiện bằng cách sử dụng lasso kết hợp với lựa chọn ổn định trong mô hình nơi tất cả các biến được nhập tuyến tính. Các gam sau đó được trang bị bằng các biến được chọn. Tôi hoàn toàn đồng ý rằng lựa chọn biến chỉ là ước tính một số tham số về 0 và ứng dụng đã thực hiện chính xác điều đó trong mô hình gam bằng thủ tục hai bước. Tôi chắc chắn rằng gamsel cung cấp một cách tiếp cận có hệ thống hơn. Quan điểm của tôi là không có cách tiếp cận như vậy, lựa chọn biến có thể là lối tắt hữu ích.
NRH

1
Sử dụng một phương pháp không được cấp phép để điều chỉnh lại các biến được chọn trong giai đoạn xử phạt trước đó là không phù hợp. Điều đó sẽ được thiên vị đáng kể. Và lựa chọn biến không mở rộng không phải là một phím tắt tốt.
Frank Harrell

1
Lựa chọn ổn định là bảo thủ hơn so với việc chọn các biến bằng lasso và lắp lại mà không bị phạt. Cái sau đã làm, dự kiến, không hoạt động tốt từ quan điểm dự đoán (như được đo bằng xác nhận chéo). Khi tôi thông qua xác thực chéo trong trường hợp cụ thể thấy rằng lựa chọn biến + gam mang lại hiệu suất dự đoán tốt hơn so với công cụ ước tính sườn núi hoặc lasso, thì đó là thước đo của tôi về việc liệu quy trình có tốt hay không.
NRH

1
Vui lòng xác định 'lựa chọn ổn định'. Và lắp lại mà không bị phạt là chống bảo thủ.
Frank Harrell

4

Cho phép tôi nhận xét về tuyên bố: Phù ... phù hợp với các tham số k cho các quan sát n <k sẽ không xảy ra.

Trong hóa học, chúng ta thường quan tâm đến các mô hình dự đoán và tình huống k >> n thường gặp phải (ví dụ như trong dữ liệu phổ). Vấn đề này thường được giải quyết đơn giản bằng cách chiếu các quan sát đến không gian con chiều thấp hơn a, trong đó a <n, trước hồi quy (ví dụ: Hồi quy thành phần chính). Sử dụng bình phương tối thiểu một phần Hồi quy phép chiếu và hồi quy được thực hiện đồng thời thiên về chất lượng dự đoán. Các phương pháp được đề cập tìm giả giả tối ưu đảo ngược với ma trận hiệp phương sai (số ít) hoặc ma trận tương quan, ví dụ bằng cách phân tách giá trị số ít.

Kinh nghiệm cho thấy hiệu suất dự đoán của các mô hình đa biến tăng khi loại bỏ các biến nhiễu. Vì vậy, ngay cả khi chúng tôi - theo một cách có ý nghĩa - có thể ước tính k tham số chỉ có n phương trình (n <k), chúng tôi cố gắng cho các mô hình tuyệt vời. Với mục đích đó, lựa chọn biến trở nên phù hợp và nhiều tài liệu hóa học được dành cho chủ đề này.

Mặc dù dự đoán là một mục tiêu quan trọng, các phương thức chiếu đồng thời cung cấp cái nhìn sâu sắc có giá trị về các mẫu ví dụ trong dữ liệu và mức độ phù hợp của các biến. Điều này được tạo điều kiện chủ yếu bởi các mô hình đa dạng, ví dụ như điểm số, tải trọng, phần dư, v.v ...

Công nghệ hóa học được sử dụng rộng rãi, ví dụ như trong ngành công nghiệp nơi các dự đoán đáng tin cậy và chính xác thực sự được tính đến.


3

Trong một số trường hợp nổi tiếng, có, lựa chọn biến là không cần thiết. Học sâu đã trở nên hơi quá lời vì chính xác lý do này.

Ví dụ: khi một mạng nơ ron phức tạp ( http://cs231n.github.io/convolutional-networks/ ) cố gắng dự đoán nếu một hình ảnh trung tâm có chứa một khuôn mặt người, các góc của hình ảnh có xu hướng có giá trị dự đoán tối thiểu. Mô hình hóa và lựa chọn biến truyền thống sẽ có trình tạo mô hình loại bỏ các pixel góc làm dự đoán; tuy nhiên, mạng nơ ron phức tạp đủ thông minh để tự động loại bỏ các dự đoán này. Điều này đúng với hầu hết các mô hình học sâu, cố gắng dự đoán sự hiện diện của một số đối tượng trong một hình ảnh (ví dụ: xe tự lái "dự đoán" các làn đường, chướng ngại vật hoặc các xe khác trong các khung hình của video phát trực tuyến).

Học sâu có lẽ là quá mức cần thiết cho rất nhiều vấn đề truyền thống, chẳng hạn như bộ dữ liệu nhỏ hoặc nơi kiến ​​thức về miền dồi dào, vì vậy lựa chọn biến truyền thống có thể sẽ còn phù hợp trong một thời gian dài, ít nhất là trong một số lĩnh vực. Tuy nhiên, học sâu là tuyệt vời khi bạn muốn kết hợp một giải pháp "khá tốt" với sự can thiệp tối thiểu của con người. Tôi có thể mất nhiều giờ để làm thủ công và chọn các công cụ dự đoán để nhận ra các chữ số viết tay trong hình ảnh, nhưng với mạng thần kinh phức tạp và lựa chọn biến không, tôi có thể có một mô hình hiện đại chỉ trong chưa đầy 20 phút bằng cách sử dụng TensorFlow của Google ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).


3
Tôi thực sự thích quan điểm DL này. Trong Thị giác máy tính, ma trận dữ liệu bạn gặp phải là hình ảnh 2D được làm phẳng, trong đó ý nghĩa của một cột cụ thể phụ thuộc vào quan sát. Ví dụ, pixel 147 có thể là khuôn mặt của một con mèo trong hình ảnh số 27, nhưng đó là bức tường nền trong hình ảnh số 42. Vì vậy, lựa chọn tính năng như chúng ta biết nó sẽ thất bại thảm hại. Đó là lý do tại sao ConvNet rất mạnh bởi vì nó có tính bất biến chuyển động / quay tích hợp.
horaceT
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.