Đã có tin đồn trong nhiều năm rằng Google sử dụng tất cả các tính năng có sẵn trong việc xây dựng các thuật toán dự đoán của mình. Tuy nhiên, cho đến nay, không có tuyên bố từ chối, giải thích hoặc giấy trắng nào xuất hiện để làm rõ và / hoặc tranh chấp tin đồn này. Thậm chí không có bằng sáng chế được công bố của họ giúp đỡ trong sự hiểu biết. Kết quả là, không ai bên ngoài Google biết họ đang làm gì, theo sự hiểu biết tốt nhất của tôi.
/ * Cập nhật vào tháng 9 năm 2019, một nhà truyền giáo Google Tensorflow đã ghi lại trong một bài thuyết trình nói rằng các kỹ sư của Google thường xuyên đánh giá hơn 5 tỷ thông số cho phiên bản hiện tại của PageRank . * /
Như OP lưu ý, một trong những vấn đề lớn nhất trong mô hình dự đoán là sự kết hợp giữa kiểm tra giả thuyết cổ điển và đặc tả mô hình cẩn thận so với khai thác dữ liệu thuần túy. Những người được đào tạo kinh điển có thể trở nên khá giáo điều về sự cần thiết của "sự nghiêm ngặt" trong thiết kế và phát triển mô hình. Thực tế là khi phải đối mặt với số lượng lớn các dự đoán ứng viên và nhiều mục tiêu có thể hoặc các biến phụ thuộc, khung cổ điển không hoạt động, giữ cũng không cung cấp hướng dẫn hữu ích. Nhiều bài báo gần đây mô tả vấn đề nan giải này từ bài báo xuất sắc của Hayopadhyay và Lipson Đập vỡ dữ liệu: Khám phá trật tự ẩn giấu trong dữ liệu http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Nút thắt quan trọng là hầu hết các thuật toán so sánh dữ liệu ngày nay đều dựa vào một chuyên gia về con người để chỉ định 'tính năng' của dữ liệu có liên quan để so sánh. Ở đây, chúng tôi đề xuất một nguyên tắc mới để ước tính sự giống nhau giữa các nguồn của luồng dữ liệu tùy ý, không sử dụng kiến thức tên miền cũng như học tập.
Đến bài báo AER năm ngoái về các vấn đề chính sách dự đoán của Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 làm cho trường hợp khai thác dữ liệu và dự đoán là công cụ hữu ích trong hoạch định chính sách kinh tế, trích dẫn các trường hợp trong đó "suy luận nguyên nhân không phải là trung tâm, hoặc thậm chí là cần thiết. "
Thực tế là câu hỏi lớn hơn, trị giá 64.000 đô la là sự thay đổi lớn trong suy nghĩ và thách thức đối với khuôn khổ thử nghiệm giả thuyết cổ điển ẩn chứa, ví dụ, hội nghị chuyên đề Edge.org này về tư duy khoa học "lỗi thời" https://www.edge.org/ phản hồi / những gì khoa học-ý tưởng đã sẵn sàng cho nghỉ hưu cũng như bài viết gần đây của Eric Beinhocker về "kinh tế học mới" đưa ra một số đề xuất cấp tiến để tích hợp các ngành khác nhau rộng rãi như kinh tế học hành vi, lý thuyết phức tạp, mô hình dự đoán lý thuyết phát triển, mạng và danh mục đầu tư như một nền tảng để thực hiện và áp dụng chính sách https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Không cần phải nói, những vấn đề này vượt xa các mối quan tâm kinh tế đơn thuần và cho thấy rằng chúng ta đang trải qua một sự thay đổi cơ bản trong các mô hình khoa học. Các quan điểm thay đổi là cơ bản như sự khác biệt giữa giảm thiểu, Occam's Razor giống như xây dựng mô hình so với Nguyên tắc mở rộng của Epicurus hoặc nhiều giải thích đại khái rằng nếu một số phát hiện giải thích điều gì đó, hãy giữ lại tất cả ... https: // en. wikipedia.org/wiki/Principl_of_plenitude
Tất nhiên, những kẻ như Beinhocker hoàn toàn không bị ảnh hưởng bởi thực tiễn, trong các mối quan tâm về các giải pháp thống kê được áp dụng cho mô hình phát triển này. Viết ra những câu hỏi khó hiểu về lựa chọn biến số siêu cao, OP tương đối không đặc biệt về các phương pháp khả thi để xây dựng mô hình có thể tận dụng, ví dụ Lasso, LAR, thuật toán từng bước hoặc "mô hình con voi sử dụng tất cả thông tin có sẵn. Thực tế là, ngay cả với AWS hoặc siêu máy tính, bạn không thể sử dụng tất cả các thông tin có sẵn cùng một lúc - đơn giản là không có đủ RAM để tải tất cả vào. Điều này có nghĩa là gì? ví dụ: Khám phá của NSF trong các bộ dữ liệu phức tạp hoặc lớn: Các chủ đề thống kê phổ biếnđể "phân chia và chinh phục" các thuật toán để khai thác dữ liệu lớn, ví dụ như Wang, et al, Báo cáo về Phương pháp thống kê và tính toán cho dữ liệu lớn http://arxiv.org/pdf/1502.07989.pdf cũng như Leskovec, et al cuốn sách Khai thác các bộ dữ liệu khổng lồ http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=M+
Hiện tại có hàng trăm, nếu không phải là hàng ngàn bài báo liên quan đến các khía cạnh khác nhau của những thách thức này, tất cả đều đề xuất các công cụ phân tích khác nhau rộng rãi như là cốt lõi của chúng từ các thuật toán phân chia và chinh phục các thuật toán nghiến; mô hình "học sâu" không giám sát; lý thuyết ma trận ngẫu nhiên áp dụng cho xây dựng hiệp phương sai lớn; Mô hình tenor Bayes đến cổ điển, hồi quy logistic có giám sát, và nhiều hơn nữa. Mười lăm năm trước, cuộc tranh luận chủ yếu tập trung vào các câu hỏi liên quan đến giá trị tương đối của các giải pháp Bayes phân cấp so với các mô hình hỗn hợp hữu hạn thường xuyên. Trong một bài viết đề cập đến những vấn đề này, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.197.788&rep=rep1&type=pdfTrong thực tế, đã đi đến kết luận rằng các phương pháp lý thuyết khác nhau, trong thực tế, đã tạo ra kết quả tương đương phần lớn ngoại trừ các vấn đề liên quan đến dữ liệu thưa thớt và / hoặc chiều cao trong đó các mô hình HB có lợi thế. Ngày nay với sự ra đời của các giải pháp D & C, bất kỳ mô hình HB tùy tiện nào có thể được hưởng trong lịch sử đều bị loại bỏ.
Logic cơ bản của các cách giải quyết D & C này, phần lớn, là sự mở rộng của kỹ thuật rừng ngẫu nhiên nổi tiếng của Breiman, dựa trên việc tái cấu trúc lại các quan sát và tính năng. Breiman đã thực hiện công việc của mình vào cuối những năm 90 trên một CPU khi dữ liệu khổng lồ có nghĩa là vài chục hợp đồng biểu diễn và một vài nghìn tính năng. Trên các nền tảng đa lõi, song song ngày nay, có thể chạy các thuật toán phân tích terabyte dữ liệu chứa hàng chục triệu tính năng xây dựng hàng triệu mô hình mini "RF" trong vài giờ.
Có bất kỳ số lượng câu hỏi quan trọng đến từ tất cả những điều này. Người ta phải làm với một mối quan tâm về việc mất độ chính xác do tính chất gần đúng của các cách giải quyết này. Vấn đề này đã được Chen và Xie đề cập đến trong bài báo của họ, Phương pháp phân tách và chinh phục để phân tích dữ liệu cực lớn http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf nơi họ kết luận rằng các xấp xỉ khác nhau không thể phân biệt với các mô hình "thông tin đầy đủ".
Một mối quan tâm thứ hai, theo hiểu biết tốt nhất của tôi đã không được tài liệu giải quyết thỏa đáng, phải làm với những gì được thực hiện với kết quả (tức là "tham số") từ hàng triệu mô hình nhỏ dự đoán một khi có cách giải quyết đã được cuộn lại và tóm tắt. Nói cách khác, làm thế nào để người ta thực hiện một cái gì đó đơn giản như "chấm điểm" dữ liệu mới với những kết quả này? Các hệ số mô hình nhỏ sẽ được lưu và lưu trữ hay chỉ đơn giản là chạy lại thuật toán d & c trên dữ liệu mới?
Trong cuốn sách của mình, Numbers Rule Your World , Kaiser Fung mô tả tình huống khó xử mà Netflix phải đối mặt khi được giới thiệu với một nhóm chỉ gồm 104 mô hình được trao bởi những người chiến thắng trong cuộc thi của họ. Trên thực tế, những người chiến thắng đã giảm thiểu MSE so với tất cả các đối thủ khác, nhưng điều này chỉ chuyển thành cải thiện một số thập phân về độ chính xác trên thang đánh giá loại 5 điểm, Likert được sử dụng bởi hệ thống đề xuất phim của họ. Ngoài ra, việc bảo trì CNTT cần thiết cho nhóm mô hình này có chi phí cao hơn nhiều so với bất kỳ khoản tiết kiệm nào được thấy từ "cải tiến" về độ chính xác của mô hình.
Sau đó, có toàn bộ câu hỏi về việc "tối ưu hóa" thậm chí có thể với thông tin về cường độ này hay không. Chẳng hạn, Emmanuel Derman, nhà vật lý và kỹ sư tài chính, trong cuốn sách My Life as a Quant cho thấy tối ưu hóa là một huyền thoại không bền vững, ít nhất là trong kỹ thuật tài chính.
Cuối cùng, các câu hỏi quan trọng liên quan đến tầm quan trọng của tính năng tương đối với số lượng lớn các tính năng vẫn chưa được giải quyết.
Không có câu trả lời dễ dàng nào cho các câu hỏi liên quan đến nhu cầu lựa chọn biến và những thách thức mới được mở ra bởi các giải pháp hiện tại, Epicurean vẫn còn phải giải quyết. Điểm mấu chốt là bây giờ chúng ta đều là những nhà khoa học dữ liệu.
**** EDIT ***
Tài liệu tham khảo
Hayopadhyay I, Lipson H. 2014 Đập vỡ dữ liệu: phát hiện ra thứ tự ẩn trong dữ liệu. JR Sóc. Giao diện 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan và Ziad Obermeyer. 2015. "Vấn đề chính sách dự đoán." Tạp chí kinh tế Mỹ, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, Câu hỏi thường niên năm 2014: Ý TƯỞNG KHOA HỌC S READN SÀNG ĐỂ KIẾM TIỀN?
https://www.edge.org/responses/what-scientific-idea-is- yet-for-retorrow
Eric Beinhocker, Làm thế nào những thay đổi sâu sắc trong kinh tế làm cho những cuộc tranh luận trái phải không liên quan, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Nguyên tắc sử thi của nhiều giải thích: giữ tất cả các mô hình. Wikipedia
https://www.cferencehero.com/file/p6tt7ej/Epicurus-Principl-of-Multipl-Explanations-Keep-all-models-that-are-consistent/
NSF, Discovery in Complex hoặc Massive Datasets: Các chủ đề thống kê chung, Hội thảo do Quỹ khoa học quốc gia tài trợ, ngày 16 đến 17 tháng 10 năm 2007
https://www.nsf.gov/mps/dms/document/DiscoveryInComplexOrMassiveDatasets.pdf
Phương pháp thống kê và tính toán cho dữ liệu lớn, Tài liệu làm việc của Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu và Jun Yan, ngày 29 tháng 10 năm 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Khai thác dữ liệu khổng lồ, Nhà xuất bản Đại học Cambridge; 2 phiên bản (ngày 29 tháng 12 năm 2014) Mã số: 980-1107077 232
Ma trận hiệp phương sai mẫu lớn và phân tích dữ liệu chiều cao (sê-ri Cambridge về toán học thống kê và xác suất), bởi Jianfeng Yao, Shurong Zheng, Zhidong Bai, Nhà xuất bản Đại học Cambridge; 1 phiên bản (ngày 30 tháng 3 năm 2015) Mã số: 980-1107065178
RICK L. ANDREWS, ANDREW AINSLIE và IMRAN S. CURRIM, Một so sánh thực nghiệm về các mô hình lựa chọn logit với các biểu hiện không đồng nhất liên tục của tạp chí, Tạp chí nghiên cứu tiếp thị, 479 Vol. XXXIX (tháng 11 năm 2002), 479 Từ487
http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.197.788&rep=rep1&type=pdf
Phương pháp phân tách và chinh phục để phân tích dữ liệu cực lớn, Xueying Chen và Minge Xie, Báo cáo kỹ thuật của DIMACS 2012-01, tháng 1 năm 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Những con số thống trị thế giới của bạn: Ảnh hưởng tiềm ẩn của xác suất và thống kê đối với mọi thứ bạn làm, McGraw-Hill Education; 1 phiên bản (ngày 15 tháng 2 năm 2010) Mã số: 976-0071626538
Emmanuel Derman, My Life as a Quant: Reflection on Vật lý và Tài chính, Wiley; 1 phiên bản (ngày 11 tháng 1 năm 2016) Mã số: 980-0470192733
* Cập nhật vào tháng 11 năm 2017 *
Cuốn sách năm 2013 của Nathan Kutz, Mô hình hóa dựa trên dữ liệu và tính toán khoa học: Các phương pháp cho các hệ thống phức tạp & Dữ liệu lớn là một chuyến tham quan toán học và PDE tập trung vào lựa chọn biến cũng như các phương pháp và công cụ giảm kích thước. Một đoạn giới thiệu tuyệt vời, 1 giờ về suy nghĩ của anh ấy có thể được tìm thấy trong video Youtube Data Driven Discovery of Dynamicical Systems and PDEs . Trong đó, ông đưa ra các tài liệu tham khảo cho những phát triển mới nhất trong lĩnh vực này. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop