Những đột phá trong Thống kê của 15 năm qua là gì?


56

Tôi vẫn còn nhớ bài báo Biên niên sử về Tăng tốc của Friedman-Hastie-Tibshirani và các bình luận về vấn đề tương tự của các tác giả khác (bao gồm Freund và Schapire). Vào thời điểm đó, rõ ràng Boosting được xem là một bước đột phá ở nhiều khía cạnh: tính khả thi về mặt tính toán, một phương pháp hòa tấu, với hiệu suất tuyệt vời nhưng bí ẩn. Cùng thời gian đó, SVM đã đến tuổi, đưa ra một khuôn khổ được củng cố bởi lý thuyết vững chắc và với rất nhiều biến thể và ứng dụng.

Đó là vào những năm 90 tuyệt vời. Trong 15 năm qua, đối với tôi, có rất nhiều Thống kê là một hoạt động làm sạch và chi tiết, nhưng với một vài quan điểm thực sự mới.

Vì vậy, tôi sẽ hỏi hai câu hỏi:

  1. Tôi đã bỏ lỡ một số bài báo cách mạng / tinh dịch?
  2. Nếu không, có những cách tiếp cận mới mà bạn nghĩ có khả năng thay đổi quan điểm suy luận thống kê?

Quy tắc:

  1. Một câu trả lời cho mỗi bài viết;
  2. Tài liệu tham khảo hoặc liên kết chào mừng.

PS: Tôi có một vài ứng cử viên cho những đột phá đầy hứa hẹn. Tôi sẽ đăng chúng sau.


5
Xem stats.stackexchange.com/q/1883/159 cho một câu hỏi tương tự (được đóng lại dưới dạng chủ quan & lập luận).
Rob Hyndman

1
Tôi đã chuẩn bị đưa ra cùng một chủ đề. Mùi như một bản sao.
Dirk Eddelbuettel

1
Đó là chủ quan, chắc chắn, nhưng vẫn không ổn cho CW?
Christopher Aden

1
Đó là trên một quy mô thời gian dài hơn. Tôi không nghĩ đó là một bản sao. Đối với tranh luận, nó phụ thuộc vào những người tham gia. Tôi không cố gắng trao một chiếc cúp ở đây, chỉ để theo kịp các bài báo bán nguyệt mà tôi và những người khác có thể đã bỏ lỡ. Vì không có câu trả lời đúng, tôi là tất cả cho một CW. Tôi thấy thú vị rằng cho đến nay tất cả các câu trả lời là về sự đổi mới của Bayes.
vui vẻ

2
Đây có vẻ như một bài viết có thể được ông nội. Tôi nghĩ rằng điều này có thể vẫn mở.
gung - Phục hồi Monica

Câu trả lời:


43

Câu trả lời đơn giản đến mức tôi phải viết tất cả những điều vô nghĩa này để làm CV hãy để tôi đăng nó: R


14

Tôi không chắc liệu bạn có gọi nó là "đột phá" không, nhưng Xuất bản Lý thuyết Xác suất: Logic của Khoa học của Edwin Jaynes và Larry Bretthorst có thể đáng chú ý. Một số điều họ làm ở đây là:

1) cho thấy sự tương đương giữa một số sơ đồ "điều chỉnh theo mùa" lặp đi lặp lại và tích hợp "tham số phiền toái" Bayesian.

2) đã giải quyết cái gọi là "Nghịch lý cận biên" - được cho là "cái chết của chủ nghĩa bay bổng" bởi một số người, và "cái chết của các linh mục không đúng" bởi những người khác.

3) ý tưởng cho rằng xác suất mô tả trạng thái kiến ​​thức về một mệnh đề là đúng hay sai, trái ngược với mô tả một tính chất vật lý của thế giới .

Ba chương đầu tiên của cuốn sách này có sẵn miễn phí tại đây .


2
Thật không may, giải quyết nghịch lý bên lề của Jaynes là thiếu sót. Xem Ghi chú của Kevin Van Horn về Điều trị Nghịch lý cận biên của Jaynes , có sẵn tại đây .
Cyan

1
@cyan - Lưu ý rằng trong khi độ phân giải của anh ta bị thiếu sót ở một số khu vực, các nguyên tắc cơ bản của anh ta đã giải quyết nó. Quy tắc chung của các linh mục thích hợp và giới hạn hội tụ của họ có nghĩa là mp không thể phát sinh. Lỗ hổng rất có thể là do cuốn sách đang dang dở trên hầu hết phần hai. Tôi thích độ phân giải [ở đây] ( arxiv.org/abs/math/0310006 ) tốt hơn phiên bản ksvh. ngắn hơn và tổng quát hơn.
xác suất

14

Là một nhà thống kê ứng dụng và tác giả phần mềm nhỏ thỉnh thoảng, tôi nói:

WinBUGS (phát hành 1997)

Nó dựa trên BUGS, được phát hành hơn 15 năm trước (1989), nhưng chính WinBUGS đã giúp phân tích Bayes về các mô hình phức tạp thực tế có sẵn cho cơ sở người dùng rộng hơn. Xem ví dụ Lunn, Spiegelhalter, Thomas & Best (2009) (và thảo luận về nó trong Thống kê trong Y học tập 28 số 25 ).


2
Làm thế nào để thay đổi này bây giờ Stanlà ra?
Ari B. Friedman

13

kii


Bạn đã bao giờ sử dụng LARS? Tôi đang hỏi bởi vì tôi chưa bao giờ nghe về nó sớm hơn và nghe có vẻ rất thú vị. Bài viết cơ bản hơi dài (93 trang) vì vậy tôi muốn có một số ý kiến ​​trước khi tôi đi sâu vào nó.
Tomek Tarczynski

@Tomek Tarczynski: Tôi đã sử dụng nó một lượng nhỏ. Có một gói trong Matlab (tôi chắc chắn có một hoặc nhiều trong R), mà tôi đã sử dụng. Nó cũng cung cấp một PCA thưa thớt, điều mà tôi quan tâm hơn. Tôi thừa nhận tôi chỉ đọc lướt qua bài báo. ;)
shabbychef

11

Việc đưa chức năng mất "chênh lệch nội tại" và các hàm mất "không tham số hóa" khác vào lý thuyết quyết định. Nó có nhiều thuộc tính "đẹp" khác, nhưng tôi nghĩ cách tốt nhất là như sau:

θθeθg(θ)g(θe)

Tôi nghĩ rằng điều này là rất mát mẻ! (ví dụ: ước tính tốt nhất của tỷ lệ cược log là log (p / (1-p)), ước tính phương sai tốt nhất là bình phương độ lệch chuẩn, v.v.)

Cuộc đuổi bắt? sự khác biệt nội tại có thể khá khó để giải quyết! (nó liên quan đến chức năng tối thiểu (), tỷ lệ khả năng và tích phân!)

"Bắt ngược"? bạn có thể "sắp xếp lại" vấn đề để dễ tính toán hơn!

"Truy bắt ngược"? Tìm ra cách "sắp xếp lại" vấn đề có thể khó khăn!

Dưới đây là một số tài liệu tham khảo tôi biết trong đó sử dụng chức năng mất này. Mặc dù tôi rất thích các phần "ước tính nội tại" của các bài viết / slide này, tôi có một số bảo lưu về phương pháp "tham khảo trước" cũng được mô tả.

Kiểm định giả thuyết Bayes: Cách tiếp cận tham khảo

Dự toán nội tại

So sánh các phương tiện thông thường: Phương pháp mới cho một vấn đề cũ

Tích hợp ước tính Bayesian và thử nghiệm giả thuyết



9

Thêm 5 xu của riêng tôi, tôi tin rằng bước đột phá quan trọng nhất trong 15 năm qua là Cảm biến nén. LARS, LASSO và một loạt các thuật toán khác thuộc miền này, trong đó Sensing Sensing giải thích lý do tại sao chúng hoạt động và mở rộng chúng sang các miền khác.


1
Tôi đã xem Cảm biến nén và với tư cách là một người không thống kê, tôi cứ tự hỏi: "Đây không phải chỉ là phép chiếu ngẫu nhiên sao?". Tôi biết rằng "chỉ" là một từ dễ dàng để ném xung quanh, nhưng có cảm giác như mọi người đang bỏ qua những gì có vẻ như là mối liên hệ rõ ràng giữa phép chiếu ngẫu nhiên (khoảng năm 2000) và cảm biến nén (khoảng năm 2004).
Wayne

9

Một cái gì đó rất ít liên quan đến bản thân số liệu thống kê, nhưng đã mang lại lợi ích lớn: Hỏa lực ngày càng tăng của máy tính, làm cho các bộ dữ liệu lớn hơn và phân tích thống kê phức tạp hơn dễ tiếp cận hơn, đặc biệt là trong các lĩnh vực ứng dụng.


8

Thuật toán Expectation-Propagation cho suy luận Bayes, đặc biệt là trong phân loại Quy trình Gaussian, được cho là một bước đột phá đáng kể, vì nó cung cấp một phương pháp gần đúng phân tích hiệu quả, hoạt động gần như cũng như các phương pháp lấy mẫu dựa trên tính toán đắt tiền (không giống như phương pháp xấp xỉ Laplace thông thường). Xem công việc của Thomas Minka và những người khác trên lộ trình EP


EP có vẻ mát mẻ (mặc dù nó vẫn làm đau đầu tôi). Nó vẫn thiếu bảo đảm hội tụ chung?
liên hợp chiến binh



2

Mặc dù tổng quát hơn một chút so với thống kê, tôi nghĩ đã có những tiến bộ quan trọng trong phương pháp nghiên cứu hiệu quả (RR) . Ví dụ: sự phát triển của R's knittrSweavecác gói và sổ ghi chép "R Markdown", các cải tiến LyX và LaTeX đã góp phần đáng kể vào việc chia sẻ dữ liệu, cộng tác, xác minh / xác thực và thậm chí cả tiến bộ thống kê bổ sung. Các bài báo được giới thiệu trong các tạp chí thống kê, y tế và dịch tễ học hiếm khi cho phép người ta tái tạo kết quả một cách dễ dàng trước khi xuất hiện các phương pháp / công nghệ nghiên cứu có thể tái tạo này. Bây giờ, một số tạp chí đang yêu cầu nghiên cứu sao chép và nhiều nhà thống kê đang sử dụng RR và đăng mã, kết quả và nguồn dữ liệu của họ trên web. Điều này cũng đã giúp thúc đẩy các ngành khoa học dữ liệu và làm cho việc học thống kê dễ tiếp cận hơn.


1

Theo tôi, bài báo xuất bản năm 2011 trên tạp chí Khoa học. Các tác giả đề xuất biện pháp liên kết rất thú vị giữa cặp biến ngẫu nhiên hoạt động tốt trong nhiều tình huống khi các biện pháp tương tự thất bại (Pearson, Spearman, Kendall). Giấy rất đẹp. Nó đây rồi


Liên kết dường như bị phá vỡ.
DSaxton

Nó cũng có thể được tìm thấy ở đây: ncbi.nlm.nih.gov/pmc/articles/PMC3325791/pdf/nihms358982.pdf
Miroslav Sabo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.