"Những vấn đề lớn" trong thống kê là gì?


77

Toán học có các vấn đề thiên niên kỷ nổi tiếng (và, trong lịch sử, Hilbert's 23 ), các câu hỏi giúp định hướng hướng của lĩnh vực này.

Tuy nhiên, tôi có ít ý tưởng, các giả thuyết Riemann và P so với NP của thống kê sẽ là gì.

Vì vậy, các câu hỏi mở bao quát trong thống kê là gì?

Chỉnh sửa để thêm: Như một ví dụ về tinh thần chung (nếu không hoàn toàn cụ thể) câu trả lời mà tôi đang tìm kiếm, tôi đã tìm thấy một bài giảng "Hilbert's 23" của David Donoho tại một hội thảo "Những thách thức toán học của thế kỷ 21": Phân tích dữ liệu chiều cao: Những lời nguyền và phước lành của chiều

Vì vậy, một câu trả lời tiềm năng có thể nói về dữ liệu lớn và tại sao nó quan trọng, các loại thống kê thách thức các tư thế dữ liệu chiều cao và các phương pháp cần được phát triển hoặc các câu hỏi cần được trả lời để giúp giải quyết vấn đề.


5
Cảm ơn vì đã đăng tải điều này. Đó là một cuộc thảo luận quan trọng (và có khả năng truyền cảm hứng) để có.
whuber

Câu trả lời:


48

Một câu hỏi lớn nên liên quan đến các vấn đề chính của phương pháp thống kê hoặc, bởi vì thống kê hoàn toàn là về các ứng dụng, nó nên liên quan đến cách sử dụng thống kê với các vấn đề quan trọng đối với xã hội.

Đặc tính này cho thấy những điều sau đây nên được đưa vào khi xem xét các vấn đề lớn:

  • Cách tốt nhất để tiến hành thử nghiệm thuốc . Hiện nay, kiểm tra giả thuyết cổ điển đòi hỏi nhiều giai đoạn nghiên cứu chính thức. Trong các giai đoạn sau (xác nhận), các vấn đề kinh tế và đạo đức hiện ra rất lớn. Chúng ta có thể làm tốt hơn không? Chẳng hạn, chúng ta phải đưa hàng trăm hoặc hàng ngàn người bệnh vào các nhóm kiểm soát và giữ họ ở đó cho đến khi kết thúc một nghiên cứu, hoặc chúng ta có thể tìm ra những cách tốt hơn để xác định các phương pháp điều trị thực sự hiệu quả và đưa chúng cho các thành viên của thử nghiệm (và những người khác) sớm hơn?

  • Đối phó với thiên vị xuất bản khoa học . Kết quả âm tính được công bố ít hơn nhiều chỉ đơn giản vì chúng không đạt được giá trị p ma thuật. Tất cả các ngành khoa học cần tìm ra những cách tốt hơn để đưa kết quả quan trọng về mặt khoa học , không chỉ có ý nghĩa thống kê , đưa ra ánh sáng. (Nhiều vấn đề so sánh và đối phó với dữ liệu chiều cao là các danh mục con của vấn đề này.)

  • Xem xét các giới hạn của phương pháp thống kêgiao diện của chúng với máy học và nhận thức máy . Những tiến bộ không thể tránh khỏi trong công nghệ điện toán sẽ giúp AI thực sự có thể truy cập được trong cuộc sống của chúng ta. Làm thế nào chúng ta sẽ lập trình bộ não nhân tạo? Tư duy thống kê và học thống kê có vai trò gì trong việc tạo ra những tiến bộ này? Làm thế nào các nhà thống kê có thể giúp đỡ trong việc suy nghĩ về nhận thức nhân tạo, học tập nhân tạo, trong việc khám phá những hạn chế của họ và tiến bộ?

  • Phát triển các cách tốt hơn để phân tích dữ liệu không gian địa lý . Người ta thường tuyên bố rằng phần lớn, hoặc đại đa số các cơ sở dữ liệu có chứa các tham chiếu vị trí. Sẽ sớm có nhiều người và thiết bị được định vị trong thời gian thực với công nghệ GPS và điện thoại di động. Các phương pháp thống kê để phân tích và khai thác dữ liệu không gian thực sự chỉ mới ở giai đoạn sơ khai (và dường như được chuyển sang phần mềm GIS và không gian thường được sử dụng bởi những người không thống kê).


1
Những cách mà mọi người đang cố gắng giải quyết những vấn đề này là gì?
raegtin

3
@grautur: Đó là bốn câu hỏi tuyệt vời (cộng với nhiều câu hỏi khác, vì câu trả lời của bạn áp dụng cho mọi câu trả lời trong chuỗi này). Tất cả đều xứng đáng có câu trả lời công phu, nhưng rõ ràng không có chỗ cho điều đó ở đây: làm ơn mỗi lần một câu hỏi!
whuber

3
Liên quan đến viên đạn đầu tiên (thử nghiệm thuốc): ngay cả những người khác có thể không quan tâm đến thử nghiệm y tế cũng nên đọc bài viết của NYTimes Cuộc tranh luận về thuốc mới về các quy tắc thử nghiệm lâm sàng cơ bản ( nytimes.com/2010/09/19/health/research/ Sầu ). Người đọc biết thống kê sẽ thấy ngay những hàm ý không có căn cứ liên quan đến thiết kế thử nghiệm và sử dụng giá trị p để ra quyết định. Có một nghị quyết thống kê, ở đâu đó, câu hỏi hóc búa sinh tử được mô tả trong bài viết này.
whuber

26

Michael Jordan có một bài viết ngắn có tên Các vấn đề mở trong Thống kê Bayes là gì? , trong đó ông đã thăm dò một loạt các nhà thống kê cho quan điểm của họ về các vấn đề mở trong thống kê. Tôi sẽ tóm tắt (còn gọi là sao chép và dán) một chút ở đây, nhưng có lẽ tốt nhất là chỉ đọc bản gốc.

Nonparametrics và semiparametrics

  • Đối với những vấn đề là Bayesian nonparametrics hữu ích và đáng gặp rắc rối?
  • David Dunson: "Các mô hình Bay không đối xứng liên quan đến vô số tham số và các mục sư thường được chọn để thuận tiện với các siêu âm được đặt ở các giá trị dường như hợp lý mà không có lý do chính đáng hoặc chủ quan."
  • "Một số người đã lưu ý rằng một trong những ứng dụng hấp dẫn của tính không đối xứng thường xuyên là suy luận bán định lượng, trong đó thành phần không tham số của mô hình là một tham số phiền toái. Những người này cảm thấy rằng nó sẽ được mong muốn để đưa ra lý thuyết (thường xuyên). Bán đảo Bayesian. "

Linh mục

  • "Ứng dụng vẫn là một nguồn chính của các vấn đề mở."
  • 'Aad van der Vaart quay đầu Bayes khách quan và chỉ ra sự thiếu lý thuyết cho "những tình huống mà người ta muốn trước đó phải trải qua ở phía sau", trái ngược với "chỉ cung cấp một cách tiếp cận Bayes để làm mịn".

Mối quan hệ Bayes / thường xuyên

  • "Nhiều người được hỏi bày tỏ mong muốn tiếp tục dập tắt các mối quan hệ Bayes / thường xuyên. Điều này thường được chứng minh trong bối cảnh của các mô hình và dữ liệu chiều cao, trong đó không chỉ là cách tiếp cận chủ quan đối với đặc điểm của các linh mục khó thực hiện mà còn có thể là các linh mục thuận tiện. (rất cao) gây hiểu lầm. "
  • 'Một số người được hỏi cho rằng lý thuyết không có triệu chứng có thể tiết lộ đầy đủ hơn các lợi thế giả định của các phương pháp Bayes; ví dụ, David Dunson: "Thông thường, tỷ lệ tối ưu thường xuyên đạt được bằng các thủ tục rõ ràng làm tồi tệ hơn nhiều trong các mẫu hữu hạn so với các phương pháp Bayes." '

Tính toán và thống kê

  • Alan Gelfand: "Nếu MCMC không còn khả thi đối với các vấn đề mà mọi người muốn giải quyết, thì vai trò của INLA, của các phương pháp đa dạng, của các phương pháp ABC là gì?"
  • "Một số người được hỏi yêu cầu tích hợp kỹ lưỡng hơn về khoa học tính toán và khoa học thống kê, lưu ý rằng tập hợp các suy luận mà người ta có thể đạt được trong bất kỳ tình huống cụ thể nào là cùng một chức năng của mô hình, trước đó, dữ liệu và tài nguyên tính toán, và mong muốn Để quản lý rõ ràng hơn về sự đánh đổi giữa các đại lượng này. Thật vậy, Rob Kass đã đưa ra khả năng về khả năng giải quyết suy luận của Hồi, trong đó một số vấn đề được hiểu là vượt quá hy vọng (ví dụ:lựa chọn mô hình trong hồi quy trong đó, đối với số lượng dữ liệu khiêm tốn chịu nhiễu không cần thiết, có thể có được các khoảng tin cậy hữu ích về các hệ số hồi quy khi có một số lượng lớn các biến có sự hiện diện hoặc vắng mặt trong mô hình không được xác định trước có những vấn đề khác (các chức năng nhất định của Wikipedia có khoảng thời gian xác định hữu ích tồn tại) mà có hy vọng. "
  • "Một số người được hỏi, trong khi xin lỗi vì sự mơ hồ nhất định, đã bày tỏ cảm giác rằng một lượng lớn dữ liệu không nhất thiết phải ngụ ý một lượng lớn tính toán, thay vào đó, bằng cách nào đó, sức mạnh vô sinh có trong dữ liệu lớn sẽ chuyển sang thuật toán và làm cho nó có thể để thực hiện với các bước tính toán ít hơn để đạt được một giải pháp suy luận thỏa đáng (gần đúng). "

Lựa chọn mô hình và kiểm tra giả thuyết

  • George Casella: "Bây giờ chúng tôi thực hiện lựa chọn mô hình nhưng Bayes dường như không lo lắng về các tính chất của suy luận dựa trên mô hình đã chọn. Điều gì xảy ra nếu nó sai? Hậu quả của việc thiết lập các vùng đáng tin cậy cho một tham số nhất định khi bạn đã chọn sai mô hình? Chúng ta có thể có quy trình với một số loại bảo lãnh không? "β1
  • Cần nhiều công việc hơn trên cơ sở lý thuyết quyết định trong lựa chọn mô hình.
  • David Spiegelhalter: "Làm thế nào tốt nhất để kiểm tra xung đột dữ liệu / trước đó là một phần không thể thiếu trong phân tích Bayes?"
  • Andrew Gelman: "Để kiểm tra mô hình, một vấn đề mở quan trọng là phát triển các công cụ đồ họa để hiểu và so sánh các mô hình. Đồ họa không chỉ dành cho dữ liệu thô; thay vào đó, các mô hình Bayes phức tạp tạo cơ hội cho phân tích dữ liệu khám phá tốt hơn và hiệu quả hơn."

13

Tôi không chắc chúng lớn như thế nào, nhưng có một trang Wikipedia cho các vấn đề chưa được giải quyết trong thống kê. Danh sách của họ bao gồm:

Suy luận và kiểm tra

  • Lỗi hệ thống
  • Sự chấp nhận của người ước tính Thỏa thuận Graybill
  • Kết hợp các giá trị p phụ thuộc trong phân tích tổng hợp
  • Vấn đề cá cược
  • Nhiều so sánh
  • Vấn đề mở trong thống kê Bayes

Thiết kế thử nghiệm

  • Các vấn đề trong hình vuông Latin

Các vấn đề có tính chất triết học hơn

  • Lấy mẫu vấn đề loài
  • Đối số ngày tận thế
  • Nghịch lý trao đổi

6

Như một ví dụ về tinh thần chung (nếu không hoàn toàn cụ thể) của câu trả lời mà tôi đang tìm kiếm, tôi đã tìm thấy một bài giảng đầy cảm hứng của "Hilbert's 23" của David Donoho tại một hội thảo "Những thách thức toán học của thế kỷ 21":

Phân tích dữ liệu chiều cao: Những lời nguyền và phước lành của chiều


2
Tôi có thể đề nghị bạn chỉnh sửa câu hỏi chính của bạn để bao gồm thông tin này không?
russellpierce

4

Mathoverflow có một câu hỏi tương tự về các vấn đề lớn trong lý thuyết xác suất .

Nó sẽ xuất hiện từ trang đó rằng những câu hỏi lớn nhất là phải tự tránh những bước đi ngẫu nhiên và sự sai lệch.


1
Tôi nghĩ rằng thống kê là một lĩnh vực riêng biệt với lý thuyết xác suất, mặc dù.
raegtin

3
@raegtin - Tôi không nghĩ lý thuyết xác suất tách biệt với thống kê, thay vào đó là lý thuyết. "Thống kê" là việc áp dụng lý thuyết xác suất cho các vấn đề suy luận (tức là thực tiễn).
xác suất


3

Câu trả lời của tôi sẽ là cuộc đấu tranh giữa thống kê thường xuyên và Bayes. Khi mọi người hỏi bạn "tin vào điều gì", điều này không tốt! Đặc biệt là cho một kỷ luật khoa học.


2
Không có gì sai với một nhà khoa học "tin" vào một cái gì đó, đặc biệt là xác suất Bayes đại diện cho mức độ niềm tin hoặc kiến ​​thức liên quan đến sự thật của một số đề xuất.
Dikran Marsupial

2
... Vấn đề chỉ phát sinh khi một nhà khoa học không thể phân biệt giữa niềm tin và thực tế. Không có gì là không khoa học trong niềm tin rằng số liệu thống kê của Bayes hay người thường xuyên là vượt trội, vì không có bài kiểm tra khách quan nào có thể quyết định câu trả lời (AFAIK), vì vậy sự lựa chọn chủ yếu là chủ quan và / hoặc vấn đề "ngựa cho các khóa học".
Dikran Marsupial

@propofol - Tôi đồng ý rằng từ "tin" không phải là một khái niệm thích hợp để sử dụng trong thống kê - nó mang các loại ý nghĩa sai. Thông tin là một từ thích hợp hơn nhiều tôi nghĩ (tức là "bạn có thông tin gì?"). Nó không thay đổi toán học hoặc các định lý tối ưu của phân tích Bayes, nhưng nó mang lại cho chúng ý nghĩa đúng đắn của chúng về cách chúng được sử dụng thực sự. ví dụ kiến ​​thức về một lý thuyết vật lý hoặc cơ chế nhân quả là thông tin, và không phải niềm tin.
xác suất
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.