Các nhà thống kê làm gì mà không thể được tự động?


26

Phần mềm cuối cùng sẽ làm cho các nhà thống kê lỗi thời? Những gì được thực hiện mà không thể được lập trình vào máy tính?


21
Họ nghĩ (tức là mang kiến ​​thức để chịu).
gung - Tái lập Monica

10
Giải thích kết quả ;-)
ocram

5
câu hỏi tương tự có thể được đặt ra cho các lập trình viên nói chung sau đó;)
nb1

4
Chúng tôi thiết kế nghiên cứu và đặc biệt là chúng tôi phải đối phó với các vấn đề thực tế trong đó thiết kế "tốt nhất" theo thống kê không thể được thực hiện. Chúng tôi dọn sạch dữ liệu bẩn, mang lại kiến ​​thức thực tế. Chúng tôi cũng giải thích kết quả bằng [ngôn ngữ chèn lựa chọn].
Michelle

13
uống bia! ; o)
Dikran Marsupial

Câu trả lời:


28

@Adam, nếu bạn nghĩ về các nhà nghiên cứu thống kê tương tự như những người trong các lĩnh vực khác - những người xây dựng phương pháp và kiến ​​thức hiện có - thì có thể nói rõ hơn rằng câu trả lời cho câu hỏi đầu tiên của bạn là 'Không'.

Các nhà thống kê kiếm sống từ việc áp dụng các gói phần mềm đóng hộp đơn giản hoàn toàn có thể được thay thế bằng máy tính cho mỗi bước trừ khi viết phần thảo luận của bài báo nơi kết quả phải được giải thích. Vì vậy, theo nghĩa đó, có - nó có thể được tự động hóa (mặc dù nó sẽ phải là một phần mềm phức tạp có một bộ xử lý ngôn ngữ tự nhiên).

Tuy nhiên, như hầu hết các nhà nghiên cứu cuối cùng đã tìm ra, các thói quen "đóng hộp" mà mọi người thường sử dụng khá hạn chế và phải được sửa đổi (hoặc phương pháp hoàn toàn mới phải được phát triển) để trả lời các câu hỏi nghiên cứu chuyên ngành - đây là khía cạnh không thể thiếu của con người trong thống kê . Hoặc, một nhà nghiên cứu chỉ đơn giản là giải quyết cho một câu hỏi nghiên cứu hơi khác, nhưng có liên quan, có thể được trả lời bằng phương pháp cổ điển.

Hầu hết các nhà thống kê tôi biết làm việc trong các công việc nghiên cứu (ví dụ giáo sư, nhà khoa học nghiên cứu) trong đó vai trò chính của họ là phát triển phương pháp mới. Nếu quy trình này có thể được tự động hóa, có nghĩa là một máy tính có thể hình thành và tạo ra phương pháp mới hữu ích, thì tôi sợ các nhà nghiên cứu trong mọi lĩnh vực sẽ bị lỗi thời.


2
Tôi nghĩ rằng đoạn thứ hai của bạn bỏ lỡ một điểm: nó không chỉ là kết thúc của quá trình (giải thích kết quả) mà còn khó khăn - đó là sự khởi đầu - hiểu phương pháp nào để áp dụng cho dữ liệu theo cách nào, trong trường hợp chung đòi hỏi phải hiểu bản chất của dữ liệu và hệ thống mà nó đến từ.
Cascabel

@Jefromi, như tôi đã nhận xét với ai đó bên dưới, tôi nghĩ rằng sự hiểu biết đến từ một chuyên gia trong lĩnh vực ứng dụng, không phải là một nhà thống kê.
Macro

Nếu hiểu chỉ "đến từ" các chuyên gia trong lĩnh vực ứng dụng, công việc của tôi sẽ dễ dàng hơn nhiều (& ít vui hơn nhiều). Có một vấn đề về khung: điều mà chuyên gia không nghĩ là có thể quan trọng đối với phân tích thống kê. Trong thực tế, sự hợp tác hiệu quả nhất dẫn đến việc chuyên gia học được một lượng thống kê hợp lý & nhà thống kê học được một lượng khá lớn về lĩnh vực ứng dụng.
Scortchi - Phục hồi Monica

33

Máy tính sẽ chỉ khiến các nhà thống kê trở nên lỗi thời khi AI mạnh mẽ khiến con người trở nên lỗi thời.

Câu hỏi làm tôi nhớ đến câu hỏi về "Nếu có tất cả các phương pháp thống kê mạnh mẽ này, tại sao mọi người vẫn sử dụng các phương pháp khác?" Một số câu trả lời là thói quen và đào tạo, nhưng phần lớn câu hỏi là ngây thơ: "mạnh mẽ" không có nghĩa là "bạn không phải suy nghĩ và hiểu những gì bạn đang làm", như câu hỏi ngụ ý.

Ý tôi là, bạn có thể tải xuống gói thống kê R ngay hôm nay và thực hiện bất kỳ kỹ thuật thống kê cơ bản nào vào buổi tối. Sau đó, bạn có thể tải xuống một vài gói và bắt đầu sử dụng các phương thức bí truyền mà hầu hết chúng ta thậm chí chưa từng nghe về chúng. Câu hỏi là: bạn sẽ có được câu trả lời hợp lý? Câu trả lời là: có lẽ là không.

Các thuật toán được tự động hóa, nhưng bạn vẫn phải thực hiện nhiều cuộc gọi phán xét dọc theo con đường điều tra: từ kế hoạch tấn công đến phán quyết cuối cùng về việc liệu kết quả có thực sự có ý nghĩa hay không. Để đi đến điểm đó, bạn thực sự đang nói về các máy tính giống như Star-Trek, nơi bạn có thể nói, "Máy tính, hãy nói cho tôi biết ...", đến lúc đó, hầu hết mọi ơn gọi của con người đều lỗi thời.


4
+1 cho "Máy tính sẽ chỉ khiến các nhà thống kê trở nên lỗi thời khi AI mạnh mẽ khiến con người trở nên lỗi thời".
Macro

10

Một nhà thống kê có thể làm gì mà máy tính không thể? Viết chương trình gốc mà họ được thay thế bởi.

Ngoài câu trả lời hơi ngớ ngẩn đó, gốc rễ của câu hỏi là bỏ qua khoa học thống kê thực tế có lợi cho cơ học của nó, và hoàn toàn giảm giá vai trò của quá trình sáng tạo trong phân tích thống kê. Đây là, để sử dụng ví dụ về xe hơi của Peter Flom, như nói rằng ô tô được chế tạo bằng đinh tán và mối hàn, vì vậy không có lý do gì Mustang mới không thể được thiết kế bởi robot hàn và hàn.

Một số lượng lớn việc thực hiện thống kê liên quan đến chuyên môn về vấn đề, lời kêu gọi phán đoán và sáng tạo. Phân tích "Đóng hộp" chạy từ thuật toán thường sẽ không giúp bạn có câu trả lời tốt nhất và có vô số ví dụ được ghi lại trong đó sử dụng phương pháp tự động thực sự mang lại cho bạn câu trả lời sai - hoặc ít nhất không phải là câu trả lời bạn nghĩ bạn đang nhận được. Việc sử dụng các quy trình lựa chọn và phân tích biến số dựa trên giá trị p từng bước dựa trên các lượng tử được xác định bằng số hoàn toàn là hai cách tôi quen thuộc nhất, nhưng tôi chắc chắn bạn có thể tìm thấy vô số những thứ khác ngoài đó.

Ngay cả khi tất cả những gì vẫn còn tự động, vẫn có vấn đề diễn giải kết quả. Công việc của nhà thống kê (hoặc nhà khoa học nghiêng về thống kê) không được thực hiện khi bạn có được hệ số hồi quy hoặc giá trị p. Việc tìm kiếm đó có ý nghĩa gì . Hãy cẩn thận là gì? Điều này thể hiện điều gì trong bối cảnh những gì đến trước?

Cuối cùng, bạn có sự phát triển của các phương pháp mới. Thống kê không phải là thứ chỉ đơn giản được đặt ra từ lâu bởi những người mà chúng tôi nhận ra - Fisher, Cox, v.v. Đó là một lĩnh vực đang phát triển và bạn không thể lập trình một phương pháp mới vào máy tính cho đến khi một người tự phát triển phương pháp đó.


2
(+1) vì "Phân tích đóng hộp chạy từ thuật toán thường sẽ không giúp bạn có câu trả lời hay nhất" là rất đúng. Điều này không có nghĩa là những người hành nghề thống kê con người không làm điều này mọi lúc. (Lưu ý: hầu hết những người thực hiện thống kê KHÔNG phải là nhà thống kê ... giống như những người đang sử dụng số liệu thống kê mặc dù không thực sự biết họ đang làm gì, thường dẫn đến khoa học xấu)
Macro

10

Một cách khác để giải thích câu hỏi này có thể là: "sự gia tăng nhanh chóng của các kỹ thuật thống kê tự động trong những năm gần đây có tương ứng với nhu cầu giảm việc làm cho các nhà thống kê và phân tích dữ liệu chuyên dụng không?"

Chúng tôi có thể giải quyết câu hỏi này bằng cách xem dữ liệu thị trường việc làm cho các vị trí phân tích dữ liệu
nhập mô tả hình ảnh ở đây

Dữ liệu lịch sự của blog.com & revolutions


+1 Ngay cả Thật vậy.com đã không làm cho @cboettig trở nên khó chịu.
Thomas Levine

4
Tôi không tin rằng "nhu cầu việc làm cho các nhà thống kê và phân tích dữ liệu chuyên dụng" có mối tương quan chặt chẽ với việc sử dụng từ khóa "nhà khoa học dữ liệu" hoặc "dữ liệu lớn" trong quảng cáo việc làm. <- nghi ngờ về các giả định là những gì con người mang đến bàn ;-)
Darren Cook

@DarrenCook cũng nói!
cboettig

7

Tôi không hoàn toàn đồng ý với tiền đề của câu hỏi, tức là tôi nghĩ không có cách nào mà máy tính có thể hy vọng thay thế các nhà thống kê, nhưng để đưa ra một ví dụ cụ thể cho lý do tại sao tôi nghĩ rằng:

Công việc mà các nhà thống kê làm với các nhà khoa học, đặc biệt là trong thiết kế và giải thích các thí nghiệm, không chỉ đòi hỏi trí óc của con người mà thậm chí cả một khuynh hướng triết học mà máy tính không thể tưởng tượng được.

Trừ khi chúng ta kết thúc trong một tình huống loại Skynet nào đó, tất nhiên, trong trường hợp đó, tôi nghĩ rằng tất cả các cược có thể là tương lai của toàn nhân loại, không quan tâm đến chỉ các nhà thống kê, có liên quan :-)


1
Ngoại trừ tôi có những con mèo giống để tuân theo. :)
Michelle

5

Câu hỏi cho thấy một cái nhìn ngây thơ của một nhà thống kê-tất cả về việc kiểm tra xem liệu ap <0,05 và báo cáo một số con số và biểu đồ chuẩn. Nếu đó là những gì bạn muốn nói bởi nhà thống kê thì bạn đã đúng trong hàm ý của mình rằng phần lớn nó có thể hoàn toàn tự động. Nhưng đó không phải là ý nghĩa của thống kê.

Xác định thuật ngữ thống kê của bạn mặc dù, và bạn có thể nhận được câu trả lời tốt hơn.


3

Tải gói số liệu thống kê vào máy tính của bạn không giúp bạn trở thành một nhà thống kê nhiều hơn việc mua một chiếc xe khiến bạn có thể lái xe.

Ngay cả khi nhà thống kê chỉ áp dụng thói quen "đóng hộp", vẫn có rất nhiều câu hỏi.

  1. Thói quen nào? Những thói quen nào sẽ trả lời câu hỏi của khách hàng?
  2. Với biến nào? và họ có nên được biến đổi? Có nên kết hợp một số cấp độ? Mà nên được buộc vào một mô hình?
  3. Với dữ liệu gì? Có nên xóa các ngoại lệ? Cắt tỉa? Có lẽ một phương pháp mạnh mẽ?

vân vân

Nhưng công việc bắt đầu trước khi máy tính được bật và kết thúc lâu sau khi gói thống kê bị tắt.

Trước: Khách hàng muốn làm gì? Thường thì đây là rất nhiều công việc! Khách hàng có dữ liệu gì? Oy vey! Các biến được dán nhãn từ V1 đến V828171 là cái nào? Trạng thái của văn học là gì? Khách hàng sẽ mong đợi điều gì? Làm thế nào nó nên được kỹ thuật?

Sau: Kết quả có ý nghĩa gì? (và không chỉ "điều này có nghĩa là hồi quy có ý nghĩa") Làm thế nào để giải thích kết quả cho khách hàng? Những câu hỏi khác làm kết quả nêu ra?

Tôi nghĩ, sẽ còn rất lâu nữa máy tính mới có thể làm được điều này.


1
Để bạn trả lời các câu hỏi được liệt kê trong (1), (2) và (3), bạn trải qua một số quy trình hợp lý. Về mặt lý thuyết, quy trình logic này có thể được mã hóa thành một chương trình máy tính. Nếu máy tính có bộ xử lý ngôn ngữ tự nhiên hoàn hảo và phần mềm chứa tất cả phần mềm "đóng hộp" và có logic được đề cập ở trên được lập trình, nó sẽ có thể thực hiện những việc này. Hoặc, bạn đang nói, nó không chính xác là một quá trình hợp lý?
Macro

4
Đối với tôi, sự tương tự gần hơn một chút với việc "mua một chiếc xe hơi không khiến bạn trở thành thợ cơ khí hay nhà thiết kế xe hơi".
Đức hồng y

1
@Macro Bởi vì quy trình logic của nó không nhất thiết có nghĩa là nếu có thể được lập trình vào máy tính. "Nếu một số mức được kết hợp" không phải luôn luôn là một phép đo số - chẳng hạn, nó đòi hỏi phải xem xét nếu các mức kết hợp đó có ý nghĩa trong bối cảnh của chính biến đó, chẳng hạn.
Fomite

1
Quyết định liệu nó có ý nghĩa trong bối cảnh của ứng dụng không phải là một câu hỏi cho một nhà thống kê - đó là một câu hỏi cho một chuyên gia trong bất kỳ ứng dụng nào. Một nhà thống kê có thể cho bạn biết liệu có thể kết hợp các cấp độ dựa trên việc chúng có xuất hiện đồng nhất hay không, điều này chắc chắn có thể được dạy cho máy tính.
Macro

4
Tôi không thể cưỡng lại việc chỉ ra rằng Google đã đạt được những tiến bộ vượt bậc theo hướng mua xe sẽ khiến bạn có thể lái xe - nó sẽ tự động làm như vậy!
whuber

2

Các nghiên cứu học thuật xem xét xác suất tự động hóa của các ngành nghề hoặc nhiệm vụ khác nhau không nghĩ rằng các nhà thống kê sẽ sớm được thay thế bằng máy tính. Xem ví dụ nghiên cứu Frey & Ostern (2013) gây tranh cãi xếp hạng các nghề nghiệp theo xác suất tin học hóa của họ, các nhà thống kê được xếp hạng thấp 213 trong số 702 với xác suất 22% (xem bảng trong phụ lục). Nếu bạn quan tâm hơn nữa, xem thêm bài viết Slate ở đây .

Arntz và cộng sự. (2016) ( ở đây một bài báo của Chuyên gia kinh tế) xem xét các nhiệm vụ thay vì nghề nghiệp cho Liên minh châu Âu và đi đến một kết luận tương tự: Làm "Toán học hoặc thống kê phức tạp" có liên quan tiêu cực đáng kể đến tự động hóa công việc (xem Bảng 3).

Nhưng một số lưu ý là khuyến khích, các học giả và / hoặc các nhà kinh tế không phải lúc nào cũng rất giỏi trong việc dự đoán tương lai (ví dụ, người đoạt giải Nobel Robert Lucas đã kết luận năm 2003, một vài năm trước cuộc khủng hoảng tài chính, đó là "vấn đề trung tâm của phòng chống trầm cảm như đã được giải quyết, cho tất cả các mục đích thực tế, và trên thực tế đã được giải quyết trong nhiều thập kỷ. " ). Cả hai nghiên cứu dường như là bài nghiên cứu, được thảo luận rộng rãi nhưng chưa được công bố trên các tạp chí đánh giá ngang hàng tiêu chuẩn.

Liên quan đến cuộc tranh luận học thuật, ở đây bạn có thể tìm thấy một bài viết tổng quan về tình trạng nghiên cứu về tự động hóa.


0

Tôi nghĩ rằng AI sẽ chỉ làm cho các nhà thống kê thông minh hơn và cạnh tranh hơn. Tại sao? Bởi vì đây là ý định của trí tuệ nhân tạo kể từ khi họ thụ thai từ nhiều thập kỷ trước ...

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.