Có quan trọng đối với các nhà thống kê để học máy học?


22

Là máy học là một chủ đề quan trọng cho bất kỳ nhà thống kê để làm quen với? Có vẻ như máy học là số liệu thống kê. Tại sao các chương trình thống kê (đại học và sau đại học) yêu cầu học máy?


1
Độc giả ở đây có thể quan tâm đến chủ đề sau: Sự khác biệt giữa khai thác dữ liệu, thống kê, học máy và AI .
gung - Phục hồi Monica

2
Không biết, nhưng tôi khá chắc chắn rằng mọi người đang học máy nên học thống kê.
Dave

Câu trả lời:


18

Machine Learning là một lĩnh vực chuyên ngành thống kê ứng dụng chiều cao. Nó cũng đòi hỏi nền tảng lập trình đáng kể không cần thiết cho một chương trình định lượng tốt, đặc biệt là ở cấp đại học nhưng cũng ở một mức độ nào đó ở cấp độ sau đại học. Nó chỉ áp dụng cho khía cạnh dự đoán của thống kê, trong khi thống kê toán học cũng như thống kê áp dụng suy luận và mô tả đòi hỏi phải chú ý. Nhiều chương trình cung cấp cho sinh viên cơ hội tiếp xúc nhiều với học máy (ví dụ CMU), nhưng các nhà thống kê công nghiệp nói chung hiếm khi có cơ hội áp dụng các công cụ này, loại bỏ một số công việc công nghệ cao.

Trong khi tôi gần đây đã chứng kiến nhiều nhà khoa học dữ liệu và máy vị trí học tập trong thị trường lao động, tôi nghĩ rằng mô tả công việc chung của "thống kê" không đòi hỏi một máy học nền, nhưng không đòi hỏi một sự hiểu biết hoàn hảo của thống kê cơ bản, suy luận, và thông tin liên lạc: những điều này thực sự nên là cốt lõi của một chương trình thống kê sau đại học. Học máy và khoa học dữ liệu cũng tương đối mới như chức danh công việc và ngành học. Sẽ là một sự bất lợi cho những người tìm kiếm việc làm như các nhà thống kê để thay đổi chiến lược giải quyết vấn đề của họ đối với việc học máy nếu nó hầu như bị bỏ rơi trong doanh nghiệp kinh doanh / dược phẩm / khoa học sinh học vì hiệu quả áp đảo trong 10 hoặc 20 năm.

Cuối cùng, tôi không cảm thấy việc học máy giúp tăng cường sự hiểu biết vững chắc về thống kê. Thống kê về cơ bản là một lĩnh vực đa ngành và điều quan trọng là phải giao tiếp và thuyết phục các chuyên gia phi kỹ thuật trong lĩnh vực của bạn (như bác sĩ, CFO hoặc quản trị viên) chính xác lý do tại sao bạn chọn phương pháp bạn đã chọn. Học máy là một lĩnh vực thích hợp, kỹ thuật cao đến mức, trong nhiều thực tiễn được áp dụng, chỉ hứa hẹn hiệu suất tăng dần so với các công cụ và kỹ thuật tiêu chuẩn. Nhiều phương pháp trong học tập có giám sát và không giám sát được các chuyên gia không phải là chuyên gia (và thậm chí một số chuyên gia ít được đào tạo) coi là "hộp đen". Khi được yêu cầu bảo vệ sự lựa chọn của họ về một phương pháp học tập cụ thể, có những lời giải thích không bằng phẳng và không dựa vào bất kỳ vấn đề nào được áp dụng trong hoàn cảnh.


1
Bạn có thể giải thích chi tiết hơn một chút về ý nghĩa chính xác của bạn với những lời giải thích không bằng phẳng (ví dụ có thể?)?
cbeleites hỗ trợ Monica

10
Tôi không thể mô tả sự khác biệt giữa phân tích phân biệt tuyến tính, máy vectơ hỗ trợ và GLM LASSO theo cách có ý nghĩa với bác sĩ. Vì vậy, tôi đã xây dựng một mô hình hồi quy logistic để dự đoán rủi ro ung thư vú bằng cách sử dụng một số đồng biến được điều chỉnh cẩn thận. Khi được trình bày, các bác sĩ ngay lập tức đưa ra một cuộc thảo luận khai sáng về kích thước hiệu ứng của chúng. Sự phân biệt đối xử của mô hình "khoa học" của tôi rất giống với các kỹ thuật ML tinh vi hơn (chồng chéo 90% CIs cho AUC dựa trên bootstrap trong mẫu xác nhận) và tôi không phải là người duy nhất có báo cáo trường hợp như vậy!
AdamO

4
@cbeleites, bạn đã bao giờ phải giao tiếp với một người thực chất với ít nhất một lượng kiến ​​thức toán đại số đại học chưa? SVM không tạo ra kích thước hiệu ứng theo các thuật ngữ mà các bác sĩ sẽ hiểu; chiều rộng của lề không có ý nghĩa đối với chúng, không giống như các tỷ lệ lẻ mà chúng được sử dụng rất nhiều. Nếu bạn không thể nói ngôn ngữ của khách hàng, họ sẽ không lãng phí thời gian và tiền bạc của bạn cho bạn.
StasK

2
@GraemeWalsh điểm tuyệt vời. Tôi đấu tranh rất nhiều với khái niệm sử dụng các mô hình dự đoán tinh vi cho suy luận tiên đoán, như thường thấy trong mô hình phương trình cấu trúc hoặc quan hệ nhân quả của Granger. Tôi nghĩ vẫn còn rất nhiều việc phải làm trong lĩnh vực này. Ví dụ, theo trực giác tôi nhận ra rất nhiều điểm tương đồng giữa mô hình bán tham số và mô hình cấu trúc cận biên, nhưng không chắc chắn sự khác biệt nằm ở đâu.
AdamO

2
@Jase bạn nên xem bài viết được mời từ những người chiến thắng cuộc thi Netflix. Các báo cáo của họ rất giống nhau, ngay cả với mô hình Bayes trung bình chạy trọng lượng sau trên một không gian rộng lớn của các mô hình, họ quan sát thấy rằng Pca dường như có trọng lượng sau thống trị trong mọi điều kiện. Điều đó không có nghĩa là chúng tương đương nhau, nhưng có một sự đánh đổi giữa sự đơn giản và chính xác khiến tôi thích các mô hình đơn giản hơn so với các đấu trường ml cung cấp. Người ta có thể nghĩ tương tự về cách các mô hình tham số tinh vi thực hiện tương tự như các mô hình không tham số.
AdamO

14

OK, hãy nói về con voi thống kê với tầm nhìn bị che mắt bởi những gì chúng ta đã học được từ một hoặc hai người mà chúng ta đã làm việc chặt chẽ trong các chương trình tốt nghiệp của chúng ta ...

Các chương trình thống kê yêu cầu những gì họ thấy phù hợp, đó là những gì quan trọng nhất mà họ muốn học sinh của mình học trong một khoảng thời gian giới hạn mà các sinh viên sẽ có trong chương trình. Yêu cầu một khu vực hẹp có nghĩa là hôn tạm biệt với một số khu vực khác có thể được tranh luận là quan trọng như nhau. Một số chương trình yêu cầu đo xác suất lý thuyết, một số không. Một số yêu cầu ngoại ngữ, nhưng hầu hết các chương trình thì không. Một số chương trình lấy mô hình Bayes là điều duy nhất đáng để nghiên cứu, nhưng hầu hết không. Một số chương trình biết rằng nhu cầu lớn nhất đối với các nhà thống kê là trong thống kê khảo sát (ít nhất đó là trường hợp ở Mỹ), nhưng hầu hết thì không. Các chương trình kiểm soát sinh học theo tiền và dạy cho SAS + các phương pháp sẽ bán dễ dàng cho các ngành khoa học y tế và dược phẩm.

Đối với một người thiết kế thí nghiệm nông nghiệp, hoặc thu thập dữ liệu khảo sát thông qua khảo sát qua điện thoại hoặc xác thực thang đo tâm lý hoặc tạo bản đồ tỷ lệ mắc bệnh trong GIS, học máy là một nghệ thuật trừu tượng của khoa học máy tính, rất xa so với thống kê mà họ làm việc hàng ngày nền tảng. Không ai trong số những người này sẽ thấy bất kỳ lợi ích ngay lập tức từ việc học máy vectơ hỗ trợ hoặc rừng ngẫu nhiên.

Nói chung, học máy là một bổ sung tốt cho các lĩnh vực thống kê khác, nhưng tôi cho rằng những thứ chính thống như phân phối thông thường đa biến và mô hình tuyến tính tổng quát cần phải được ưu tiên.


5

Học máy là để đạt được kiến ​​thức / học hỏi từ dữ liệu. Ví dụ, tôi làm việc với các thuật toán học máy có thể chọn một vài gen có thể liên quan đến một loại bệnh cụ thể từ dữ liệu DNA Microarray (ví dụ ung thư hoặc tiểu đường). Các nhà khoa học sau đó có thể sử dụng các gen này (mô hình đã học) để chẩn đoán sớm trong tương lai (phân loại các mẫu chưa nhìn thấy).

Có rất nhiều số liệu thống kê liên quan đến học máy nhưng có những nhánh của học máy không yêu cầu thống kê (ví dụ lập trình di truyền). Lần duy nhất bạn cần thống kê trong các trường hợp này là để xem liệu một mô hình mà bạn đã xây dựng bằng cách sử dụng máy học có khác biệt đáng kể về mặt thống kê so với một số mô hình khác hay không.

Theo tôi, một giới thiệu về học máy cho các nhà thống kê sẽ là lợi thế . Điều này sẽ giúp các nhà thống kê để xem các kịch bản trong thế giới thực của việc áp dụng số liệu thống kê. Tuy nhiên, nó không nên là bắt buộc . Bạn có thể trở thành một nhà thống kê thành công và dành cả đời mà không cần phải đến gần máy học!


2
Tôi muốn nói rằng bạn cần số liệu thống kê mỗi khi bạn báo cáo hiệu suất của mô hình. Mabe đó là vì nghề nghiệp của tôi là hóa học phân tích, trong đó một trong những quy tắc quan trọng là "một con số không có khoảng tin cậy là không có kết quả".
cbeleites hỗ trợ Monica

1
@cbeleites Tôi đồng ý với bạn. Ý tôi là các nhà thống kê không nhất thiết phải là chuyên gia về máy học! Họ có thể nhận được mà không cần học máy học :)
dậy

1
@cbeleites, hoặc nhiều khoảng tin cậy trong trường hợp các esimators đa phương thức (ví dụ: Phân tích dữ liệu Sivia & Skilling ).
alancalvitti
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.