Là máy học là một chủ đề quan trọng cho bất kỳ nhà thống kê để làm quen với? Có vẻ như máy học là số liệu thống kê. Tại sao các chương trình thống kê (đại học và sau đại học) yêu cầu học máy?
Là máy học là một chủ đề quan trọng cho bất kỳ nhà thống kê để làm quen với? Có vẻ như máy học là số liệu thống kê. Tại sao các chương trình thống kê (đại học và sau đại học) yêu cầu học máy?
Câu trả lời:
Machine Learning là một lĩnh vực chuyên ngành thống kê ứng dụng chiều cao. Nó cũng đòi hỏi nền tảng lập trình đáng kể không cần thiết cho một chương trình định lượng tốt, đặc biệt là ở cấp đại học nhưng cũng ở một mức độ nào đó ở cấp độ sau đại học. Nó chỉ áp dụng cho khía cạnh dự đoán của thống kê, trong khi thống kê toán học cũng như thống kê áp dụng suy luận và mô tả đòi hỏi phải chú ý. Nhiều chương trình cung cấp cho sinh viên cơ hội tiếp xúc nhiều với học máy (ví dụ CMU), nhưng các nhà thống kê công nghiệp nói chung hiếm khi có cơ hội áp dụng các công cụ này, loại bỏ một số công việc công nghệ cao.
Trong khi tôi gần đây đã chứng kiến nhiều nhà khoa học dữ liệu và máy vị trí học tập trong thị trường lao động, tôi nghĩ rằng mô tả công việc chung của "thống kê" không đòi hỏi một máy học nền, nhưng không đòi hỏi một sự hiểu biết hoàn hảo của thống kê cơ bản, suy luận, và thông tin liên lạc: những điều này thực sự nên là cốt lõi của một chương trình thống kê sau đại học. Học máy và khoa học dữ liệu cũng tương đối mới như chức danh công việc và ngành học. Sẽ là một sự bất lợi cho những người tìm kiếm việc làm như các nhà thống kê để thay đổi chiến lược giải quyết vấn đề của họ đối với việc học máy nếu nó hầu như bị bỏ rơi trong doanh nghiệp kinh doanh / dược phẩm / khoa học sinh học vì hiệu quả áp đảo trong 10 hoặc 20 năm.
Cuối cùng, tôi không cảm thấy việc học máy giúp tăng cường sự hiểu biết vững chắc về thống kê. Thống kê về cơ bản là một lĩnh vực đa ngành và điều quan trọng là phải giao tiếp và thuyết phục các chuyên gia phi kỹ thuật trong lĩnh vực của bạn (như bác sĩ, CFO hoặc quản trị viên) chính xác lý do tại sao bạn chọn phương pháp bạn đã chọn. Học máy là một lĩnh vực thích hợp, kỹ thuật cao đến mức, trong nhiều thực tiễn được áp dụng, chỉ hứa hẹn hiệu suất tăng dần so với các công cụ và kỹ thuật tiêu chuẩn. Nhiều phương pháp trong học tập có giám sát và không giám sát được các chuyên gia không phải là chuyên gia (và thậm chí một số chuyên gia ít được đào tạo) coi là "hộp đen". Khi được yêu cầu bảo vệ sự lựa chọn của họ về một phương pháp học tập cụ thể, có những lời giải thích không bằng phẳng và không dựa vào bất kỳ vấn đề nào được áp dụng trong hoàn cảnh.
OK, hãy nói về con voi thống kê với tầm nhìn bị che mắt bởi những gì chúng ta đã học được từ một hoặc hai người mà chúng ta đã làm việc chặt chẽ trong các chương trình tốt nghiệp của chúng ta ...
Các chương trình thống kê yêu cầu những gì họ thấy phù hợp, đó là những gì quan trọng nhất mà họ muốn học sinh của mình học trong một khoảng thời gian giới hạn mà các sinh viên sẽ có trong chương trình. Yêu cầu một khu vực hẹp có nghĩa là hôn tạm biệt với một số khu vực khác có thể được tranh luận là quan trọng như nhau. Một số chương trình yêu cầu đo xác suất lý thuyết, một số không. Một số yêu cầu ngoại ngữ, nhưng hầu hết các chương trình thì không. Một số chương trình lấy mô hình Bayes là điều duy nhất đáng để nghiên cứu, nhưng hầu hết không. Một số chương trình biết rằng nhu cầu lớn nhất đối với các nhà thống kê là trong thống kê khảo sát (ít nhất đó là trường hợp ở Mỹ), nhưng hầu hết thì không. Các chương trình kiểm soát sinh học theo tiền và dạy cho SAS + các phương pháp sẽ bán dễ dàng cho các ngành khoa học y tế và dược phẩm.
Đối với một người thiết kế thí nghiệm nông nghiệp, hoặc thu thập dữ liệu khảo sát thông qua khảo sát qua điện thoại hoặc xác thực thang đo tâm lý hoặc tạo bản đồ tỷ lệ mắc bệnh trong GIS, học máy là một nghệ thuật trừu tượng của khoa học máy tính, rất xa so với thống kê mà họ làm việc hàng ngày nền tảng. Không ai trong số những người này sẽ thấy bất kỳ lợi ích ngay lập tức từ việc học máy vectơ hỗ trợ hoặc rừng ngẫu nhiên.
Nói chung, học máy là một bổ sung tốt cho các lĩnh vực thống kê khác, nhưng tôi cho rằng những thứ chính thống như phân phối thông thường đa biến và mô hình tuyến tính tổng quát cần phải được ưu tiên.
Học máy là để đạt được kiến thức / học hỏi từ dữ liệu. Ví dụ, tôi làm việc với các thuật toán học máy có thể chọn một vài gen có thể liên quan đến một loại bệnh cụ thể từ dữ liệu DNA Microarray (ví dụ ung thư hoặc tiểu đường). Các nhà khoa học sau đó có thể sử dụng các gen này (mô hình đã học) để chẩn đoán sớm trong tương lai (phân loại các mẫu chưa nhìn thấy).
Có rất nhiều số liệu thống kê liên quan đến học máy nhưng có những nhánh của học máy không yêu cầu thống kê (ví dụ lập trình di truyền). Lần duy nhất bạn cần thống kê trong các trường hợp này là để xem liệu một mô hình mà bạn đã xây dựng bằng cách sử dụng máy học có khác biệt đáng kể về mặt thống kê so với một số mô hình khác hay không.
Theo tôi, một giới thiệu về học máy cho các nhà thống kê sẽ là lợi thế . Điều này sẽ giúp các nhà thống kê để xem các kịch bản trong thế giới thực của việc áp dụng số liệu thống kê. Tuy nhiên, nó không nên là bắt buộc . Bạn có thể trở thành một nhà thống kê thành công và dành cả đời mà không cần phải đến gần máy học!