Sử dụng lý thuyết thông tin trong khoa học dữ liệu ứng dụng


9

Hôm nay tôi đã xem cuốn sách "Lý thuyết thông tin: Giới thiệu hướng dẫn" của James Stone và suy nghĩ một hoặc hai về mức độ sử dụng lý thuyết thông tin trong khoa học dữ liệu ứng dụng (nếu bạn không thoải mái với thuật ngữ vẫn còn hơi mờ nhạt này, nghĩ rằng phân tích dữ liệu , mà khoa học dữ liệu IMHO là một phiên bản được tôn vinh). Tôi nhận thức rõ về việc sử dụng đáng kể các phương pháp , phương phápbiện pháp dựa trên lý thuyết thông tin , đặc biệt là entropy , dưới sự hỗ trợ của các kỹ thuật thống kê và phương pháp phân tích dữ liệu khác nhau.

Tuy nhiên, tôi tò mò về mức độ / mức độ kiến thức cần thiết cho một nhà khoa học xã hội ứng dụng để lựa chọnáp dụng thành công các khái niệm, biện pháp và công cụ đó mà không đi sâu vào nguồn gốc toán học của lý thuyết. Tôi mong chờ câu trả lời của bạn, có thể giải quyết mối quan tâm của tôi trong bối cảnh của cuốn sách nói trên (hoặc các cuốn sách tương tự khác - vui lòng giới thiệu) hoặc nói chung.

Tôi cũng sẽ đánh giá cao một số khuyến nghị cho các nguồn in hoặc trực tuyến thảo luận về lý thuyết thông tin và các khái niệm, cách tiếp cận, phương pháp và biện pháp của nó trong bối cảnh ( so với) các phương pháp thống kê truyền thống khác ( thường xuyên hơnBayesian ).


2
Có lẽ một trong những trường hợp sử dụng entropy được biết đến và "áp dụng" nhất xảy ra khi xây dựng một cái cây. Một trong những khả năng khi phân tách thuật toán là lấy số liệu thu được thông tin, đó là sự khác biệt giữa entropy giữa cấp cao nhất và cấp độ xuống. Bạn có thêm thông tin ở đây vi.wikipedia.org/wiki/In
information_gain_in_decision_trees

@ D.Castro: Cảm ơn bạn đã nhận xét của bạn - Tôi biết về trường hợp đó (và thậm chí đã đăng câu trả lời về chủ đề chính xác này ở đây trên Cross xác thực hoặc trên trang web Data Science SE). Tôi hy vọng cho một phạm vi bao quát / thảo luận toàn diện hơn về vấn đề này.
Alexanderr Blekh

1
Đối với tôi, và phần lớn, đó là vấn đề về ngành học hoặc lĩnh vực mà một người được đào tạo cũng như lục địa địa lý. Theo quan điểm của tôi, các nhà vật lý, nhà toán học và những người thực hành học máy thuần túy có nhiều khả năng tiếp xúc sâu hơn với lý thuyết thông tin hơn là, các nhà thống kê, nhà kinh tế hoặc nhà phân tích tài chính định lượng. Ngoài ra, tôi sẽ nhân đôi điều này cho những người được đào tạo ở châu Âu, tức là người châu Âu có nhiều khả năng làm quen với CNTT hơn. Tuy nhiên, sự ra đời của các mô hình cho việc học thống kê đang thay đổi điều đó đối với các nhà khoa học dữ liệu ở Hoa Kỳ.
Mike Hunter

@DJohnson Điểm nhỏ nhất của phút nhưng ở Anh và có lẽ ở nơi khác CNTT == công nghệ thông tin. Nếu không, ấn tượng của bạn giống với tôi.
Nick Cox

@NickCox Cảm ơn, quan điểm của bạn cũng dành cho các Bang. Đó là một nhận xét dài dòng và, cho phép không gian, tôi sẽ đánh vần các từ hoặc tốt hơn là đã giới thiệu ý nghĩa của từ viết tắt ở một điểm trước đó.
Mike Hunter

Câu trả lời:


4

Vì vậy, phần đầu tiên của câu hỏi: Các nhà khoa học dữ liệu có cần biết lý thuyết thông tin không? Tôi nghĩ rằng câu trả lời là không cho đến gần đây. Lý do tôi thay đổi suy nghĩ là một thành phần quan trọng: tiếng ồn.

Nhiều mô hình học máy (cả ngẫu nhiên hay không) sử dụng tiếng ồn như một phần của quá trình mã hóa và biến đổi của chúng và trong nhiều mô hình này, bạn cần suy ra xác suất nhiễu ảnh hưởng sau khi giải mã đầu ra biến đổi của mô hình. Tôi nghĩ rằng đây là một phần cốt lõi của lý thuyết thông tin. Không chỉ vậy, trong học tập sâu, phân kỳ KL là một biện pháp rất quan trọng được sử dụng cũng xuất phát từ Lý thuyết thông tin.

Phần thứ hai của câu hỏi: Tôi nghĩ nguồn tốt nhất là Lý thuyết thông tin, suy luận và thuật toán học tập của David MacKay . Ông bắt đầu với Lý thuyết thông tin và đưa những ý tưởng đó vào cả suy luận và thậm chí cả mạng lưới thần kinh. Pdf miễn phí trên trang web của Dave và các bài giảng trực tuyến rất tuyệt vời


3
Đó là một cuốn sách tuyệt vời. Bất cứ ai quan tâm cũng nên lướt qua en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox

Cảm ơn câu trả lời của bạn (+1 và chấp nhận tiềm năng, nếu không có câu trả lời toàn diện hơn sẽ sớm xuất hiện). Đánh giá cao cho các tài liệu tham khảo. Tôi ngạc nhiên khi bạn chạy qua câu hỏi gần như bị lãng quên, nhưng quan trọng này của tôi. :-)
Aleksandr Blekh

Vâng, nó thật thú vị. Bạn không bao giờ nên từ bỏ một câu hỏi. Đến với tôi sau khi tôi tham dự NIPS2016 và tôi đã thấy tất cả những cuộc nói chuyện về phân kỳ KL và tác động tiếng ồn đến các bộ mã hóa.
Ambodi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.