Những gì được dự định bởi Viking Hãy để dữ liệu tự nói lên điều đó?


10

Khi đọc bài báo sau , tôi đã xem qua tuyên bố sau:

Như đã đề cập, nó thường được trình bày mà không có bất kỳ tham chiếu nào đến các mô hình xác suất, phù hợp với ý tưởng của Benzecri [1973] đối với dòng giấy để cho phép dữ liệu tự nói lên. "

(trích dẫn từ JP Benzécri. L'analyse des données. Tome II: L'analyse des tương ứng. Dunod, 1973.)

Từ cách tôi đọc bài báo này, có vẻ như "hãy để dữ liệu tự nói lên" có nghĩa là một cái gì đó dọc theo các dòng xem xét các biện pháp khác nhau trên dữ liệu mà không liên quan đến chức năng khả năng hoặc quá trình tạo dữ liệu .

Mặc dù tôi đã nghe câu trích dẫn "hãy để dữ liệu tự nói lên" trước đây, tôi vẫn chưa suy nghĩ kỹ về những gì được ngụ ý. Là giải thích trên của tôi những gì kinh điển ngụ ý của trích dẫn này?


9
Hãy để trích dẫn nói cho chính nó.
Mark L. Stone

@ MarkL.Stone: Giống như dữ liệu, trích dẫn được hiểu rõ hơn với ngữ cảnh
Cliff AB

Câu trả lời:


8

Việc giải thích phụ thuộc vào bối cảnh, nhưng có một số bối cảnh phổ biến trong đó điều này xuất hiện. Tuyên bố thường được sử dụng trong phân tích Bayes để nhấn mạnh thực tế rằng chúng ta lý tưởng muốn phân phối sau trong phân tích trở nên mạnh mẽ với các giả định trước, để hiệu ứng của dữ liệu "chi phối" hậu thế. Tổng quát hơn, trích dẫn thường có nghĩa là chúng tôi muốn mô hình thống kê của chúng tôi tuân thủ cấu trúc của dữ liệu, thay vì buộc dữ liệu thành một diễn giải là giả định cấu trúc không thể kiểm chứng của mô hình.

Câu trích dẫn cụ thể mà bạn đang đề cập đến được bổ sung bởi trích dẫn bổ sung: "Mô hình phải tuân theo dữ liệu, không phải theo cách khác" (dịch từ Benzécri J (1973) L' nalyse des Données. Tome II: L' nalyse des Corr Corrances . Dunod, tr. 6). Benzécri lập luận rằng các mô hình thống kê nên trích xuất cấu trúc từ dữ liệu, thay vì cấu trúc áp đặt. Ông coi việc sử dụng các phương pháp đồ họa khám phá là rất quan trọng để cho phép nhà phân tích "để dữ liệu nói".


(+1) Với ý nghĩ đó, tôi cho rằng trích dẫn trong bài báo được liên kết đầu tiên ngụ ý rằng các phương pháp này nhìn vào cấu trúc hiệp phương sai theo kinh nghiệm, thay vì cấu trúc phụ thuộc dựa trên mô hình.
Vách đá AB

1
Vâng, tôi nghĩ điều đó đúng. Điều đáng chú ý là Benzécri tuyên bố rằng phân tích dữ liệu về cơ bản tương đương với phân rã bản địa trong PCA. Ông được trích dẫn rằng, "tất cả trong tất cả, thực hiện phân tích dữ liệu, trong toán học tốt, chỉ đơn giản là tìm kiếm người bản địa; tất cả khoa học (hoặc nghệ thuật) của nó là tìm ra ma trận phù hợp để chéo." (xem Husson et al 2016 , trang 2)
Ben - Tái lập Monica

2
Ha, đó là một yêu cầu rất thú vị để anh ta thực hiện. Bối cảnh đó làm cho trích dẫn trong bài báo có ý nghĩa hơn nhiều.
Vách đá AB

Vâng, nó là cực kỳ!
Ben - Tái lập Monica

(+1). Trong khi, thoạt nhìn, trích dẫn có vẻ khó đồng ý (tại sao lại "áp đặt" một cái gì đó là một điều tốt, sau tất cả? dễ dàng hơn để nghe dữ liệu tự nói khi chúng ta đang nghe nó thông qua một mô hình tham số.
Christoph Hanck

1

Quay trở lại khoảng năm 2005 khi "Khai thác dữ liệu" là mối đe dọa mới nhất đối với nghề thống kê, tôi nhớ đã nhìn thấy một poster có "Nguyên tắc khai thác dữ liệu", một trong số đó là "hãy để dữ liệu nói" (không thể nhớ nếu "cho chính nó" đã bao gồm). Nếu bạn nghĩ về các thuật toán có thể được coi là "Khai thác dữ liệu", apriori và phân vùng đệ quy xuất hiện trong tâm trí, hai thuật toán có thể được thúc đẩy mà không cần các giả định thống kê và dẫn đến các tóm tắt khá cơ bản của tập dữ liệu cơ bản.

@Ben hiểu thêm về lịch sử của cụm từ sau đó tôi làm, nhưng suy nghĩ về trích dẫn như được trích dẫn trong bài báo:

MCA có thể được coi là đối tác của PCA đối với dữ liệu phân loại và liên quan đến việc giảm tính chiều của dữ liệu để cung cấp một không gian con thể hiện tốt nhất dữ liệu theo nghĩa tối đa hóa sự thay đổi của các điểm được chiếu. Như đã đề cập, nó thường được trình bày mà không có bất kỳ tham chiếu nào đến các mô hình xác suất, phù hợp với ý tưởng của Benz Tiếtecri [1973] đối với việc để dữ liệu tự nói lên.

Tôi thấy rằng quy trình của MCA giống với phân vùng apriori hoặc phân vùng đệ quy (hoặc địa ngục, ý nghĩa số học cho vấn đề đó) ở chỗ nó có thể được thúc đẩy mà không cần bất kỳ mô hình hóa nào và là một hoạt động cơ học trên một tập dữ liệu có ý nghĩa dựa trên trên một số nguyên tắc đầu tiên.

Có một phổ cho phép dữ liệu nói. Các mô hình bayes đầy đủ với các linh mục mạnh mẽ sẽ ở một đầu. Các mô hình phi tham số thường xuyên sẽ gần hơn với đầu kia.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.