Thực hiện kiểm tra thống kê sau khi trực quan hóa dữ liệu - nạo vét dữ liệu?


31

Tôi sẽ đề xuất câu hỏi này bằng một ví dụ.

Giả sử tôi có một tập dữ liệu, chẳng hạn như tập dữ liệu giá nhà ở boston, trong đó tôi có các biến liên tục và phân loại. Ở đây, chúng tôi có một biến "chất lượng", từ 1 đến 10 và giá bán. Tôi có thể phân tách dữ liệu thành các nhà chất lượng "thấp", "trung bình" và "cao" bằng cách (tùy ý) tạo ra các điểm ngắt cho chất lượng. Sau đó, bằng cách sử dụng các nhóm này, tôi có thể vẽ biểu đồ của giá bán với nhau. Thích như vậy:

chất lượng nhà ở và giá bán

Ở đây, "thấp" là và "cao" là > 7 về điểm "chất lượng". Bây giờ chúng tôi có một phân phối giá bán cho mỗi trong ba nhóm. Rõ ràng là có một sự khác biệt ở trung tâm vị trí cho các ngôi nhà chất lượng trung bình và cao. Bây giờ, đã làm tất cả những điều này, tôi nghĩ "Hừm. Có vẻ như có một sự khác biệt ở trung tâm của địa điểm! Tại sao tôi không làm một bài kiểm tra t về phương tiện?". Sau đó, tôi nhận được một giá trị p xuất hiện để từ chối chính xác giả thuyết null rằng không có sự khác biệt về phương tiện.3>7

Bây giờ, giả sử rằng tôi không có gì trong đầu để kiểm tra giả thuyết này cho đến khi tôi vẽ dữ liệu.

Là dữ liệu nạo vét?

Có phải nó vẫn nạo vét dữ liệu nếu tôi nghĩ: "Hừm, tôi cá là những ngôi nhà chất lượng cao có giá cao hơn, vì tôi là người sống trong một ngôi nhà trước đây. Tôi sẽ vẽ dữ liệu. Ah ha! Trông khác! để kiểm tra! "

Đương nhiên, nó không phải là nạo vét dữ liệu nếu tập hợp dữ liệu được thu thập với mục đích kiểm tra giả thuyết này ngay từ đầu. Nhưng thường thì người ta phải làm việc với các bộ dữ liệu được cung cấp cho chúng tôi và được bảo là "tìm mẫu". Làm thế nào để ai đó tránh nạo vét dữ liệu với nhiệm vụ mơ hồ này trong tâm trí? Tạo bộ giữ cho dữ liệu thử nghiệm? Có trực quan hóa "tính" như rình mò để có cơ hội kiểm tra một giả thuyết được đề xuất bởi dữ liệu?

Câu trả lời:


27

Không đồng ý ngắn gọn với / đưa ra phản biện cho câu trả lời của @ ingolifs: có, trực quan hóa dữ liệu của bạn là điều cần thiết. Nhưng hình dung trước khi quyết định phân tích sẽ đưa bạn vào khu vườn tìm đường của Gelman và Loken . Điều này không giống như nạo vét dữ liệu hoặc hack p, một phần thông qua ý định (GoFP thường có ý nghĩa tốt) và một phần vì bạn không thể chạy nhiều hơn một phân tích. Nhưng nó một hình thức rình mò: bởi vì phân tích của bạn phụ thuộc vào dữ liệu, nó có thể dẫn bạn đến kết luận sai hoặc quá tự tin.

Bằng cách nào đó bạn nên xác định những gì của bạn định phân tích dự định là gì (ví dụ: "nhà chất lượng cao nên có giá cao hơn") và viết nó xuống (hoặc thậm chí chính thức trình bày trước nó) trước khi xem dữ liệu của bạn (bạn có thể xem xét các biến dự đoán của mình trong trước, không chỉ là biến trả lời, nhưng nếu bạn thực sự không có tiên nghiệm ý tưởng thì bạn thậm chí không biết biến nào có thể là dự đoán và có thể là phản hồi); nếu dữ liệu của bạn đề xuất một số phân tích khác nhau hoặc bổ sung, thì bài viết của bạn có thể nêu cả những gì bạn định làm ban đầu và những gì (và tại sao) bạn đã kết thúc việc đó.

Nếu bạn đang thực sự khám phá thuần túy (nghĩa là bạn không có giả thuyết tiên nghiệm , bạn chỉ muốn xem những gì trong dữ liệu):

  • suy nghĩ của bạn về việc đưa ra một mẫu để xác nhận là tốt.
    • Trong thế giới của tôi (tôi không làm việc với các tập dữ liệu khổng lồ), việc mất độ phân giải do có kích thước mẫu thấp hơn sẽ gây đau đớn
    • bạn cần cẩn thận một chút trong việc chọn mẫu nắm giữ nếu dữ liệu của bạn được cấu trúc theo bất kỳ cách nào (theo địa lý, chuỗi thời gian, v.v.). Lấy mẫu như thể dữ liệu là iid dẫn đến sự tự tin thái quá (xem ví dụ về Phương pháp Wenger và Olden trong Sinh thái học và Tiến hóa 2012), vì vậy bạn có thể muốn chọn ra các đơn vị địa lý để xem xét ( ví dụ: xem Phương pháp DJ Harris trong Sinh thái học và Tiến hóa 2015)
  • bạn có thể thừa nhận rằng bạn đang hoàn toàn khám phá. Lý tưởng nhất là bạn sẽ tránh hoàn toàn giá trị p trong trường hợp này, nhưng ít nhất nói với khán giả của bạn rằng bạn đang đi lang thang trong GoFP cho họ biết rằng họ có thể lấy giá trị p bằng những hạt muối khổng lồ.

Tài liệu tham khảo yêu thích của tôi về "thực hành thống kê an toàn" là Chiến lược mô hình hóa hồi quy của Mitchell (Springer); ông đưa ra các thực tiễn tốt nhất để suy luận so với dự đoán so với thăm dò, theo một cách nghiêm ngặt nhưng thực tế.


4
Rất tốt đặt! Tôi hy vọng sẽ giới thiệu mọi người đến câu trả lời này trong tương lai.
Great38

Chính xác là loại phản ứng tôi đang tìm kiếm, cảm ơn bạn. Tôi đã ghi nhận câu trả lời này như một câu trả lời. Bạn có biết bất kỳ tài nguyên nào dạy thực hành thống kê an toàn không? Có lẽ phạm vi rộng hơn một chút so với các bài viết (xuất sắc) mà bạn đã đăng
Marcel

Câu trả lời tuyệt vời (+1), nhưng tôi không đồng ý rằng điều này khác với việc nạo vét dữ liệu; ý định là không liên quan - hiệu quả là như nhau.
Phục hồi Monica

Tôi thực sự nghĩ rằng nó đáng để duy trì sự khác biệt giữa các hình thức rình mò khác nhau. Việc nạo vét có thể nghiêm trọng hơn vì nó bao gồm (1) nhiều thử nghiệm rõ ràng thay vì nhiều thử nghiệm ngầm và (2) thử nghiệm có điều kiện / tiếp tục cho đến khi đạt được p <0,05 (hoặc bất cứ điều gì). Hiệu quả định tính chắc chắn là như nhau.
Ben Bolker

11

Trực quan hóa dữ liệu là một phần không thể thiếu trong phân tích và là một trong những điều đầu tiên bạn nên làm với một tập dữ liệu lạ. Một nhãn cầu nhanh chóng của dữ liệu có thể thông báo các bước cần thực hiện tiếp theo. Thật vậy, nó khá rõ ràng bằng cách nhìn vào biểu đồ rằng các phương tiện là khác nhau và tôi không chắc tại sao cần phải kiểm tra T để xác nhận điều này - các phương tiện được phân tách đầy đủ rằng chính biểu đồ là tất cả bằng chứng tôi sẽ yêu cầu.

Nạo vét dữ liệu, theo như tôi có thể nói từ một wikipedia-ing nhanh chóng, là một quá trình cố tình lén lút với dữ liệu để buộc các mức độ phù hợp nhất định. Ví dụ sẽ là: So sánh một tập dữ liệu với một số số ngẫu nhiên, nhưng tạo lại các số ngẫu nhiên cho đến khi bạn có được một tập hợp các số thuận hoặc thử một số lượng lớn các hình thức hồi quy khác nhau và chọn một số có giá trị tốt nhấtR2bất kể các giả định là phù hợp. Nạo vét dữ liệu dường như không phải là điều bạn có thể dễ dàng thực hiện một cách tình cờ.

Tôi nghĩ rằng có một câu hỏi sâu hơn ở đây mặc dù. Làm thế nào để bạn duy trì tính trung lập giống như zen và tránh sai lệch khi xử lý dữ liệu một cách khoa học? Câu trả lời là, bạn không. Hay đúng hơn, bạn không phải. Hình thành linh cảm và giả thuyết và xây dựng một tường thuật tinh thần về ý nghĩa của dữ liệu, hoàn toàn tự nhiên và có thể chấp nhận được, miễn là bạn biết rằng bạn đang làm như vậy và chuẩn bị tinh thần để xem xét lại tất cả các giả thuyết này khi đối mặt với dữ liệu mâu thuẫn.


7
Trực quan hóa dữ liệu trước khi chạy thử nghiệm có thể là vô hại trong trường hợp cụ thể này. Tuy nhiên, người ta sẽ tiếp tục hình dung ra một chiều khác ... và một chiều khác ... và nhìn vào các biểu đồ tán xạ ... và không lâu nữa, người ta sẽ tìm thấy một cái gì đó có vẻ "đủ rõ ràng" để một bài kiểm tra chính thức và một bài tường thuật diễn ra một cách tự nhiên. Ồ vâng, nạo vét dữ liệu chắc chắn là điều mà bạn có thể dễ dàng làm một cách tình cờ. Xem "Khu vườn tìm đường" của Gelman .
S. Kolassa - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.