Tạp chí Khoa học đã chứng thực Phân tích Con đường Ngã ba chưa?


29

Ý tưởng của phân tích dữ liệu thích ứng là bạn thay đổi kế hoạch phân tích dữ liệu khi bạn tìm hiểu thêm về nó. Trong trường hợp phân tích dữ liệu thăm dò (EDA), đây thường là một ý tưởng tốt (bạn thường tìm kiếm các mẫu không lường trước được trong dữ liệu), nhưng đối với một nghiên cứu xác nhận, điều này được chấp nhận rộng rãi như một phương pháp phân tích rất thiếu sót (trừ khi tất cả các bước được xác định rõ ràng và được lên kế hoạch đúng đắn trong nâng cao).

Điều đó được cho biết, phân tích dữ liệu thích nghi thường có bao nhiêu nhà nghiên cứu thực sự tiến hành các phân tích của họ, ngỡ ngàng của nhà thống kê. Như vậy, nếu một người có thể làm điều này theo cách hợp lệ thống kê, nó sẽ cách mạng hóa thực tiễn thống kê.

Bài báo Khoa học sau đây tuyên bố đã tìm ra một phương pháp để thực hiện điều đó (tôi xin lỗi về paywall, nhưng nếu bạn đang ở trường đại học, bạn có thể có quyền truy cập): Dwork et al, 2015, Việc giữ lại có thể tái sử dụng: Giữ nguyên tính hợp lệ trong phân tích dữ liệu thích ứng .

Cá nhân tôi, tôi luôn hoài nghi về các bài báo thống kê được xuất bản trên Science , và bài này cũng không khác. Trong thực tế, sau khi đọc qua bài viết hai lần, bao gồm cả tài liệu bổ sung, tôi không thể hiểu (tất cả) lý do tại sao các tác giả cho rằng phương pháp của họ ngăn chặn sự phù hợp quá mức.

Hiểu biết của tôi là họ có một bộ dữ liệu nắm giữ, mà họ sẽ sử dụng lại. Họ dường như tuyên bố bằng cách "làm mờ" đầu ra của phân tích xác nhận trên tập dữ liệu nắm giữ, việc điều chỉnh quá mức sẽ bị ngăn chặn (điều đáng chú ý là việc làm mờ dường như chỉ thêm tiếng ồn nếu thống kê được tính toán trên dữ liệu đào tạo là đủ xa từ thống kê tính toán trên dữ liệu nắm giữ ). Theo như tôi có thể nói, không có lý do thực sự nào để ngăn chặn sự phù hợp quá mức này.

Tôi có nhầm lẫn về những gì các tác giả đang đề xuất? Có một số hiệu ứng tinh tế mà tôi đang xem? Hay Khoa học đã chứng thực thực tiễn thống kê tồi tệ nhất cho đến nay?


2
Những người không có quyền truy cập Khoa học có thể muốn tham khảo bài báo tin tức Khoa học gần đây về cách người ta có thể truy cập các bài báo được trả tiền.
amip nói Phục hồi lại

1
Đây có phải là một bản in sẵn: arxiv.org/pdf/1411.2664.pdf ?
Tim

1
@Tim: bài báo Khoa học trích dẫn bản in bạn đã đăng. Ngoài ra, phần bổ sung tiếng ồn Laplacian có vẻ rất giống nhau, nhưng không giống với các phương pháp trong bài báo được xuất bản.
Vách đá AB

1
@CliffAB để họ có thể sử dụng quyền riêng tư khác biệt để làm cho chúng khác biệt;)
Tim

4
Chủ đề này thực sự là một hướng dẫn tại ICML tháng trước. "Nạo vét dữ liệu nghiêm ngặt: Lý thuyết và công cụ phân tích dữ liệu thích ứng" của một số đồng nghiệp tại google. icml.cc/2016/?page_id=97
horaceT

Câu trả lời:


7

Có một bài đăng blog của các tác giả mô tả điều này ở mức cao.

Để trích dẫn từ sớm trong bài viết đó:

Để giảm số lượng biến số và đơn giản hóa nhiệm vụ của chúng tôi, trước tiên, chúng tôi chọn một số biến tìm kiếm đầy hứa hẹn, ví dụ: các biến có tương quan dương với biến phản ứng (huyết áp tâm thu). Sau đó chúng ta phù hợp với mô hình hồi quy tuyến tính trên các biến đã chọn. Để đo lường mức độ phù hợp của mô hình của chúng tôi, chúng tôi đã tạo ra một bài kiểm tra F tiêu chuẩn từ sách giáo khoa thống kê yêu thích của chúng tôi và báo cáo giá trị p kết quả.

Freedman đã chỉ ra rằng giá trị p được báo cáo rất sai lệch - ngay cả khi dữ liệu hoàn toàn ngẫu nhiên không có mối tương quan nào giữa biến trả lời và điểm dữ liệu, chúng tôi có thể quan sát giá trị p đáng kể! Sự thiên vị bắt nguồn từ việc chúng tôi đã chọn một tập hợp con các biến thích ứng dựa trên dữ liệu, nhưng chúng tôi không bao giờ tính đến thực tế này. Có một số lượng lớn các tập hợp con có thể có của các biến mà chúng tôi đã chọn. Thực tế là chúng tôi đã chọn một thử nghiệm so với thử nghiệm khác bằng cách nhìn trộm dữ liệu sẽ tạo ra sự sai lệch lựa chọn làm mất hiệu lực các giả định bên dưới thử nghiệm F.

Nghịch lý của Freedman mang một bài học quan trọng. Mức độ quan trọng của các thủ tục tiêu chuẩn không nắm bắt được số lượng lớn các phân tích mà người ta có thể chọn để thực hiện hoặc bỏ qua. Vì lý do này, tính thích ứng là một trong những lý giải chính cho lý do tại sao các kết quả nghiên cứu thường sai khi được lập luận bởi Gelman và Loken, người thường coi sự thích nghi là khu vườn của những con đường rèn.

Tôi không thể thấy kỹ thuật của họ giải quyết vấn đề này như thế nào. Vì vậy, để trả lời câu hỏi của bạn, tôi tin rằng họ không giải quyết Khu vườn Ngã ba, và theo nghĩa đó, kỹ thuật của họ sẽ đưa mọi người vào một cảm giác an toàn sai lầm. Không có nhiều khác biệt so với việc nói "Tôi đã sử dụng xác thực chéo" khiến nhiều người - những người đã sử dụng CV không lồng nhau - vào một cảm giác an toàn sai lầm.

Dường như với tôi, phần lớn các bài đăng trên blog chỉ ra kỹ thuật của họ như là một câu trả lời tốt hơn về cách giữ cho những người tham gia cuộc thi theo phong cách Kaggle không leo lên độ dốc của bộ thử nghiệm. Điều này rất hữu ích, nhưng không trực tiếp giải quyết các Đường dẫn Ngã ba. Cảm giác như nó có hương vị của Wolfram và Khoa học mới của Google, nơi một lượng lớn dữ liệu sẽ chiếm lấy. Câu chuyện kể đó có một bản thu âm hỗn hợp, và tôi luôn hoài nghi về phép thuật tự động.


3

Tôi chắc chắn rằng tôi đã đơn giản hóa quá mức kỹ thuật bảo mật khác biệt này ở đây, nhưng ý tưởng này có ý nghĩa ở mức độ cao.

Khi bạn nhận được một thuật toán để đưa ra kết quả tốt (wow, độ chính xác trong bộ thử nghiệm của tôi đã thực sự được cải thiện), bạn không muốn chuyển đến kết luận ngay lập tức. Bạn muốn chấp nhận nó chỉ khi cải tiến lớn hơn đáng kể so với thuật toán trước đó. Đó là lý do để thêm tiếng ồn.

EDIT: Blog này có giải thích tốt và mã R để giới thiệu hiệu quả của trình thêm tiếng ồn, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


Nhưng đó không phải là một cải tiến so với việc nói "Tôi sẽ chỉ chấp nhận các hiệu ứng ước tính " ... sẽ không ngăn được sự phù hợp (mặc dù nó sẽ làm giảm nhẹ nó). Điều thú vị là, trong các ô riêng của họ, bạn có thể thấy bằng chứng về sự phù hợp (lỗi được báo cáo thấp hơn một cách có hệ thống trên dữ liệu tạm giữ so với dữ liệu mới). >τ
Vách đá AB

1
@CliffAB Tôi có cùng cảm giác cằn nhằn tại sao điều này hoạt động tốt hơn chỉ là một ngưỡng đơn giản. Nhưng họ có bằng chứng!
horaceT

... ngoại trừ ví dụ của chính họ không phù hợp với yêu cầu ngăn chặn sự phù hợp của họ và phù hợp với những gì tôi mong đợi kết quả là từ "Tôi sẽ chỉ chấp nhận các hiệu ứng ước tính ". >τ
Vách đá AB

@CliffAB Bạn có thể giải thích? Ở đâu? Đó là một khả năng hấp dẫn ....
horaceT

Sử dụng các trang chiếu từ liên kết trước đó của bạn ( icml.cc/2016/?page_id=97 ), trên các trang trình bày 72 và 73, ngay cả khi sử dụng phương pháp "Ngưỡng", độ chính xác giữ lại lớn hơn dữ liệu mới trong mỗi mô phỏng, mặc dù nó làm tốt hơn "tiêu chuẩn" (đây thực sự là "lạm dụng tiêu chuẩn của bộ dữ liệu xác nhận", không phải là một quy trình thống kê hợp lệ thực tế). FYI, cốt truyện xuất hiện trên các slide giống như trong bài báo Khoa học (chỉ trong trường hợp bạn không có quyền truy cập).
Vách đá AB

3

Khiếu nại rằng việc thêm tiếng ồn giúp ngăn chặn quá mức thực sự giữ nước ở đây, vì những gì họ thực sự đang làm là hạn chế cách thức sử dụng lại . Phương pháp của họ thực sự có hai điều: nó giới hạn số lượng câu hỏi có thể được hỏi về việc nắm giữ và bao nhiêu câu trả lời tiết lộ về dữ liệu nắm giữ.

Có thể giúp hiểu được điểm chuẩn là gì: một trong tay, bạn chỉ có thể nhấn mạnh rằng việc giữ lại chỉ được sử dụng một lần. Điều đó có nhược điểm rõ ràng. Mặt khác, nếu bạn muốn để có thể sử dụng người hết lần, bạn có thể chặt nó vào mảnh rời nhau, và sử dụng từng mảnh một lần. Vấn đề với phương pháp đó là nó mất rất nhiều năng lượng (nếu bạn có điểm dữ liệu trong mẫu nắm giữ của mình để bắt đầu, bây giờ bạn sẽ có được sức mạnh thống kê chỉ của các mẫu ).k n n / kkknn/k

Các Dwork et al giấy đưa ra một phương pháp đó, ngay cả với adversarially câu hỏi đặt ra, mang đến cho bạn một kích thước mẫu có hiệu quả về cho mỗi câu hỏi mà bạn hỏi. Hơn nữa, họ có thể làm tốt hơn nếu các câu hỏi "không quá khó chịu" (theo nghĩa hơi khó để xác định, vì vậy hãy bỏ qua điều đó ngay bây giờ). kn/kk

Trọng tâm của phương pháp của họ là mối quan hệ giữa tính ổn định của thuật toán và tính quá mức, xuất hiện từ cuối những năm 1970 (Devroye và Wagner 1978). Một cách thô bạo, nó nói

"Đặt là thuật toán lấy tập dữ liệu làm đầu vào và xuất mô tả của một vị từ . Nếu " ổn định "và được rút ra từ dân số , thì tần số thực nghiệm của trong gần bằng tần số của trong dân số "X q = A ( X ) A X P q x q PAXq=A(X)AXPqxqP

Dwork et al. đề nghị sử dụng khái niệm về tính ổn định để kiểm soát cách phân phối câu trả lời thay đổi khi tập dữ liệu thay đổi (được gọi là quyền riêng tư khác biệt). Nó có thuộc tính hữu ích là nếu là riêng tư khác nhau, thì , đối với bất kỳ chức năng . Nói cách khác, để phân tích ổn định để đi qua, vị từ không phải là đầu ra của --- bất kỳ vị ngữ có nguồn gốc từ đầu ra 's cũng sẽ được hưởng cùng một loại bảo lãnh.f ( A ( ) ) f q Một MộtA()f(A())fqAA

Hiện tại có khá nhiều bài báo phân tích các quy trình bổ sung tiếng ồn khác nhau kiểm soát quá mức. Một cái tương đối dễ đọc là của Russo và Zou ( https://arxiv.org/abs/1511.05219 ). Một số tài liệu tiếp theo gần đây về công việc ban đầu của Dwork et al. cũng có thể hữu ích để xem xét. (Tuyên bố miễn trừ trách nhiệm: Tôi có hai bài viết về chủ đề này, bài gần đây giải thích về mối liên hệ với thử nghiệm giả thuyết thích ứng: https://arxiv.org/abs/1604.03924 .)

Mong rằng tất cả sẽ giúp.


0

Tôi phản đối câu thứ hai của bạn. Ý tưởng rằng kế hoạch phân tích dữ liệu hoàn chỉnh của một người nên được xác định trước là không chính đáng, ngay cả trong một môi trường mà bạn đang cố gắng xác nhận một giả thuyết khoa học có từ trước. Ngược lại, bất kỳ phân tích dữ liệu phong nha sẽ yêu cầu một số chú ý đến dữ liệu thực tế đã được mua lại. Các nhà nghiên cứu tin rằng nói chung là các nhà nghiên cứu tin rằng thử nghiệm quan trọng là khởi đầu và kết thúc phân tích dữ liệu, với rất ít vai trò của thống kê mô tả, sơ đồ, ước tính, dự đoán, lựa chọn mô hình, v.v. sửa chữa các kế hoạch phân tích của một người trước có ý nghĩa hơn bởi vì những cách thông thường trong đó p-giá trị được tính toán yêu cầu kích thước mẫu và các thử nghiệm được tiến hành phải được quyết định trước khi xem bất kỳ dữ liệu nào. Yêu cầu này cản trở nhà phân tích, và do đó là một trong nhiều lý do chính đáng để không sử dụng các bài kiểm tra quan trọng.

Bạn có thể phản đối việc cho phép nhà phân tích chọn phải làm gì sau khi thấy dữ liệu cho phép quá mức. Nó có, nhưng một nhà phân tích giỏi sẽ hiển thị tất cả các phân tích họ đã thực hiện, nói rõ ràng thông tin nào trong dữ liệu được sử dụng để đưa ra quyết định phân tích và sử dụng các phương pháp như xác thực chéo một cách thích hợp. Ví dụ, nói chung là tốt để mã hóa lại các biến dựa trên phân phối giá trị thu được, nhưng chọn một số phân tích 3 dự đoán trong số 100 có liên kết quan sát gần nhất với biến phụ thuộc có nghĩa là các ước tính liên kết sẽ được tích cực thiên vị, theo nguyên tắc hồi quy trung bình. Nếu bạn muốn thực hiện lựa chọn biến trong ngữ cảnh dự đoán, bạn cần chọn các biến trong các nếp gấp xác thực chéo hoặc chỉ sử dụng dữ liệu huấn luyện.


2
Tôi tin rằng rất nhiều những gì bạn đang đề xuất phù hợp với lĩnh vực phân tích dữ liệu khám phá (EDA), mà tôi đã chứng thực các phương pháp phân tích dữ liệu thích ứng. Tôi cũng nghĩ rằng EDA bị đánh giá thấp và nên được cấp thêm tín dụng. Nhưng tất cả điều này là trực giao cho câu hỏi, đó là "Các tác giả này có thực sự cho phép chúng tôi sử dụng lại dữ liệu xác nhận để lựa chọn mô hình trong một phương pháp hợp lệ không?" Câu cuối cùng của bạn cho thấy rằng bạn, giống như tôi, có phần hoài nghi về những phát hiện như vậy.
Vách đá AB

Tôi không nghĩ, ví dụ như ước tính vốn là thăm dò, không. Nếu bạn có một giả thuyết khoa học nói rằng chiều dài tối đa của một con cá sấu phải là 12 feet và bạn cố gắng ước tính chiều dài tối đa của một con cá sấu để kiểm tra điều này, thì bạn đang thực hiện phân tích xác nhận.
Chuyên gia Kodi

2
+1, mặc dù có ba downvote hiện có. Tôi đồng ý với ý chính của câu trả lời này (câu thứ 2 của bạn), mặc dù tôi hoàn toàn biết rằng nó khá gây tranh cãi. Nói chung, tôi nghĩ rằng sự khác biệt giữa phân tích thăm dò và phân tích xác nhận được đánh giá cao; phân tích thực tế thường ở đâu đó ở giữa. Điều đó nói rằng, tôi không nghĩ rằng bạn đã trả lời (hoặc thậm chí cố gắng trả lời) câu hỏi của OP về Dwork et al. giấy.
amip nói phục hồi Monica

@amoeba "Tôi không nghĩ bạn đã trả lời (hoặc thậm chí đã cố gắng trả lời) Câu hỏi của OP về bài viết của Dwork và cộng sự" - Đúng, mặc dù điều này vẫn có vẻ đáng đăng như một câu trả lời vì nó nghi ngờ về những gì dường như là một tiền đề của câu hỏi
Kodiologist

2
+1 để bình luận của @ amip. Đây sẽ là một nhận xét tuyệt vời cho câu hỏi, nhưng nó không phải là một câu trả lời.
S. Kolassa - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.