Hãy để tôi mô tả những gì tôi nhìn thấy ngay khi tôi nhìn vào nó:
Nếu chúng ta quan tâm đến phân phối có điều kiện của (mà nếu thường tập trung vào lợi ích nếu chúng ta xem là IV và là DV), thì đối với , phân phối có điều kiện của xuất hiện lưỡng kim với một nhóm trên ( trong khoảng 70 đến 125, với trung bình một chút dưới 100) và nhóm thấp hơn (từ 0 đến khoảng 70, với trung bình khoảng 30 hoặc hơn). Trong mỗi nhóm phương thức, mối quan hệ với gần như bằng phẳng. (Xem các đường màu đỏ và màu xanh bên dưới được vẽ gần như là nơi tôi đoán cảm giác thô về vị trí)x y x ≤ 0,5 Y | x xyxyx≤0.5Y|xx
Sau đó, bằng cách nhìn vào nơi hai nhóm đó dày đặc hơn hoặc ít hơn trong , chúng ta có thể tiếp tục nói nhiều hơn:X
Với , nhóm trên biến mất hoàn toàn, điều này làm cho giá trị trung bình chung của giảm xuống và khoảng 0,2, nhóm dưới thấp hơn nhiều so với trên, làm cho trung bình tổng thể cao hơn.xx>0.5x
Giữa hai hiệu ứng này, nó tạo ra một mối quan hệ âm tính (nhưng phi tuyến) rõ ràng giữa hai hiệu ứng này, vì dường như đang giảm so với nhưng với một vùng rộng, chủ yếu bằng phẳng ở trung tâm. (Xem đường đứt nét màu tím)xE(Y|X=x)x
Không còn nghi ngờ gì nữa, điều quan trọng là phải biết và là gì, bởi vì sau đó có thể rõ ràng hơn tại sao phân phối có điều kiện cho có thể là lưỡng tính trên phần lớn phạm vi của nó (thực sự, thậm chí có thể thấy rõ rằng thực sự có hai nhóm, có hai nhóm phân phối trong gây ra mối quan hệ giảm rõ ràng trong ).X Y X Y | xYXYXY|x
Đây là những gì tôi thấy dựa trên sự kiểm tra hoàn toàn "bằng mắt". Với một chút chơi xung quanh trong một cái gì đó giống như một chương trình xử lý hình ảnh cơ bản (như chương trình tôi đã vẽ), chúng ta có thể bắt đầu tìm ra một số con số chính xác hơn. Nếu chúng ta số hóa dữ liệu (khá đơn giản với các công cụ tử tế, nếu đôi khi hơi tẻ nhạt để làm đúng), thì chúng ta có thể thực hiện các phân tích tinh vi hơn về loại ấn tượng đó.
Loại phân tích thăm dò này có thể dẫn đến một số câu hỏi quan trọng (đôi khi là những câu hỏi gây ngạc nhiên cho người có dữ liệu nhưng chỉ hiển thị một âm mưu), nhưng chúng ta phải quan tâm đến mức độ mà các mô hình của chúng ta được chọn bởi các kiểm tra như vậy - nếu chúng tôi áp dụng các mô hình được chọn trên cơ sở sự xuất hiện của một âm mưu và sau đó ước tính các mô hình đó trên cùng một dữ liệu, chúng tôi sẽ có xu hướng gặp phải các vấn đề tương tự khi chúng tôi sử dụng lựa chọn và ước lượng mô hình chính thức hơn trên cùng một dữ liệu. [Điều này không phủ nhận tầm quan trọng của phân tích khám phá - chỉ là chúng ta phải cẩn thận với những hậu quả của việc thực hiện nó mà không quan tâm đến cách chúng ta đi về nó. ]
Phản hồi ý kiến của Nga:
[chỉnh sửa sau: Để làm rõ - Tôi đồng ý rộng rãi với những lời chỉ trích của Nga được coi là một biện pháp phòng ngừa chung, và chắc chắn có một số khả năng tôi đã thấy nhiều hơn là thực sự ở đó. Tôi dự định quay lại và chỉnh sửa chúng thành một bài bình luận sâu rộng hơn về các mẫu giả mà chúng ta thường xác định bằng mắt và cách chúng ta có thể bắt đầu để tránh điều tồi tệ nhất. Tôi tin rằng tôi cũng sẽ có thể thêm một số lời biện minh về lý do tại sao tôi nghĩ rằng nó có thể không chỉ giả mạo trong trường hợp cụ thể này (ví dụ: thông qua hồi quy hoặc hạt nhân 0 đơn hàng, mặc dù, tất nhiên, không có thêm dữ liệu để kiểm tra, chỉ có cho đến nay có thể đi được, ví dụ, nếu mẫu của chúng tôi không có tính đại diện, thậm chí việc lấy mẫu lại chỉ đưa chúng ta đến nay.]
Tôi hoàn toàn đồng ý rằng chúng ta có xu hướng nhìn thấy các mẫu giả; đó là một điểm tôi thường xuyên thực hiện cả ở đây và ở nơi khác.
Ví dụ, một điều tôi đề nghị, khi xem xét các lô dư hoặc các lô QQ là tạo ra nhiều lô trong đó tình huống được biết đến (cả hai điều nên và các giả định không giữ) để có được một ý tưởng rõ ràng nên có bao nhiêu mô hình làm ngơ.
Đây là một ví dụ trong đó một cốt truyện QQ được đặt trong số 24 cái khác (thỏa mãn các giả định), để chúng ta thấy âm mưu đó khác thường như thế nào. Loại bài tập này rất quan trọng vì nó giúp chúng ta tránh tự lừa dối bản thân bằng cách diễn giải từng tiếng ngọ nguậy, hầu hết sẽ là tiếng ồn đơn giản.
Tôi thường chỉ ra rằng nếu bạn có thể thay đổi một ấn tượng bằng cách bao quát một vài điểm, chúng ta có thể đang dựa vào một ấn tượng được tạo ra bởi không có gì nhiều hơn tiếng ồn.
[Tuy nhiên, khi rõ ràng từ nhiều điểm chứ không phải một vài điểm, khó có thể duy trì rằng nó không ở đó.]
Hiển thị trong câu trả lời của whuber hỗ trợ ấn tượng của tôi, những âm mưu mờ Gaussian dường như nhặt xu hướng tương tự để bimodality trong .Y
Khi chúng tôi không có nhiều dữ liệu để kiểm tra, ít nhất chúng tôi có thể xem xét liệu ấn tượng có xu hướng tồn tại trong quá trình lấy mẫu lại hay không (khởi động phân phối bivariate và xem liệu nó gần như luôn luôn hiện diện) hay các thao tác khác mà ấn tượng không nên rõ ràng nếu đó là tiếng ồn đơn giản.
1) Đây là một cách để xem liệu lưỡng tính rõ ràng không chỉ là độ lệch cộng với nhiễu - nó có hiển thị trong ước tính mật độ hạt nhân không? Nó vẫn còn hiển thị nếu chúng ta vẽ các ước tính mật độ hạt nhân dưới nhiều biến đổi khác nhau? Ở đây tôi chuyển đổi nó theo hướng đối xứng lớn hơn, ở mức 85% băng thông mặc định (vì chúng tôi đang cố gắng xác định một chế độ tương đối nhỏ và băng thông mặc định không được tối ưu hóa cho tác vụ đó):
Các ô là , và . Các đường thẳng đứng ở , và . Tính chất lưỡng tính bị giảm đi, nhưng vẫn còn khá rõ. Vì nó rất rõ ràng trong KDE ban đầu, nó dường như xác nhận nó ở đó - và các ô thứ hai và thứ ba cho thấy ít nhất nó có phần mạnh mẽ để chuyển đổi.√Y log(Y)68 √Y−−√log(Y)68Nhật ký 68 (68)68−−√log(68)
2) Đây là một cách cơ bản khác để xem liệu nó không chỉ là "tiếng ồn":
Bước 1: thực hiện phân cụm trên Y
Bước 2: Chia thành hai nhóm trên và phân cụm hai nhóm riêng biệt và xem nó có giống nhau không. Nếu không có gì xảy ra ở hai nửa thì không nên chia đôi tất cả như vậy.X
Các điểm có dấu chấm được phân cụm khác với cụm "tất cả trong một bộ" trong âm mưu trước đó. Tôi sẽ làm thêm một số sau, nhưng có vẻ như có thể thực sự có một "chia" ngang gần vị trí đó.
Tôi sẽ thử một hồi quy hoặc công cụ ước tính Nadaraya-Watson (cả hai đều là ước tính cục bộ của hàm hồi quy, ). Tôi chưa tạo ra, nhưng chúng tôi sẽ xem họ đi như thế nào. Có lẽ tôi sẽ loại trừ phần cuối nơi có ít dữ liệu.E(Y|x)
3) Chỉnh sửa: Đây là hồi quy, cho các thùng có chiều rộng 0,1 (không bao gồm các đầu cuối, như tôi đã đề xuất trước đó):
Điều này hoàn toàn phù hợp với ấn tượng ban đầu tôi có về cốt truyện; điều đó không chứng minh lý lẽ của tôi là đúng, nhưng kết luận của tôi đã đi đến kết quả tương tự như hồi quy.
Nếu những gì tôi thấy trong cốt truyện - và lý do kết quả - là giả mạo, có lẽ tôi đã không thành công ở như thế này.E(Y|x)
(Điều tiếp theo để thử sẽ là một công cụ ước tính Nadayara-Watson. Sau đó, tôi có thể thấy nó diễn ra như thế nào nếu tôi có thời gian.)
4) Chỉnh sửa sau:
Nadarya-Watson, hạt nhân Gaussian, băng thông 0,15:
Một lần nữa, điều này đáng ngạc nhiên phù hợp với ấn tượng ban đầu của tôi. Dưới đây là các công cụ ước tính NW dựa trên mười mẫu bootstrap:
Mẫu hình rộng có ở đó, mặc dù một vài mẫu tương tự không theo mô tả rõ ràng dựa trên toàn bộ dữ liệu. Chúng tôi thấy rằng trường hợp mức độ bên trái ít chắc chắn hơn bên phải - mức độ tiếng ồn (một phần từ một số quan sát, một phần từ sự lan rộng) là như vậy ít dễ dàng hơn để khẳng định giá trị trung bình thực sự cao hơn ở còn lại ở trung tâm.
Ấn tượng chung của tôi là có lẽ tôi không đơn giản là tự đánh lừa mình, bởi vì các khía cạnh khác nhau đứng lên ở mức độ vừa phải đối với nhiều thách thức (làm mịn, biến đổi, tách thành các nhóm nhỏ, ghép lại) sẽ có xu hướng che khuất chúng nếu chúng chỉ đơn giản là tiếng ồn. Mặt khác, các dấu hiệu cho thấy các hiệu ứng, mặc dù phù hợp rộng rãi với ấn tượng ban đầu của tôi, là tương đối yếu, và có thể là quá nhiều để yêu cầu bất kỳ thay đổi thực sự trong kỳ vọng chuyển từ bên trái sang trung tâm.