Mối quan hệ giữa và trong cốt truyện này là gì?


38

Mối quan hệ giữa và trong cốt truyện sau là gì? Theo quan điểm của tôi có mối quan hệ tuyến tính tiêu cực, nhưng vì chúng ta có nhiều ngoại lệ nên mối quan hệ rất yếu. Tôi có đúng không Tôi muốn tìm hiểu làm thế nào chúng ta có thể giải thích các biểu đồ phân tán. XYX

nhập mô tả hình ảnh ở đây


3
là gì? là gì Quá trình nào bạn sản xuất ngoại lệ? Điều gì khiến bạn nghĩ rằng chúng không phải là số đo thực? Lý thuyết là gì? YXY
abaumann

4
Cám ơn bạn đã góp ý. Tôi chỉ thấy cốt truyện này trong một cuốn sách. Y là biến phụ thuộc và X là biến độc lập. Không có lý thuyết. nó đã vẽ một biểu đồ phân tán để hiển thị mối quan hệ của Y đã cho x. Và có một câu hỏi trong cuốn sách hỏi liệu có mối quan hệ nào hay không, tuyến tính hay phi tuyến? Mạnh hay yếu?
PSS

7
Đây là một bài tập trong tasseography . Điều này rất phổ biến trong số các nhà giao dịch hàng ngày, và họ gọi nó là phân tích kỹ thuật . Về cơ bản, không biết gì về bản chất của dữ liệu, đó là một bài tập không có kết quả
Aksakal

1
@chl bạn rock vì đã quyên góp tiền thưởng cho whuber =)
Cam.Davidson.Pilon

3
@Aksakal Ngôn ngữ thống kê thường hiểu "mối quan hệ" theo nghĩa đen: như mô tả các bộ số. Ví dụ, một hệ số tương quan mô tả một mối quan hệ. Không có hàm ý về nguồn gốc, bản chất hoặc mối liên hệ nhân quả giữa các biến cơ bản. Tôi đồng ý với bạn rằng "giải thích" thường được hiểu theo nghĩa sâu sắc hơn, nhưng vì các mối quan hệ được nhấn mạnh quá nhiều trong câu hỏi, tôi nghĩ thật công bằng khi không đẩy nghĩa đen của "giải thích" quá xa. Đề xuất rằng mô tả các biểu đồ tán xạ chỉ là cách đọc lá trà đi quá xa, IMHO.
whuber

Câu trả lời:


50

Câu hỏi liên quan đến một số khái niệm: làm thế nào để đánh giá dữ liệu chỉ được cung cấp dưới dạng biểu đồ phân tán, cách tóm tắt một biểu đồ phân tán và liệu (và ở mức độ nào) một mối quan hệ có vẻ tuyến tính. Hãy đưa chúng theo thứ tự.

Đánh giá dữ liệu đồ họa

Sử dụng các nguyên tắc phân tích dữ liệu thăm dò (EDA). Chúng (ít nhất là ban đầu, khi chúng được phát triển để sử dụng bằng bút chì) nhấn mạnh vào các bản tóm tắt dữ liệu đơn giản, dễ tính, mạnh mẽ. Một trong những loại tóm tắt rất đơn giản nhất dựa trên các vị trí trong một tập hợp số, chẳng hạn như giá trị trung bình, mô tả giá trị "điển hình". Middles dễ dàng ước tính đáng tin cậy từ đồ họa.

Scatterplots trưng bày các cặp số. Đầu tiên của mỗi cặp (như được vẽ trên trục hoành) đưa ra một tập hợp các số đơn, chúng ta có thể tóm tắt riêng.

Trong biểu đồ phân tán cụ thể này, các giá trị y dường như nằm trong hai nhóm gần như hoàn toàn tách biệt : các giá trị trên ở trên cùng và các giá trị bằng hoặc nhỏ hơn ở dưới cùng. (Ấn tượng này được xác nhận bằng cách vẽ biểu đồ của các giá trị y, rất đơn giản, nhưng đó sẽ là rất nhiều công việc ở giai đoạn này.) Tôi mời những người hoài nghi nheo mắt nhìn vào biểu đồ tán xạ. Khi tôi thực hiện - sử dụng độ mờ Gaussian được điều chỉnh gamma bán kính lớn (nghĩa là kết quả xử lý hình ảnh nhanh tiêu chuẩn) của các chấm trong biểu đồ phân tán, tôi thấy điều này:606060

Hình 0

Hai nhóm - trên và dưới - là khá rõ ràng. (Nhóm trên nhẹ hơn nhiều so với nhóm dưới vì nó chứa nhiều chấm ít hơn.)

Theo đó, hãy tóm tắt các nhóm giá trị y một cách riêng biệt. Tôi sẽ làm điều đó bằng cách vẽ các đường ngang ở giữa của hai nhóm. Để nhấn mạnh ấn tượng của dữ liệu và cho thấy chúng tôi không thực hiện bất kỳ loại tính toán nào, tôi đã (a) xóa tất cả các trang trí như trục và đường lưới và (b) làm mờ các điểm. Ít thông tin về các mẫu trong dữ liệu bị mất do đó "nheo mắt" tại đồ họa:

Nhân vật

Tương tự, tôi đã cố gắng đánh dấu các giá trị trung bình của các giá trị x bằng các phân đoạn dọc. Ở nhóm trên (đường màu đỏ), bạn có thể kiểm tra - bằng cách đếm các đốm màu - rằng các đường này thực sự tách nhóm thành hai nửa bằng nhau, cả theo chiều ngang và chiều dọc. Trong nhóm thấp hơn (đường màu xanh) tôi chỉ ước tính trực quan các vị trí mà không thực sự đếm.

Đánh giá mối quan hệ: Hồi quy

Các điểm giao nhau là trung tâm của hai nhóm. Một bản tóm tắt xuất sắc về mối quan hệ giữa các giá trị x và y sẽ là báo cáo các vị trí trung tâm này. Sau đó, người ta sẽ muốn bổ sung bản tóm tắt này bằng một mô tả về lượng dữ liệu được lan truyền trong mỗi nhóm - sang trái và phải, trên và dưới - xung quanh trung tâm của họ. Để cho ngắn gọn, tôi sẽ không làm điều đó ở đây, nhưng lưu ý rằng (đại khái) độ dài của các đoạn đường tôi đã vẽ phản ánh mức chênh lệch tổng thể của mỗi nhóm.

Cuối cùng, tôi đã vẽ một đường (nét đứt) nối hai trung tâm. Đây là một đường hồi quy hợp lý. Nó có phải là một mô tả tốt của dữ liệu? Chắc chắn là không: hãy tìm cách lan truyền dữ liệu xung quanh dòng này. Nó thậm chí là bằng chứng của tuyến tính? Điều đó hiếm khi liên quan vì mô tả tuyến tính rất kém. Tuy nhiên, vì đó là câu hỏi trước chúng ta, hãy giải quyết nó.

Đánh giá tuyến tính

Một mối quan hệ là tuyến tính theo nghĩa thống kê khi một trong hai giá trị y khác nhau trong một thời trang ngẫu nhiên cân bằng xung quanh một dòng hoặc các giá trị x được nhìn thấy thay đổi một cách ngẫu nhiên cân bằng xung quanh một dòng (hoặc cả hai).

Cái trước dường như không phải là trường hợp ở đây: bởi vì các giá trị y dường như rơi vào hai nhóm, biến thể của chúng sẽ không bao giờ trông cân bằng theo nghĩa được phân phối đối xứng một cách gần như trên hoặc dưới dòng. (Điều đó ngay lập tức loại trừ khả năng bỏ dữ liệu vào gói hồi quy tuyến tính và thực hiện một phép tính bình phương nhỏ nhất của y so với x: các câu trả lời sẽ không liên quan.)

Điều gì về sự thay đổi trong x? Điều đó hợp lý hơn: ở mỗi độ cao trên cốt truyện, sự phân tán ngang của các điểm xung quanh đường chấm chấm là khá cân bằng. Các chênh lệch trong phân tán này có vẻ là một lớn hơn chút ở những độ cao thấp hơn (giá trị y thấp), nhưng có lẽ đó là bởi vì có rất nhiều điểm hơn ở đó. (Bạn càng có nhiều dữ liệu ngẫu nhiên, các giá trị cực trị của chúng sẽ càng rộng hơn.)

Hơn nữa, khi chúng ta quét từ trên xuống dưới, không có nơi nào phân tán ngang xung quanh đường hồi quy bị mất cân bằng mạnh: đó sẽ là bằng chứng của sự phi tuyến tính. (Chà, có thể khoảng y = 50 hoặc hơn có thể có quá nhiều giá trị x lớn. Hiệu ứng tinh tế này có thể được lấy làm bằng chứng nữa cho việc chia dữ liệu thành hai nhóm xung quanh giá trị y = 60.)

Kết luận

Chúng tôi đã thấy rằng

  • Thật ý nghĩa khi xem x là một hàm tuyến tính của y cộng với một số biến thể ngẫu nhiên "đẹp".

  • không có ý nghĩa để xem y như một hàm tuyến tính của x cộng với sự thay đổi ngẫu nhiên.

  • Một đường hồi quy có thể được ước tính bằng cách tách dữ liệu thành một nhóm các giá trị y cao và một nhóm các giá trị y thấp, tìm trung tâm của cả hai nhóm bằng cách sử dụng trung bình và kết nối các trung tâm đó.

  • Đường kết quả có độ dốc xuống, biểu thị mối quan hệ tuyến tính âm .

  • Không có sự khởi hành mạnh mẽ từ tuyến tính.

  • Tuy nhiên, vì mức chênh lệch của các giá trị x xung quanh dòng vẫn còn lớn (so với mức chênh lệch chung của các giá trị x bắt đầu), chúng tôi sẽ phải mô tả mối quan hệ tuyến tính âm này là "rất yếu".

  • Có thể hữu ích hơn khi mô tả dữ liệu khi hình thành hai đám mây hình bầu dục (một cho y trên 60 và một cho các giá trị thấp hơn của y). Trong mỗi đám mây có rất ít mối quan hệ có thể phát hiện được giữa x và y. Tâm của các đám mây ở gần (0,29, 90) và (0,38, 30). Các đám mây có mức chênh lệch tương đương, nhưng đám mây phía trên có dữ liệu ít hơn nhiều so với đám mây thấp hơn (có thể là 20%).

Hai trong số các kết luận này xác nhận những người đưa ra trong câu hỏi rằng có mối quan hệ tiêu cực yếu. Những người khác bổ sung và hỗ trợ những kết luận.

Một kết luận được rút ra trong câu hỏi dường như không giữ được là sự khẳng định rằng có "ngoại lệ". Một cuộc kiểm tra cẩn thận hơn (như được phác họa dưới đây) sẽ không thể đưa ra bất kỳ điểm riêng lẻ nào, hoặc thậm chí các nhóm điểm nhỏ, có thể được coi là hợp lệ. Sau khi phân tích đủ dài, có thể thu hút sự chú ý của một người vào hai điểm gần giữa bên phải hoặc một điểm ở góc dưới bên trái, nhưng ngay cả những điều này sẽ không thay đổi đánh giá dữ liệu của một người nhiều, cho dù họ có được xem xét hay không hẻo lánh.


Hướng dẫn thêm

Nhiều hơn có thể nói. Các bước tiếp theo sẽ là đánh giá sự lây lan của những đám mây đó. Mối quan hệ giữa x và y trong mỗi hai đám mây có thể được đánh giá riêng, sử dụng các kỹ thuật tương tự được hiển thị ở đây. Sự không đối xứng nhỏ của đám mây thấp hơn (dường như nhiều dữ liệu xuất hiện ở các giá trị y nhỏ nhất) có thể được đánh giá và thậm chí điều chỉnh bằng cách thể hiện lại các giá trị y (căn bậc hai có thể hoạt động tốt). Ở giai đoạn này, sẽ hợp lý hơn khi tìm kiếm dữ liệu bên ngoài, bởi vì tại thời điểm này, mô tả sẽ bao gồm thông tin về các giá trị dữ liệu điển hình cũng như mức chênh lệch của chúng; các ngoại lệ (theo định nghĩa) sẽ là quá xa so với giữa để được giải thích về mức độ lây lan quan sát được.

Không có công việc nào - khá định lượng - đòi hỏi nhiều hơn là tìm ra các nhóm dữ liệu và thực hiện một số tính toán đơn giản với chúng, do đó có thể được thực hiện nhanh chóng và chính xác ngay cả khi dữ liệu chỉ có sẵn ở dạng đồ họa. Mọi kết quả được báo cáo ở đây - bao gồm các giá trị định lượng - có thể dễ dàng tìm thấy trong vài giây bằng cách sử dụng hệ thống hiển thị (chẳng hạn như bản cứng và bút chì :-)) cho phép người ta đánh dấu ánh sáng lên trên đồ họa.


4
Ồ Tôi sẽ không bao giờ thấy hai nhóm đó và dòng kết quả. Và tôi nghi ngờ nó.
rvl

4
@Russ Tôi rất vui khi biết rằng ai đó thắc mắc về khám phá này, bởi vì không có EDA là duy nhất hoặc không có chủ đích. Tôi đã bao gồm một hình ảnh khác để giúp bạn thấy những gì tôi nhìn thấy. Tôi muốn mời bạn đăng một câu trả lời tương tự hoặc nhiều hơn nữa và mô tả hữu ích.
whuber

12
Là con người, chúng ta rất có khuynh hướng tìm thấy các mẫu, ngay cả những mẫu không có ở đó. Tôi nghĩ khá hợp lý khi có được một âm mưu phân tán như cốt truyện chúng ta có ở đây chỉ với hai chiếc RV độc lập, một trong số chúng bị lệch. Tôi không có bằng chứng về điều đó, và tôi không có phân tích thay thế nào để đưa ra - ngoại trừ một trong đó nói rằng có rất ít hoặc không có mối quan hệ. Vâng, có thể là lưỡng kim có mặt. Nếu quá trình có thể được quan sát thêm, chúng ta có thể thấy những gì xảy ra. Tôi chỉ nghĩ rằng chúng ta cần thận trọng và nhận thức được xu hướng của mình để phản ứng với các mô hình giả đáng tin cậy.
rvl

4
@Russ Bạn đúng rồi. Kinh nghiệm là cần thiết để tránh đọc quá nhiều vào các mẫu. Kinh nghiệm của tôi nói rằng với 150-200 điểm, thật khó để có được mức lưỡng tính mạnh mà tôi đo được trong tọa độ y. Trải nghiệm như vậy có thể dễ dàng và nhanh chóng được bổ sung bằng mô phỏng: khi bạn nghĩ rằng bạn nhìn thấy một mẫu, sau đó (1) mô tả nó một cách định lượng và (2) tìm kiếm nó trong các mẫu ngẫu nhiên được tạo ra theo một giả thuyết thay thế đơn giản hơn. Nếu mô hình xuất hiện rất nhiều, thì bạn có thể đổ lỗi cho vỏ thị giác của bạn, nhưng nếu không bạn có thể đã tìm thấy một cái gì đó.
whuber

1
@Russ Cảm ơn bạn. Đó không phải là cốt truyện còn lại mà tôi đã mô tả - vai trò của x và y bị đảo ngược. Tuy nhiên, dù sao nó cũng là thông tin. Tính không đồng nhất là điều nổi bật nhất: nó thực sự dường như cho vay hỗ trợ cho giả thuyết hai cụm (điều này sẽ làm cho tính không đồng nhất biến mất). Nhắc bạn, tôi không biết về giả thuyết đó. Tất cả mọi thứ tôi đã viết ở đây là trên tinh thần ban đầu của mô tả dữ liệu cẩn thận, mạnh mẽ. Bất kỳ đường cong đơn lẻ nào như là một mô tả của các dữ liệu này sẽ là thô và có thể không đạt yêu cầu.
whuber

31

Hãy vui vẻ nào!

Trước hết, tôi đã loại bỏ dữ liệu khỏi biểu đồ của bạn.

Sau đó, tôi đã sử dụng một đường chạy mượt mà hơn để tạo ra đường hồi quy màu đen bên dưới với các dải CI 95% nét đứt có màu xám. Biểu đồ dưới đây cho thấy một khoảng trong một nửa dữ liệu, mặc dù các nhịp chặt hơn tiết lộ ít nhiều chính xác cùng một mối quan hệ. Sự thay đổi nhỏ về độ dốc quanh cho thấy một mối quan hệ có thể được xấp xỉ bằng cách sử dụng mô hình tuyến tính và thêm chức năng bản lề tuyến tính của độ dốc trong hồi quy bình phương nhỏ nhất phi tuyến (đường màu đỏ):XX=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

Các ước tính hệ số là:

Y=50.937.7X26.74436max(X0.46,0)

Tôi sẽ lưu ý rằng mặc dù trình đánh dấu có thể xác định được khẳng định rằng không có mối quan hệ tuyến tính mạnh, nhưng độ lệch so với đường ngụ ý bởi thuật ngữ bản lề theo cùng thứ tự với độ dốc của (tức là 37,7), vì vậy tôi sẽ tôn trọng không đồng ý rằng chúng tôi thấy không có mối quan hệ phi tuyến mạnh mẽ (nghĩa là Có không có mối quan hệ mạnh mẽ, nhưng thuật ngữ phi tuyến tính cũng mạnh như mối quan hệ tuyến tính).XY=50.937.7XX

Chơi thời gian với dữ liệu

Giải thích
(Tôi đã tiến hành giả định rằng bạn chỉ quan tâm đến là biến phụ thuộc.) Các giá trị của được dự đoán rất yếu (với Điều chỉnh- = 0,03). Sự liên kết là xấp xỉ tuyến tính, với độ dốc giảm nhẹ ở khoảng 0,46. Các dư được hơi lệch về bên phải, có lẽ vì là một sắc nét thấp hơn ràng buộc trên các giá trị của . Với cỡ mẫu , tôi có khuynh hướng chịu đựng các vi phạm về tính quy tắc . Nhiều quan sát hơn cho các giá trị sẽ giúp xác định xem sự thay đổi độ dốc là có thật hay là một yếu tố làm giảm phương sai củaY X R 2 Y N = 170 X > 0,5 YYYXR2YN=170X>0.5Y trong phạm vi đó.

Cập nhật với biểu đồ :ln(Y)

(Đường màu đỏ chỉ đơn giản là hồi quy tuyến tính của ln (Y) trên X.)

Được cập nhật với biểu đồ theo đề xuất của Russ Lenth.

Trong các bình luận, Russ Lenth đã viết: "Tôi chỉ tự hỏi liệu điều này có đúng không nếu bạn làm trơn tru so với Sự phân phối của bị sai lệch." Đây là một gợi ý khá hay, vì biến đổi so với cũng cho kết quả phù hợp hơn một chút là đường giữa và với các phần dư được phân bổ đối xứng hơn. Tuy nhiên, cả đề xuất của anh ấy và bản lề tuyến tính của tôi đều có chung sở thích về mối quan hệ giữa và không được mô tả bằng một đường thẳng.X Y log Y X Y X log ( Y ) X Y XlogYXYlogYXYXlog(Y)XYX


1
Tôi chỉ tự hỏi nếu điều này nắm giữ lên nếu bạn mịn so với . Phân phối của bị lệch, và tôi nghĩ rằng một phép biến đổi làm cho phân phối đối xứng hơn sẽ không giống với biểu đồ phân tán null biểu tượng. X YlogYXY
rvl

1
@Russ Điều cổ điển là các bản phân phối lưỡng kim có thể xuất hiện lệch và đề xuất các phép biến đổi nhật ký. Nhưng phân phối y ở đây thực sự là lưỡng kim và một bản ghi có lẽ không phải là một cách hữu ích để thể hiện lại nó. Khi hai thành phần được tách ra, phần dưới vẫn bị lệch dương và một căn bậc hai có giá trị phù hợp để biến đổi nó để có được phân phối đối xứng. Căn bậc hai không ảnh hưởng đáng kể đến tính đối xứng của nhóm trên, cho thấy gốc có thể là một lựa chọn tốt. Tuy nhiên, điều đó không khắc phục được tính lưỡng tính - và trong đó có vấn đề với bất kỳ sự trơn tru nào của loại này.
whuber

1
Alexis, trong câu trả lời của chúng tôi, cả hai chúng tôi đều có tội khi sử dụng "mạnh" theo những cách không xác định. Ý nghĩa trong đó tôi có nghĩa là "yếu" đã được gợi ý trong một số cụm từ của tôi, có nghĩa là chỉ ra rằng độ dốc nhỏ so với độ phân tán trong các giá trị y. Tôi không nghĩ rằng phân tích của bạn đưa ra bất kỳ kết luận khác nhau về vấn đề đó. Tôi cảm thấy cần phải thận trọng vì, chấp nhận giả thuyết rằng có thể có công với mô hình hỗn hợp cho y, có vẻ như ở nhóm trên thực sự có thể có mối quan hệ tích cực yếu giữa x và y và không có mối quan hệ nào ở nhóm dưới.
whuber

3
Cuốn sách EDA của Alexis, Tukey có đầy đủ. Để biết thêm các kỹ thuật (có độ tinh vi cao hơn, với sự biện minh toán học), hãy xem Hoaglin, Mosteller, & Tukey, Hiểu về phân tích dữ liệu mạnh mẽ và khám phá .
whuber

2
@rivu hướng dẫn sử dụng. Mất 10 hoặc 15 phút ngọn. Đặt từng điểm ban đầu bằng con trỏ, sau đó xác định chính xác điểm đó bằng các phím mũi tên.
Alexis

21

Đây là 2 ¢ 1,5 của tôi . Đối với tôi, đặc điểm nổi bật nhất là dữ liệu dừng đột ngột và 'bó lại' ở dưới cùng của phạm vi Y. Tôi thấy hai cụm 'tiềm năng' và liên kết phủ định chung, nhưng các tính năng nổi bật nhất là (tiềm năng) hiệu ứng sàn và thực tế là cụm mật độ thấp, đỉnh chỉ kéo dài trên một phần của phạm vi X.

Bởi vì các 'cụm' mơ hồ có khả năng phân chia bình thường, một mô hình hỗn hợp thông thường tham số có thể rất thú vị để thử. Sử dụng dữ liệu của @Alexis, tôi thấy rằng ba cụm tối ưu hóa BIC. Mật độ cao 'hiệu ứng sàn' được chọn là cụm thứ ba. Mã sau:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

nhập mô tả hình ảnh ở đây

Bây giờ, những gì chúng ta sẽ suy luận từ điều này? Tôi không nghĩ rằng đó Mclustchỉ là sự nhận biết khuôn mẫu của con người. (Trong khi tôi đọc về biểu đồ phân tán có thể là tốt.) Mặt khác, không có câu hỏi rằng đây là hậu-hoc . Tôi thấy những gì tôi nghĩ có thể là một mô hình thú vị và vì vậy quyết định kiểm tra nó. Thuật toán tìm thấy thứ gì đó, nhưng sau đó tôi chỉ kiểm tra những gì tôi nghĩ có thể ở đó để ngón tay cái của tôi chắc chắn nằm trên bàn cân. Đôi khi có thể nghĩ ra một chiến lược để giảm thiểu điều này (xem câu trả lời xuất sắc của @ whuber ở đây ), nhưng tôi không biết làm thế nào để tiến hành một quy trình như vậy trong những trường hợp như thế này. Kết quả là, tôi nhận được những kết quả này với rất nhiều muối (Tôi đã làm điều này đủ thường xuyên đến nỗi ai đó đang thiếu cả một bình lắc). Nó cho tôi một số tài liệu để suy nghĩ và thảo luận với khách hàng của mình khi chúng ta gặp nhau lần sau. Những dữ liệu này là gì? Liệu nó có ý nghĩa rằng có thể có một hiệu ứng sàn? Nó sẽ có ý nghĩa rằng có thể có các nhóm khác nhau? Sẽ có ý nghĩa / đáng ngạc nhiên / thú vị / quan trọng như thế nào nếu những điều này là có thật? Dữ liệu độc lập có tồn tại / chúng ta có thể có được chúng một cách thuận tiện để thực hiện kiểm tra trung thực các khả năng này không? V.v.


1
+1 Để chỉ ra cách phân tích khám phá tự nhiên dẫn đến các câu hỏi thú vị . Tôi ước tôi đã nhấn mạnh điểm đó nhiều hơn trong câu trả lời của tôi. Mặc dù tôi nghĩ rằng sẽ khiến mọi người tin rằng (tại thời điểm này) thực sự có ba nhóm riêng biệt, kết quả cụm vẫn đưa ra một cách hợp lệ để thấy rằng có một mối quan hệ tiêu cực giữa x và y và tóm tắt mối quan hệ đó. Tôi tự hỏi đến mức độ phân cụm tự động ở mức độ nào có thể là một công cụ thăm dò thường hữu ích - miễn là chúng ta không muốn đọc quá nhiều vào kết quả.
whuber

14

Hãy để tôi mô tả những gì tôi nhìn thấy ngay khi tôi nhìn vào nó:

Nếu chúng ta quan tâm đến phân phối có điều kiện của (mà nếu thường tập trung vào lợi ích nếu chúng ta xem là IV và là DV), thì đối với , phân phối có điều kiện của xuất hiện lưỡng kim với một nhóm trên ( trong khoảng 70 đến 125, với trung bình một chút dưới 100) và nhóm thấp hơn (từ 0 đến khoảng 70, với trung bình khoảng 30 hoặc hơn). Trong mỗi nhóm phương thức, mối quan hệ với gần như bằng phẳng. (Xem các đường màu đỏ và màu xanh bên dưới được vẽ gần như là nơi tôi đoán cảm giác thô về vị trí)x y x 0,5 Y | x xyxyx0.5Y|xx

Sau đó, bằng cách nhìn vào nơi hai nhóm đó dày đặc hơn hoặc ít hơn trong , chúng ta có thể tiếp tục nói nhiều hơn:X

Với , nhóm trên biến mất hoàn toàn, điều này làm cho giá trị trung bình chung của giảm xuống và khoảng 0,2, nhóm dưới thấp hơn nhiều so với trên, làm cho trung bình tổng thể cao hơn.xx>0.5x

Giữa hai hiệu ứng này, nó tạo ra một mối quan hệ âm tính (nhưng phi tuyến) rõ ràng giữa hai hiệu ứng này, vì dường như đang giảm so với nhưng với một vùng rộng, chủ yếu bằng phẳng ở trung tâm. (Xem đường đứt nét màu tím)xE(Y|X=x)x

nhập mô tả hình ảnh ở đây

Không còn nghi ngờ gì nữa, điều quan trọng là phải biết và là gì, bởi vì sau đó có thể rõ ràng hơn tại sao phân phối có điều kiện cho có thể là lưỡng tính trên phần lớn phạm vi của nó (thực sự, thậm chí có thể thấy rõ rằng thực sự có hai nhóm, có hai nhóm phân phối trong gây ra mối quan hệ giảm rõ ràng trong ).X Y X Y | xYXYXY|x

Đây là những gì tôi thấy dựa trên sự kiểm tra hoàn toàn "bằng mắt". Với một chút chơi xung quanh trong một cái gì đó giống như một chương trình xử lý hình ảnh cơ bản (như chương trình tôi đã vẽ), chúng ta có thể bắt đầu tìm ra một số con số chính xác hơn. Nếu chúng ta số hóa dữ liệu (khá đơn giản với các công cụ tử tế, nếu đôi khi hơi tẻ nhạt để làm đúng), thì chúng ta có thể thực hiện các phân tích tinh vi hơn về loại ấn tượng đó.

Loại phân tích thăm dò này có thể dẫn đến một số câu hỏi quan trọng (đôi khi là những câu hỏi gây ngạc nhiên cho người có dữ liệu nhưng chỉ hiển thị một âm mưu), nhưng chúng ta phải quan tâm đến mức độ mà các mô hình của chúng ta được chọn bởi các kiểm tra như vậy - nếu chúng tôi áp dụng các mô hình được chọn trên cơ sở sự xuất hiện của một âm mưu và sau đó ước tính các mô hình đó trên cùng một dữ liệu, chúng tôi sẽ có xu hướng gặp phải các vấn đề tương tự khi chúng tôi sử dụng lựa chọn và ước lượng mô hình chính thức hơn trên cùng một dữ liệu. [Điều này không phủ nhận tầm quan trọng của phân tích khám phá - chỉ là chúng ta phải cẩn thận với những hậu quả của việc thực hiện nó mà không quan tâm đến cách chúng ta đi về nó. ]


Phản hồi ý kiến ​​của Nga:

[chỉnh sửa sau: Để làm rõ - Tôi đồng ý rộng rãi với những lời chỉ trích của Nga được coi là một biện pháp phòng ngừa chung, và chắc chắn có một số khả năng tôi đã thấy nhiều hơn là thực sự ở đó. Tôi dự định quay lại và chỉnh sửa chúng thành một bài bình luận sâu rộng hơn về các mẫu giả mà chúng ta thường xác định bằng mắt và cách chúng ta có thể bắt đầu để tránh điều tồi tệ nhất. Tôi tin rằng tôi cũng sẽ có thể thêm một số lời biện minh về lý do tại sao tôi nghĩ rằng nó có thể không chỉ giả mạo trong trường hợp cụ thể này (ví dụ: thông qua hồi quy hoặc hạt nhân 0 đơn hàng, mặc dù, tất nhiên, không có thêm dữ liệu để kiểm tra, chỉ có cho đến nay có thể đi được, ví dụ, nếu mẫu của chúng tôi không có tính đại diện, thậm chí việc lấy mẫu lại chỉ đưa chúng ta đến nay.]

Tôi hoàn toàn đồng ý rằng chúng ta có xu hướng nhìn thấy các mẫu giả; đó là một điểm tôi thường xuyên thực hiện cả ở đây và ở nơi khác.

Ví dụ, một điều tôi đề nghị, khi xem xét các lô dư hoặc các lô QQ là tạo ra nhiều lô trong đó tình huống được biết đến (cả hai điều nên và các giả định không giữ) để có được một ý tưởng rõ ràng nên có bao nhiêu mô hình làm ngơ.

Đây là một ví dụ trong đó một cốt truyện QQ được đặt trong số 24 cái khác (thỏa mãn các giả định), để chúng ta thấy âm mưu đó khác thường như thế nào. Loại bài tập này rất quan trọng vì nó giúp chúng ta tránh tự lừa dối bản thân bằng cách diễn giải từng tiếng ngọ nguậy, hầu hết sẽ là tiếng ồn đơn giản.

Tôi thường chỉ ra rằng nếu bạn có thể thay đổi một ấn tượng bằng cách bao quát một vài điểm, chúng ta có thể đang dựa vào một ấn tượng được tạo ra bởi không có gì nhiều hơn tiếng ồn.

[Tuy nhiên, khi rõ ràng từ nhiều điểm chứ không phải một vài điểm, khó có thể duy trì rằng nó không ở đó.]

Hiển thị trong câu trả lời của whuber hỗ trợ ấn tượng của tôi, những âm mưu mờ Gaussian dường như nhặt xu hướng tương tự để bimodality trong .Y

Khi chúng tôi không có nhiều dữ liệu để kiểm tra, ít nhất chúng tôi có thể xem xét liệu ấn tượng có xu hướng tồn tại trong quá trình lấy mẫu lại hay không (khởi động phân phối bivariate và xem liệu nó gần như luôn luôn hiện diện) hay các thao tác khác mà ấn tượng không nên rõ ràng nếu đó là tiếng ồn đơn giản.

1) Đây là một cách để xem liệu lưỡng tính rõ ràng không chỉ là độ lệch cộng với nhiễu - nó có hiển thị trong ước tính mật độ hạt nhân không? Nó vẫn còn hiển thị nếu chúng ta vẽ các ước tính mật độ hạt nhân dưới nhiều biến đổi khác nhau? Ở đây tôi chuyển đổi nó theo hướng đối xứng lớn hơn, ở mức 85% băng thông mặc định (vì chúng tôi đang cố gắng xác định một chế độ tương đối nhỏ và băng thông mặc định không được tối ưu hóa cho tác vụ đó):

nhập mô tả hình ảnh ở đây

Các ô là , và . Các đường thẳng đứng ở , và . Tính chất lưỡng tính bị giảm đi, nhưng vẫn còn khá rõ. Vì nó rất rõ ràng trong KDE ban đầu, nó dường như xác nhận nó ở đó - và các ô thứ hai và thứ ba cho thấy ít nhất nó có phần mạnh mẽ để chuyển đổi.Y log(Y)68Ylog(Y)68Nhật ký 68 (68)68log(68)

2) Đây là một cách cơ bản khác để xem liệu nó không chỉ là "tiếng ồn":

Bước 1: thực hiện phân cụm trên Y

nhập mô tả hình ảnh ở đây

Bước 2: Chia thành hai nhóm trên và phân cụm hai nhóm riêng biệt và xem nó có giống nhau không. Nếu không có gì xảy ra ở hai nửa thì không nên chia đôi tất cả như vậy.X

nhập mô tả hình ảnh ở đây

Các điểm có dấu chấm được phân cụm khác với cụm "tất cả trong một bộ" trong âm mưu trước đó. Tôi sẽ làm thêm một số sau, nhưng có vẻ như có thể thực sự có một "chia" ngang gần vị trí đó.

Tôi sẽ thử một hồi quy hoặc công cụ ước tính Nadaraya-Watson (cả hai đều là ước tính cục bộ của hàm hồi quy, ). Tôi chưa tạo ra, nhưng chúng tôi sẽ xem họ đi như thế nào. Có lẽ tôi sẽ loại trừ phần cuối nơi có ít dữ liệu.E(Y|x)

3) Chỉnh sửa: Đây là hồi quy, cho các thùng có chiều rộng 0,1 (không bao gồm các đầu cuối, như tôi đã đề xuất trước đó):

nhập mô tả hình ảnh ở đây

Điều này hoàn toàn phù hợp với ấn tượng ban đầu tôi có về cốt truyện; điều đó không chứng minh lý lẽ của tôi là đúng, nhưng kết luận của tôi đã đi đến kết quả tương tự như hồi quy.

Nếu những gì tôi thấy trong cốt truyện - và lý do kết quả - là giả mạo, có lẽ tôi đã không thành công ở như thế này.E(Y|x)

(Điều tiếp theo để thử sẽ là một công cụ ước tính Nadayara-Watson. Sau đó, tôi có thể thấy nó diễn ra như thế nào nếu tôi có thời gian.)

4) Chỉnh sửa sau:

Nadarya-Watson, hạt nhân Gaussian, băng thông 0,15:

nhập mô tả hình ảnh ở đây

Một lần nữa, điều này đáng ngạc nhiên phù hợp với ấn tượng ban đầu của tôi. Dưới đây là các công cụ ước tính NW dựa trên mười mẫu bootstrap:

nhập mô tả hình ảnh ở đây

Mẫu hình rộng có ở đó, mặc dù một vài mẫu tương tự không theo mô tả rõ ràng dựa trên toàn bộ dữ liệu. Chúng tôi thấy rằng trường hợp mức độ bên trái ít chắc chắn hơn bên phải - mức độ tiếng ồn (một phần từ một số quan sát, một phần từ sự lan rộng) là như vậy ít dễ dàng hơn để khẳng định giá trị trung bình thực sự cao hơn ở còn lại ở trung tâm.

Ấn tượng chung của tôi là có lẽ tôi không đơn giản là tự đánh lừa mình, bởi vì các khía cạnh khác nhau đứng lên ở mức độ vừa phải đối với nhiều thách thức (làm mịn, biến đổi, tách thành các nhóm nhỏ, ghép lại) sẽ có xu hướng che khuất chúng nếu chúng chỉ đơn giản là tiếng ồn. Mặt khác, các dấu hiệu cho thấy các hiệu ứng, mặc dù phù hợp rộng rãi với ấn tượng ban đầu của tôi, là tương đối yếu, và có thể là quá nhiều để yêu cầu bất kỳ thay đổi thực sự trong kỳ vọng chuyển từ bên trái sang trung tâm.


1
Tôi đã hỏi một câu trả lời, nhưng câu trả lời này tôi tự tin nói rằng nó đang tìm kiếm thứ không có ở đó
rvl

1
Tôi đã cố gắng đảo ngược phiếu bầu của mình xuống, nhưng tôi đoán là không thể. Chỉ vì tôi thực sự không đồng ý với câu trả lời của bạn không nhất thiết có nghĩa là nó không đóng góp cho cuộc thảo luận. Tôi không chắc chắn làm thế nào để sử dụng phiếu bầu xuống và không có nghĩa là bất cứ điều gì cá nhân bởi nó.p
rvl

4
@Russ đừng lo lắng về downvote, nó thực sự không quan trọng, ngoài thực tế là nó báo hiệu có điều gì đó tôi nên giải quyết. Quan trọng hơn nhiều để có được lý do tại sao chúng tôi không đồng ý (ở mức độ mà chúng tôi làm) hơn là lo lắng về các điểm internet giả mạo. Bạn có một sự phản đối đáng để thảo luận, và tôi sẵn sàng trả gấp mười lần số tiền đó để có cuộc thảo luận ngắn gọn này. Tôi khuyến khích bạn hạ thấp tôi mỗi khi bạn không đồng ý, nếu bạn nói tại sao. Đó là cơ hội của tôi để học được điều gì đó.
Glen_b

1
@RussLenth bạn có thể hoàn tác một downvote (hoặc upvote) bằng cách nhấp lại vào phiếu bầu xuống. Nếu bạn không chắc chắn nơi phiếu bầu của bạn ở vị trí hovertext qua mũi tên xuống (hoặc lên) sẽ cho bạn biết.
Alexis

4
+1 Tôi thực sự đã làm rất nhiều phân tích này nhưng không muốn mở rộng quá mức câu trả lời của mình với những kết quả đó. Bạn đã làm một công việc tuyệt vời trong việc trình bày nó trong một hình thức rõ ràng, dễ đọc và thuyết phục. Ngoài ra, một điều tôi đã làm là hồi quy (thực tế, trơn tru) x chống lại y (mặc dù đặc tính của y là "phụ thuộc"): Tôi nghĩ rằng kết quả này rất hữu ích trong việc đánh giá sự phi tuyến tính trong mối quan hệ theo cách không biết về việc liệu y nên được coi là một hoặc hai nhóm.
whuber

13

OK folks, tôi theo sự dẫn dắt của Alexis và thu thập dữ liệu. Đây là một âm mưu của so với .xlogyxlô của log (Y) so với X

Và các mối tương quan:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Các thử nghiệm tương quan không chỉ ra một sự phụ thuộc tiêu cực. Tôi vẫn không bị thuyết phục bởi bất kỳ sự lưỡng tính nào (nhưng cũng không tin rằng nó vắng mặt).

[Tôi đã xóa một cốt truyện còn lại mà tôi có trong một phiên bản trước đó vì tôi đã bỏ qua điểm mà @whuber đang cố gắng dự đoán ]X|Y


2
Ngẫu nhiên ... tôi nhận ra rằng việc chuyển đổi log (Y) thành phụ thuộc vẫn tương đương với việc tìm kiếm một mối quan hệ phi tuyến tính ... log (Y) đẹp hơn so với hàm bản lề mà tôi đã chơi câu trả lời của tôi ... nhưng một trong những kết luận là tương tự nhau: mối quan hệ giữa và có các biểu thức chức năng tốt hơn . X Y = a + b XYXY=a+bX
Alexis

Cảm ơn bạn cho âm mưu còn lại đó, Russ. Đây không phải là một yêu cầu, nhưng tôi muốn chỉ ra rằng những gì tôi thấy là thú vị - và có lẽ có giá trị lớn hơn để khám phá GoF - là mối quan hệ của x như là một chức năng của y chứ không phải theo cách này. Nhìn vào phần dư x gợi ra một số câu hỏi bổ sung (có thể hữu ích) không được nêu ra trước đây, chẳng hạn như liệu chúng ta có thể học được điều gì thông qua các biểu thức lại phi tuyến tính của x (vâng, chúng ta có thể); liệu có thể nói nhiều bất kể giả thuyết hai dân số (có, một lần nữa), và về sự mạnh mẽ của sự phù hợp của tôi (nó rất mạnh mẽ).
whuber

Vâng, có lẽ bạn muốn làm phần còn lại cho điều đó. Tôi đang chuyển sang những thứ khác.
rvl

5

Russ Lenth tự hỏi đồ thị sẽ trông như thế nào nếu trục Y là logarit. Alexis đã loại bỏ dữ liệu, vì vậy rất dễ dàng để vẽ đồ thị với trục log:

nhập mô tả hình ảnh ở đây

Trên thang đo log, không có gợi ý về lưỡng tính hoặc xu hướng. Tất nhiên, một thang đo log có ý nghĩa hay không phụ thuộc vào các chi tiết của dữ liệu đại diện. Tương tự như vậy, liệu có ý nghĩa khi nghĩ rằng dữ liệu đại diện cho việc lấy mẫu từ hai quần thể như whuber gợi ý phụ thuộc vào chi tiết.


Phụ lục: Dựa trên các ý kiến ​​dưới đây, đây là phiên bản sửa đổi:

nhập mô tả hình ảnh ở đây


Tôi đã đăng biểu đồ của mình trong vòng vài phút sau khi Russ Lenth đăng bài của mình. Tôi đã không nhìn thấy anh ấy, hoặc tôi sẽ không đăng của tôi.
Harvey Motulsky

Y

9
Đồ họa này trình bày một ví dụ thú vị về hiệu ứng của sự lựa chọn trực quan kém: bằng cách thu nhỏ tỷ lệ khung hình và mở rộng trục y hơn gấp đôi so với mức cần thiết, phần mềm đã tự động loại bỏ ấn tượng thị giác của bất kỳ phân tán dọc nào, làm cho người xem khó nhìn thấy nhiều thứ. Đây là lý do tại sao một khám phá tốt, mặc dù được hướng dẫn bởi biểu diễn đồ họa, phải (a) sử dụng các phương pháp trực quan phù hợp tiết lộ , thay vì triệt tiêu, hành vi dữ liệu và (b) hỗ trợ chúng bằng các phân tích bổ sung (như được hiển thị trong bài đăng của @ Glen_b) .
whuber

Đối với phạm vi của Y trong câu hỏi, cơ sở nhật ký 2 sẽ là lựa chọn đơn giản hơn để có phạm vi giá trị hợp lý cho trục Y. Nó cũng sẽ ngăn phạm vi trên từ các giá trị đẹp của 1 và 1.000 không phù hợp với dữ liệu trong tay.
Andy W

1

Vâng, bạn đúng, mối quan hệ là yếu, nhưng không phải là không. Tôi sẽ đoán tích cực. Tuy nhiên, đừng đoán, chỉ cần chạy hồi quy tuyến tính đơn giản (hồi quy OLS) và tìm hiểu! Ở đó bạn sẽ có một độ dốc xxx cho bạn biết mối quan hệ là gì. Và vâng, bạn có những ngoại lệ có thể làm sai lệch kết quả. Điều đó có thể được giải quyết. Bạn có thể sử dụng khoảng cách của Cook hoặc tạo một âm mưu đòn bẩy để ước tính ảnh hưởng của các ngoại lệ đối với mối quan hệ.

Chúc may mắn


Điều gì khiến bạn nghĩ rằng họ là những người ngoài cuộc thực sự chứ không phải DGP là phi tuyến tính?
abaumann

Vâng, tôi cho rằng đó cũng có thể là trường hợp. Nhưng thật khó để nói, các chấm rất rải rác.
Helgi Guðmundsson

Tại sao giả định tuyến tính với OLS? Hồi quy không đối xứng FTW! :)
Alexis

1
@Alexis là chính xác khi nhấn mạnh rằng các giả định như tuyến tính phải được chứng minh, cho dù theo lý thuyết miền hoặc bằng cách kiểm tra mô hình. Tuy nhiên, tôi nghĩ rằng việc xóa hoàn toàn các ngoại lệ mà không xem xét cẩn thận tại sao các giá trị như vậy xảy ra là một lỗi rất phổ biến trong phân tích thống kê.
abaumann

Có, các ngoại lệ không thể bị xóa nếu không có lý do chính đáng, chẳng hạn như giá trị sai. Nhưng các phép biến đổi có thể giúp điều chỉnh phân phối giá trị sao cho phù hợp hơn và giảm các ngoại lệ. Và vâng, tôi đồng ý, tôi tin rằng việc xóa các ngoại lệ mà không có lý do chính đáng là khá phổ biến.
Helgi Guðmundsson

1

Bạn đã cung cấp một số trực giác cho câu hỏi của mình bằng cách xem xét hướng của các điểm dữ liệu X / Y và độ phân tán của chúng. Nói tóm lại là bạn đúng.

Trong thuật ngữ chính thức định hướng có thể được gọi là dấu hiệu tương quan và phân tán là phương sai . Hai liên kết này sẽ cung cấp cho bạn thêm thông tin về cách diễn giải mối quan hệ tuyến tính giữa hai biến.


0

Đây là một công việc nhà. Vì vậy, câu trả lời cho câu hỏi của bạn rất đơn giản. Chạy hồi quy tuyến tính của Y trên X, bạn sẽ nhận được một cái gì đó như thế này:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Vì vậy, số liệu thống kê t có ý nghĩa đối với biến X với độ tin cậy 99%. Do đó, bạn có thể khai báo các biến là có một số loại mối quan hệ.

Có phải là tuyến tính? Thêm một biến X2 = (X-mean (X)) ^ 2 và hồi quy lại.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Hệ số tại X vẫn còn đáng kể, nhưng X2 thì không. X2 đại diện cho phi tuyến. Vì vậy, bạn tuyên bố rằng mối quan hệ teh dường như là tuyến tính.

Trên đây là cho một công việc nhà.

Trong cuộc sống thực, mọi thứ phức tạp hơn. Hãy tưởng tượng, đây là dữ liệu về một lớp học sinh. Y - bấm máy tính bằng pound, X - thời gian trong vài phút nín thở trước khi bấm máy. Tôi muốn hỏi về giới tính của các sinh viên. Để giải trí, hãy thêm một biến khác, Z và giả sử rằng Z = 1 (nữ) cho tất cả Y <60 và Z = 0 (nam) khi Y> = 60. Chạy hồi quy với ba biến:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Chuyện gì đã xảy ra?! "Mối quan hệ" giữa X và Y đã biến mất! Ồ, có vẻ như mối quan hệ này là giả mạo do biến số gây nhầm lẫn , giới tính.

Đạo đức của câu chuyện là gì? Bạn cần biết dữ liệu nào để "giải thích" "mối quan hệ", hoặc thậm chí để thiết lập nó ở nơi đầu tiên. Trong trường hợp này, thời điểm tôi nói rằng dữ liệu về hoạt động thể chất của học sinh, tôi sẽ ngay lập tức hỏi về giới tính của họ và thậm chí sẽ không bận tâm phân tích dữ liệu mà không nhận được biến giới tính.

Mặt khác, nếu bạn được yêu cầu "mô tả" âm mưu phân tán, thì mọi thứ sẽ ổn. Tương quan, phù hợp tuyến tính, vv Đối với công việc nhà của bạn, hai bước đầu tiên ở trên là đủ: nhìn vào hệ số của X (mối quan hệ), sau đó X ^ 2 (tuyến tính). Hãy chắc chắn rằng bạn không có nghĩa là biến X (trừ giá trị trung bình).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.