Điều gì nếu mẫu ngẫu nhiên của bạn rõ ràng không đại diện?


28

Điều gì xảy ra nếu bạn lấy một mẫu ngẫu nhiên và bạn có thể thấy nó rõ ràng không phải là đại diện, như trong một câu hỏi gần đây . Ví dụ, điều gì xảy ra nếu phân bố dân số được coi là đối xứng quanh 0 và mẫu bạn vẽ ngẫu nhiên có các quan sát dương và âm không cân bằng, và sự mất cân bằng có ý nghĩa thống kê, điều đó sẽ đưa bạn đến đâu? Những tuyên bố hợp lý nào bạn có thể đưa ra về dân số dựa trên một mẫu thiên vị? Một quá trình hành động hợp lý trong tình huống như vậy là gì? Có vấn đề gì khi trong nghiên cứu của chúng tôi, chúng tôi nhận thấy sự mất cân bằng này?


2
Michael, vấn đề này có thể được dự kiến ​​sẽ xảy ra một lần vào năm 20, nếu chúng ta sử dụng ý nghĩa thống kê làm số liệu của chúng tôi. Thông thường chúng tôi không biết khi nào chúng tôi đã chọn ngẫu nhiên một mẫu không đại diện vì chúng tôi không biết đủ về dân số. Nhưng khi chúng ta biết điều gì đó về dân số, và chúng ta nhận thấy sự bất thường như vậy, chúng ta phải làm gì?
Joel W.

3
Có, cách thực hành đúng nhất là lấy một mẫu ngẫu nhiên đủ lớn, như @MichaelCécick đã viết. Tuy nhiên, một trong những giáo sư của tôi nói với tôi rằng ông đã xác minh bằng mô phỏng Monte Carlo rằng, khi một nhà nghiên cứu phải tăng kích thước mẫu, việc thêm đơn vị thống kê vào mẫu là không chính xác, nhưng người ta phải lặp lại việc lấy mẫu. Nếu không, số liệu thống kê có thể bị sai lệch (một lần nữa!).
this.is.not.a.nick

4
@Michael, tôi không hiểu tại sao tuyên bố của bạn là đúng. Giá trị p nhỏ hơn 0,05 sẽ xảy ra theo giả thuyết null 5% thời gian bất kể kích thước mẫu. Vì vậy, làm thế nào có thể kích thước mẫu lớn hơn sẽ giải quyết vấn đề này? Dường như với tôi đề nghị của bạn ngầm mời độc giả nhầm lẫn kích thước và sức mạnh của các bài kiểm tra giả thuyết.
whuber

2
@Michael, ý bạn là chúng ta nên thu thập thêm dữ liệu một cách ngẫu nhiên? Chúng ta có hy vọng rằng chúng ta ngẫu nhiên vẽ một mẫu thiên vị theo hướng khác không? Trong mọi trường hợp, chúng ta nên vẽ số lượng các trường hợp bổ sung? Bạn có đề nghị chúng tôi thiết lập một số khi bắt đầu hoặc sử dụng quy tắc dừng không? Nếu một quy tắc dừng, quy tắc có thể trông như thế nào? Cuối cùng, ngay cả khi mẫu lớn hơn thu được không có sai lệch có ý nghĩa thống kê, chúng tôi biết nó bao gồm hai mẫu, một mẫu có sai lệch và một mẫu không có. Những tuyên bố hợp lý nào bạn có thể đưa ra về dân số dựa trên một mẫu phức tạp như vậy?
Joel W.

2
@Michael Một kết luận khác là một mẫu rất sai lệch, có độ sai lệch cao cho thấy có vấn đề với quy trình lấy mẫu. Nếu vậy, sự thiếu đối xứng sẽ tồn tại trong một mẫu lớn hơn.
whuber

Câu trả lời:


7

Câu trả lời được đưa ra bởi MLS (sử dụng lấy mẫu quan trọng) chỉ tốt bằng các giả định bạn có thể đưa ra về các bản phân phối của mình. Sức mạnh chính của mô hình lấy mẫu dân số hữu hạn là nó không tham số, vì nó không đưa ra bất kỳ giả định nào về việc phân phối dữ liệu để đưa ra suy luận (hợp lệ) về các tham số dân số hữu hạn.

Một cách tiếp cận để khắc phục sự mất cân bằng mẫu được gọi là phân tầng sau . Bạn cần chia mẫu thành các lớp không chồng chéo (hậu tầng), sau đó xem lại các lớp này theo các số liệu dân số đã biết. Nếu dân số của bạn được biết là có trung vị bằng 0, thì bạn có thể xem lại các quan sát tích cực và tiêu cực để tỷ lệ trọng số của họ trở thành 50-50: nếu bạn có SRS không may mắn với 10 quan sát tiêu cực và 20 quan sát tích cực, bạn sẽ đưa ra số âm có trọng số 15/10 = 1,5 và số dương, 15/20 = 0,75.

Các dạng hiệu chuẩn mẫu tinh tế hơn tồn tại , trong đó bạn có thể hiệu chỉnh mẫu của mình để đáp ứng các ràng buộc chung hơn, chẳng hạn như có giá trị trung bình của một biến liên tục bằng với giá trị cụ thể. Ràng buộc đối xứng là khá khó để làm việc, mặc dù điều đó cũng có thể thực hiện được. Có thể Jean Opsomer có một cái gì đó về điều này: anh ta đã làm rất nhiều công việc ước tính kernel cho dữ liệu khảo sát.


Làm thế nào để so sánh sau phân tầng, theo logic hoặc thống kê, chỉ đơn giản là loại bỏ mẫu không cân bằng và vẽ một mẫu khác? (Đôi khi vẽ mẫu là phần tốn nhiều công sức của nghiên cứu, nhưng đôi khi đó là những gì được thực hiện sau khi bạn vẽ mẫu tốn nhiều công sức và vẽ mẫu liên quan đến nỗ lực tương đối nhỏ, như trong nhiều nghiên cứu thử nghiệm.)
Joel W .

2
Tôi chưa bao giờ ở trong tình huống loại bỏ dữ liệu là câu trả lời tốt nhất và tôi chưa bao giờ thấy nó được thảo luận trong bất kỳ cuốn sách thống kê khảo sát nào. Trong hầu hết các thống kê khảo sát, việc lấy dữ liệu đắt hơn ít nhất năm lần so với bất kỳ xử lý và phân tích dữ liệu nào sau đây (ngoại trừ một số khảo sát web giá rẻ trong đó việc thu thập dữ liệu gần như miễn phí). Nếu bạn đang ở trong một thế giới thử nghiệm, thì bạn không nên gắn thẻ bài "lấy mẫu" của mình và thay vào đó hãy sử dụng "thiết kế thử nghiệm".
StasK

Các mẫu ngẫu nhiên có thể được sử dụng thay vì phân tầng vì có nhiều cách có thể để phân tầng trong môi trường thế giới thực. Có thể xảy ra rằng sau khi chọn hai mẫu ngẫu nhiên cho một thử nghiệm, bạn nhận thấy sự mất cân bằng trắng trợn. Sau đó, bạn bị mắc kẹt giữa một tảng đá và một nơi khó khăn: sống với sự mất cân bằng (ví dụ: tất cả những người lớn tuổi trong một nhóm, tất cả những người không phải là người bản xứ trong một nhóm, tất cả các tiến sĩ trong một nhóm, v.v.) hoặc vẽ mẫu mới và làm suy yếu mối liên hệ giữa những gì bạn đã làm và các giả định của tất cả các kỹ thuật thống kê. Hậu phân tầng dường như thuộc loại thứ hai.
Joel W.

2

Tôi là Thành viên cơ sở ở đây, nhưng tôi nói rằng việc loại bỏ và bắt đầu lại luôn là câu trả lời tốt nhất, nếu bạn biết rằng mẫu của bạn không có tính đại diện đáng kể và nếu bạn có ý tưởng về cách lấy mẫu không có tính đại diện ở nơi đầu tiên và làm thế nào để tránh nó nếu có thể lần thứ hai.

Sẽ tốt như thế nào khi lấy mẫu lần thứ hai nếu bạn có thể sẽ ở cùng một chiếc thuyền?

Nếu việc thu thập dữ liệu một lần nữa không có ý nghĩa hoặc rất tốn kém, bạn phải làm việc với những gì bạn có, cố gắng bù đắp cho tính không thể hiện thông qua phân tầng, cắt bỏ, mô hình hóa fancier hoặc bất cứ điều gì. Bạn cần lưu ý rõ ràng rằng bạn đã bù theo cách này, tại sao bạn nghĩ rằng nó cần thiết và tại sao bạn nghĩ rằng nó hoạt động. Sau đó, làm việc không chắc chắn phát sinh từ khoản bồi thường của bạn trong suốt quá trình phân tích của bạn. (Nó sẽ làm cho kết luận của bạn ít chắc chắn hơn, phải không?)

Nếu bạn không thể làm điều đó, bạn cần bỏ hoàn toàn dự án.


Điều gì sẽ xảy ra nếu bạn không biết tại sao mẫu không có tính đại diện, bạn vẫn có lý khi loại bỏ nó và vẽ một mẫu mới, ngẫu nhiên? Nếu không, tai sao không? Ngoài ra, giả sử bạn loại bỏ mẫu đầu tiên và vẽ mẫu thứ hai, số liệu thống kê suy luận mà bạn có thể tính toán dựa trên mẫu thứ hai theo bất kỳ cách nào không phù hợp do mẫu thứ nhất bị loại bỏ? Ví dụ: nếu bạn đăng ký loại bỏ các mẫu không đại diện, bạn có thay đổi phân phối lấy mẫu mà kiểm tra thống kê của bạn dựa trên không? Nếu vậy, bạn đang làm cho nó dễ dàng hơn hoặc khó hơn để tìm thấy ý nghĩa thống kê?
Joel W.

@Wayne Ý kiến ​​hay.
Subhash C. Davar

1

qpp , nhưng chúng có vẻ sai: các mẫu vẫn không thiên vị và bất kỳ sự thích ứng nào (như loại bỏ các ngoại lệ) sẽ có khả năng thêm sai lệch.

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

Bạn nói rằng mẫu không bị sai lệch và bất kỳ nỗ lực nào để sửa mẫu sẽ thêm sai lệch. Tôi đề nghị rằng quá trình mà mẫu được thu thập không có sai lệch, nhưng trên thực tế, mẫu bị sai lệch, có lẽ sai lệch nghiêm trọng. Có cách nào để cố gắng khắc phục sai lệch lớn đã biết có thể được dự kiến ​​sẽ giới thiệu sai lệch bổ sung tương đối ít không?
Joel W.

1
Để phân biệt thuật ngữ một chút: Tôi nghĩ rằng thiên vị là một tính chất của kỳ vọng của một biến ngẫu nhiên. Nói cách khác, nếu quá trình thu thập dữ liệu không thiên vị, thì mẫu cũng vậy. Tuy nhiên, mẫu vẫn có thể không điển hình và dẫn đến kết luận không mong muốn. Bất kỳ cách chung nào để khắc phục điều này đều gây ra sai lệch, vì bạn đang điều chỉnh quy trình lấy mẫu (không thiên vị). Có lẽ cách tiếp cận ít sai lệch là thu thập và sử dụng các mẫu mới. Một cách tiếp cận thiên vị hơn một chút sẽ thêm các mẫu mới này vào các mẫu cũ, nhưng kết quả có thể ít thay đổi hơn vì bạn có tổng số mẫu nhiều hơn.
MLS

2
@Joel W. Ý bạn là gì khi bạn nói mẫu bị sai lệch? Có phải đó là ước tính của giá trị trung bình dựa trên mẫu bị sai lệch? Bất kỳ ước tính mẫu nào sẽ khác với giá trị trung bình thực và một số có thể ở xa. Khi lấy mẫu ngẫu nhiên, điều này là do phương sai không sai lệch. Thật không đúng khi nói một mẫu bị sai lệch bởi vì phân phối của mẫu được biết là trông rất khác so với phân phối cho dân số. Trong các mẫu nhỏ, nhiều mẫu có thể trông không biểu thị vì lý do này hay lý do khác nhưng lấy mẫu ngẫu nhiên không phải là lấy mẫu sai lệch.
Michael R. Chernick

1
@Michael, tôi đồng ý rằng chúng ta phải nhận ra và sống với phương sai ngẫu nhiên khi chúng ta phải. Tôi đang hỏi những gì chúng ta có thể làm một cách hợp lý khi chúng ta phát hiện ra phương sai ngoài ý muốn. Điều gì xảy ra nếu mẫu ngẫu nhiên của chúng tôi bao gồm quá nhiều người trẻ tuổi, hoặc quá nhiều công nhân cổ xanh, v.v., khi những danh mục đó có liên quan đến nghiên cứu của chúng tôi? Đi xa hơn nữa, chúng ta có nên kiểm tra các mẫu của chúng tôi để xem liệu chúng có bị mất cân bằng theo những cách như vậy không? Và có vấn đề gì không nếu chúng tôi nhận thấy điều này trước khi thực hiện nghiên cứu sâu hơn với mẫu hoặc sau khi chúng tôi đã đầu tư nguồn lực để tiến hành nghiên cứu với mẫu?
Joel W.

1
Mất cân bằng covariate là rất quan trọng. Nếu nó tồn tại trong một mẫu, mô hình hồi quy có thể được sử dụng để điều chỉnh cho nó. Vance Berger đã viết một cuốn sách về chủ đề này mà tôi có lẽ đã trích dẫn trước đây trên trang web này. Đây là một liên kết amazon đến một mô tả của cuốn sách. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistic/ory
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.