Kiểm tra bảng dự phòng 2x2: nam / nữ, có việc làm / thất nghiệp


8

Tôi chuyên ngành khoa học, và kiến ​​thức về thống kê của tôi khá hời hợt.

Vấn đề

Tôi đã phải tìm một tập dữ liệu và phân tích nó với khả năng tốt nhất của tôi như là một bài tập cho khóa học thống kê của tôi. Đây không còn là một bài tập nữa, tôi chỉ cần trợ giúp trong việc diễn giải lý do tại sao tôi đã phân tích kém và thay vào đó tôi nên làm gì.

Tôi đã sử dụng một bộ dữ liệu phân loại về tỷ lệ việc làm ở New Zealand, dự định sắp xếp nó trong bảng dự phòng 2x2 và sử dụng bài kiểm tra chi bình phương của Pearson và bài kiểm tra chính xác của Fisher để kiểm tra xem giới có tương quan với việc làm hay không.

Những gì tôi muốn trả lời

  1. Hiểu lý do tại sao tôi không thể sử dụng kiểm tra chi bình phương và kiểm tra chính xác của Fisher cho vấn đề này và tìm hiểu những gì tôi nên sử dụng thay thế. "Tỷ lệ lẻ là một hàm của thời gian", tôi giả sử? Bất kỳ liên kết hữu ích về cách làm điều đó, hoàn hảo trong R?
  2. Hiểu nhận xét "tương quan tuần tự" liên quan đến phần đầu tiên của bài tập và chính xác những gì tôi nên làm.

Cách giúp tôi # 1 (ngắn hơn)

Đó là cách dữ liệu của chúng tôi trông (dựa trên điều tra dân số):

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

Tôi đã thực hiện một bài kiểm tra chi bình phương và một bài kiểm tra chính xác của Fisher ở R, giả sử rằng giá trị p thu được sẽ cho tôi biết xác suất phân phối công việc như vậy (hoặc một cực đoan hơn) cho rằng null là đúng (nam và nữ có cơ hội nhận được công việc như nhau). Tôi nhận được giá trị p rất nhỏ và thử nghiệm của Fisher cho tôi tỷ lệ chênh lệch 1,16, nghĩa là có mối tương quan và đặc biệt là nam giới có khả năng tìm việc ở New Zealand cao hơn 16%.

Tuy nhiên, theo giảng viên của tôi, tôi đã sử dụng các bài kiểm tra này không phù hợp. Tôi hoàn toàn không hiểu tại sao, nhưng tôi nghĩ rằng anh ta đã nói rằng các thử nghiệm này cho thấy sự độc lập và bởi vì có một số lượng công việc nhất định có sẵn ở New Zealand, các mẫu của chúng tôi không độc lập ... mặc dù tôi không chắc về điều đó (bạn có thể xem phản hồi của anh ấy trích dẫn dưới đây).

Cách giúp tôi # 2 (lâu hơn)

Nếu bạn có thời gian rảnh, tôi sẽ đánh giá rất cao nếu bạn có thể xem xét toàn bộ bài tập. Tôi cũng sẽ cung cấp phản hồi của giảng viên, vì vậy nếu bạn có thể diễn giải nó cho tôi, nó sẽ rất tuyệt! Bài tập rất dễ đối với một nhà toán học / nhà thống kê, chỉ có hai câu hỏi ở đó, nó chỉ đầy những phần đệm mà tôi đã cố gắng chứng minh rằng tôi biết những gì tôi đang làm, bạn có thể bỏ qua hầu hết.

Đây là liên kết đến một tệp PDF với bài tập tôi không thành công: thống kê gán.pdf .

Phản hồi của giảng viên

Hình 1 của bạn thể hiện mối tương quan tuần tự, đó là lý do thực sự tại sao hồi quy tuyến tính không hoạt động. Cả bài kiểm tra của ngư dân hay chi bình phương đều tốt cho bảng 2x2 của bạn. Điều này là do bạn muốn kiểm tra tính đồng nhất, nhưng bạn đang từ chối null vì không độc lập (điều này không thú vị). Sự khác biệt giữa hai là không liên quan ở đây (chúng giống hệt nhau trong mọi trường hợp). Bạn có thể đã vẽ tỷ lệ cược là một hàm của thời gian.


bạn có thể thêm thẻ tự học
tomka

3
@tomka Tôi không đồng ý với thẻ tự học trong trường hợp này và vì vậy đã xóa nó. Câu hỏi này liên quan đến dữ liệu thực tế và liên quan đến một vấn đề thực sự, không chỉ là một tình huống trong sách giáo khoa thông thường. Các tiêu chí cho thẻ tự học không phải là liệu câu hỏi có bắt nguồn từ công việc trong lớp hay không mà là liên quan đến bản chất của câu hỏi. Vui lòng truy cập các chủ đề meta meta.stats.stackexchange.com/questions/1904meta.stats.stackexchange.com/questions/1172 để biết thêm thông tin hoặc để thảo luận về điều này.
whuber

1
Là những số việc làm dựa trên một điều tra dân số hoặc một tập tin khảo sát có trọng số (ví dụ như một mẫu)?
xác suất

@tomka và whuber, tôi thực sự không phiền, nhưng đây không phải là một bài tập về nhà điển hình, nếu đó là ý bạn. Nó cũng có thể là một luận điểm theo nghĩa là các hướng dẫn duy nhất là thu thập dữ liệu và phân tích nó.
Th34

@probabilityislogic, điểm hay, đó là điều tra dân số (quốc gia nhỏ). Có ảnh hưởng đến cách chúng ta nên tiếp cận dữ liệu?
Th34

Câu trả lời:


2

Một số câu trả lời ngay lập tức:

1) Giảng viên của bạn có nghĩa là dữ liệu hiển thị tự động tương quan. Điều này dẫn đến các ước tính không hiệu quả của các hệ số hồi quy trong hồi quy tuyến tính đơn giản. Tùy thuộc vào việc nó được bao phủ trong khóa học của bạn, đó là một sai lầm.

2) Có thể tôi không hiểu vấn đề một cách đầy đủ, nhưng IMAO bài kiểm tra độc lập chi bình phương được sử dụng chính xác ở đây, ngoại trừ hai vấn đề khác:

3) Bài kiểm tra chi bình phương của bạn có một sức mạnh to lớn, vì kích thước mẫu. Nó không khó đáng kể ngay cả khi hiệu ứng rất nhỏ. Hơn nữa, có vẻ như bạn có một điều tra dân số. Trong tình huống này suy luận thống kê là không cần thiết, bởi vì bạn tuân theo tất cả các đơn vị dân số. Nhưng đó không phải là những gì giảng viên nhận xét.

4) Bạn dường như tổng hợp dữ liệu theo các mốc thời gian. Bạn thực sự nên kiểm tra một lần cho mỗi điểm thời gian, vì nếu không, bạn tổng hợp các hiệu ứng theo thời gian (bạn đếm đơn vị nhiều lần). Nhưng đó cũng không phải là những gì giảng viên nhận xét.

Giảng viên thực sự nhận xét rằng bạn muốn kiểm tra null của tính đồng nhất, trong đó bạn kiểm tra null của sự độc lập. Vậy anh ta có ý nghĩa gì bởi sự đồng nhất?

Tôi cho rằng anh ta đề cập đến thử nghiệm tính đồng nhất cận biên trong dữ liệu thử nghiệm được ghép nối. Thử nghiệm này được sử dụng để đánh giá liệu có sự thay đổi theo thời gian hay không (các biện pháp lặp đi lặp lại). Tuy nhiên, đây không phải là những gì bạn muốn đánh giá ở nơi đầu tiên. Tôi đoán là anh ta không hiểu bạn muốn kiểm tra xem giới tính và việc làm tại thời điểm x có liên quan hay không. Có thể anh ấy cũng đã cố gắng đề xuất rằng những gì bạn nên kiểm tra là thay đổi theo thời gian (hoặc không thay đổi, trong trường hợp đó, nhiều trường hợp lặp đi lặp lại sẽ được gọi là đồng nhất thực sự).


1) Tôi có thể nhận được một mô tả nhanh (hoặc một liên kết) về tự động tương quan là gì và nó dẫn đến sai lệch như thế nào không? 3) Vì vậy, bất kỳ kiểm tra thống kê là không phù hợp ở đây vì điều tra dân số? Làm thế nào tôi có thể trả lời câu hỏi của tôi sau đó? 4) Bài kiểm tra nào bạn đang nói về: hồi quy hoặc bình phương? Trong phần sau tôi chỉ tập trung vào điểm dữ liệu cuối cùng - điều tra dân số gần đây nhất.
Th34

@ Herman 1) Tôi đã mắc lỗi: các tham số hồi quy sẽ không hiệu quả có nghĩa là công cụ ước tính OLS không còn là công cụ ước tính tốt nhất nữa, tức là phương sai của nó có thể rất lớn dẫn đến các thử nghiệm không đáng kể. Có thể đây là sự khởi đầu cho một số chi tiết: stats.stackexchange.com/questions/19321/iêu 3) Có, nếu bạn quan sát tất cả các đơn vị dân số, không cần suy luận về các thông số dân số mà bạn quan sát mà không có lỗi lấy mẫu 4) Chi- bình phương. Trong trường hợp đó bình luận 4 không áp dụng.
tomka

1

Đó là phản hồi rất mờ - đối với tôi có vẻ như họ đang nói rằng "lần này bạn không làm tốt - hãy cố gắng hơn nữa". Cách duy nhất để hiểu nó là dũng cảm, và yêu cầu giảng viên của bạn cho một cuộc họp để thảo luận về những điều hơn nữa.

Giảng viên của bạn dường như thất vọng với sự lựa chọn của bạn về câu hỏi nghiên cứu có lẽ? Tôi nghĩ rằng họ có thể đã tìm kiếm một số "từ buzz" như "tự động / nối tiếp- / tương quan" "chuỗi thời gian" "hiệu ứng theo mùa / điều chỉnh" "chu kỳ kinh doanh" "xu hướng". Tôi không biết những gì bạn đã dự kiến ​​sẽ biết khi làm bài tập.

Dù sao, đây là những gì tôi nghĩ.

Nhiệm vụ của bạn cho thấy một khả năng tốt để thực hiện kiểm tra thống kê, nhưng từ góc độ phân tích dữ liệu cho thấy một sự lựa chọn kỳ lạ của các ví dụ. Phân tích nên được kể về một câu chuyện. Cá nhân tôi thích sự lựa chọn việc làm nam vs nữ làm chủ đề. Tuy nhiên, tôi sẽ đặt "ví dụ thứ hai" lên trước, vì đây là một câu hỏi đơn giản hơn " bây giờ có sự khác biệt về giới tính không? ". Sau khi cho thấy rõ ràng có một sự khác biệt (như bạn làm), bạn có thể đã đi đến câu hỏi phức tạp hơn về" có sự khác biệt giới tính nhất quán theo thời gian không? "Tất nhiên câu hỏi này có thể vượt quá phạm vi "Hộp công cụ thống kê" của bạn để trả lời một cách chính thức. Một cách bạn có thể làm điều này với hồi quy tuyến tính là mô hình hóa tỷ lệ được tuyển dụng so với thất nghiệp (hoặc tỷ lệ cược log nếu điều này phù hợp hơn) cho nam và nữ. có một mô hình ols đơn giản của

yTôi= =β0+β1xTôi+eTôi

yTôixTôieTôiβ1= =0

Tôi đã không sử dụng ví dụ đầu tiên đó, tất nhiên hồi quy tuyến tính là không phù hợp. Giảng viên của bạn (có lẽ) muốn xem một ví dụ về việc sử dụng tốt hồi quy tuyến tính. Tất nhiên, ví dụ ols tôi đưa ra ở trên cũng có thể không phù hợp - điều này phụ thuộc vào việc đánh giá mô hình.


@probabilityslogic, tôi sẽ cho bạn biết những gì tôi phải biết. Trong hai thống kê khác nhau các khóa học của tôi kết hợp chúng ta đã có trình độ khác nhau của các chi tiết như sau: bi (đa) phân phối ghi rõ tên, phân phối bình thường, t.test, ANOVA, chi-squared / fisher của chính xác, tuyến tính / hồi quy logistic, phân phối hypogeometric, định lý của Bayes , phân phối beta. Đó là nó. Tôi có công cụ tốt hơn để giải quyết câu hỏi đã chọn hơn tôi đã sử dụng không?
Th34

@probabilityslogic, tôi không hiểu lắm về cách thực hiện "hồi quy tuyến tính để mô hình hóa tỷ lệ được tuyển dụng so với thất nghiệp cho nam và nữ". Bạn có thể vui lòng thử giải thích nó bằng cách sử dụng các số từ dữ liệu của tôi hoặc hiển thị cho tôi thành ngữ R hoặc liên kết với tôi những gì tôi nên đọc nếu bạn có thể, hoặc đề nghị tôi hỏi một câu hỏi mới? Theo như các phương trình lý thuyết, tôi hiểu rằng trong ví dụ của bạn beta-0 là phần chặn của chúng tôi, beta-1 là độ dốc của chúng tôi, x là dữ liệu của chúng tôi và e là một số lỗi ... cũng giống như tôi không hiểu gì cả . Làm thế nào xấu hổ, tôi xin lỗi.
Th34
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.