Điều tra sự khác biệt giữa các quần thể


9

Nói rằng chúng tôi có một mẫu từ hai quần thể: AB. Giả sử những quần thể này được tạo thành từ các cá nhân và chúng tôi chọn mô tả các cá nhân theo các tính năng. Một số tính năng này là phân loại (ví dụ: chúng có lái xe đi làm không?) Và một số tính năng là số (ví dụ: chiều cao của chúng). Hãy gọi các tính năng này: . Chúng tôi thu thập hàng trăm tính năng này (ví dụ: n = 200), giả sử đơn giản, không có lỗi cũng như tiếng ồn trên tất cả các cá nhân.X1Xn

Chúng tôi đưa ra giả thuyết hai quần thể là khác nhau. Mục tiêu của chúng tôi là trả lời hai câu hỏi sau:

  1. Họ thực sự khác nhau đáng kể?
  2. Có gì khác biệt đáng kể giữa chúng?

Các phương pháp như cây quyết định (ví dụ rừng ngẫu nhiên) và phân tích hồi quy tuyến tính có thể giúp ích. Ví dụ, người ta có thể xem xét tầm quan trọng của tính năng trong các khu rừng ngẫu nhiên hoặc các hệ số phù hợp trong hồi quy tuyến tính để hiểu điều gì có thể phân biệt các nhóm này và khám phá mối quan hệ giữa các tính năng và quần thể.

Trước khi tôi đi xuống tuyến đường này, tôi muốn biết được các lựa chọn của mình ở đây, những gì tốt và hiện đại so với thực tiễn xấu. Xin lưu ý rằng mục tiêu của tôi không phải là dự đoán theo từng se, mà là thử nghiệm và tìm thấy bất kỳ sự khác biệt đáng kể nào giữa các nhóm.

Một số cách tiếp cận nguyên tắc để giải quyết vấn đề này là gì?

Dưới đây là một số mối quan tâm tôi có:

  • Các phương pháp như phân tích hồi quy tuyến tính có thể không trả lời đầy đủ (2), phải không? Ví dụ, một sự phù hợp duy nhất có thể giúp tìm thấy một số khác biệt, nhưng không phải tất cả sự khác biệt đáng kể. Ví dụ: đa cộng tuyến có thể ngăn chúng tôi tìm cách tất cả các tính năng khác nhau giữa các nhóm (ít nhất là trên một mức phù hợp). Vì lý do tương tự, tôi hy vọng ANOVA không thể cung cấp câu trả lời đầy đủ cho (2).

  • Không hoàn toàn rõ ràng cách tiếp cận dự đoán sẽ trả lời (1). Ví dụ, chúng ta nên giảm thiểu phân loại / chức năng dự đoán nào? Và làm thế nào để chúng ta kiểm tra xem các nhóm có khác nhau đáng kể hay không một khi chúng ta có sự phù hợp? Cuối cùng, tôi lo lắng rằng câu trả lời tôi nhận được (1) có thể phụ thuộc vào bộ mô hình phân loại cụ thể mà tôi sử dụng.

Câu trả lời:


5

Hãy nghĩ vấn đề như sau.

Nói và là biến nhị phân đứng cho dân số: có nghĩa là dân số thứ nhất, có nghĩa là dân số thứ hai. Giả thuyết khống có thể được thể hiện theo nhiều cách tương đương:Y Y = 0 Y = 1X=(X1,X2,..Xn)YY=0Y=1

  • H0 : quần thể giống nhau
  • X Y = 0 X Y = 1H0 : phân phối của cho giống như phân phối của choXY=0XY=1
  • X YH0 : và là độc lậpXY
  • f { 0 , 1 } f ( X ) YH0 : cho mọi hàm số thành , và là độc lậpf{0,1}f(X)Y

Tôi không biết nhiều về các khu rừng ngẫu nhiên, nhưng chúng có thể được coi là một công cụ dự đoán tất cả các mục đích tránh sự phù hợp quá mức. Nếu chúng ta lý tưởng hóa chúng khá nhiều: đó là thứ có khả năng phát hiện bất kỳ mối quan hệ nào giữa và bất kỳ loại tính năng mà không phù hợp quá mức.XYX

Có thể thử một cái gì đó dựa trên điều này. Tách tập dữ liệu gốc thành tập huấn luyện và tập kiểm tra. Sau đó:

  • huấn luyện một rừng ngẫu nhiên dự đoán từ trên tập huấn luyện.Y XfYX
  • thực hiện một thử nghiệm độc lập chi bình phương đơn giản (với rủi ro ) giữa và trên bộ thử nghiệmf ( X ) Yαf(X)Y

Bài kiểm tra này khá bảo thủ. Nếu rừng ngẫu nhiên là một phương thức kém, thì tệ nhất là xuất ra một câm , sau đó nó sẽ từ chối với xác suất nhỏ hơn (khi là đúng). Việc lắp quá mức thậm chí sẽ không thành vấn đề vì chúng tôi sử dụng bài kiểm tra và tập huấn luyện. Tuy nhiên, sức mạnh của thử nghiệm trực tiếp phụ thuộc vào trí thông minh của phương pháp rừng ngẫu nhiên (hoặc bất kỳ dự đoán nào được sử dụng).H 0 α H 0f(X)H0αH0

Lưu ý rằng bạn có thể sử dụng một số dự đoán có thể: như hồi quy logistic cũ đơn giản, sau đó là hồi quy logistic với một số tính năng chéo, sau đó là một vài cây quyết định, sau đó là một rừng ngẫu nhiên ... Nhưng nếu bạn làm như vậy, bạn nên điều chỉnh thành số các xét nghiệm để tránh "những khám phá sai lầm". Xem: Điều chỉnh Alpha cho nhiều thử nghiệmα


Cảm ơn Benoit (+1). Điều này có vẻ áp dụng cho câu hỏi (1). Bất kỳ ý tưởng về cách giải quyết (2) với phương pháp này hoặc một phương pháp thay thế?
Amelio Vazquez-Reina

Như được chỉ ra bởi DJohnson, RF không thể giải thích được. Hồi quy logistic có thể (ít nhất là với các tính năng duy nhất). Nó thực sự phụ thuộc vào người dự đoán. Theo một ý tưởng gần với RF, có thể sử dụng nhiều cây quyết định (ngẫu nhiên) (với được điều chỉnh tốt ) và hiển thị cây với giá trị p nhỏ nhất (= tốt nhất). α
Benoit Sanchez

Cảm ơn. Tôi thích đề xuất điều chỉnh các DT ngẫu nhiên và tìm ra những người có kết quả quan trọng nhất trong một bài kiểm tra giống như bình phương. Tôi giả sử bạn đang đề cập đến các hiệu chỉnh Bonferroni khi bạn đề cập bằng cách sử dụng được điều chỉnh tốt . Làm thế nào điều này sẽ khác với việc sử dụng RF và thử nghiệm từng cây? α
Amelio Vazquez-Reina

Ngoài ra, hy vọng của tôi với các RF là xác định các tính năng nắm bắt sự khác biệt (tức là nhận được ít nhất một câu trả lời một phần cho (2)). Chúng không lý tưởng cho khả năng diễn giải (mặc dù tôi cho rằng người ta có thể làm như vậy bằng cách giới hạn chiều cao của chúng). Trong cả hai trường hợp, điều tương tự có thể được nói về DT phải không? Chỉ cần chắc chắn rằng tôi hiểu bình luận của bạn tốt.
Amelio Vazquez-Reina

Vâng, tôi đề cập đến Bonferroni. Với RF, bạn tạo một công cụ dự đoán bằng cách lấy trung bình nhiều DT. Sau đó, bạn thực hiện một thử nghiệm duy nhất với mức trung bình này, không phải từng DT, dẫn đến rủi ro . Với một số DT bạn thực hiện thử nghiệm dẫn đến rủi ro (trừ khi bạn sử dụng Bonferroni). Điều này phải được coi là một thử nghiệm nhiều trong khi (một) RF trung bình nhiều DT là một thử nghiệm đơn lẻ. n 1 - ( 1 - α ) nαn1(1α)n
Benoit Sanchez

3

Bạn không nói có bao nhiêu tính năng có sẵn trong dữ liệu. Ít, nhiều, đồ sộ? Chúng ta có thể cho rằng chúng là các tính năng giống nhau giữa các quần thể, tất cả được đo bằng các công cụ, phương thức và phương thức giống nhau không? Nếu không, thì bạn có một vấn đề lớn hơn khi mô hình đo lường lỗi trong biến có thể hoạt động.

@benoitsanchez dường như đã trả lời câu hỏi số 1).

Wrt # 2), tôi không chắc RF có thể giúp đỡ. Bằng cách sử dụng một mô hình chính thức hơn như ANOVA một chiều được áp dụng cho một tính năng tại một thời điểm, một thử nghiệm về sự khác biệt giữa các quần thể cho các tính năng có thể được phát triển. Bằng cách tóm tắt kết quả của các thử nghiệm đó, dựa trên cường độ của thử nghiệm cũng như tầm quan trọng của nó, một hồ sơ mô tả về cách các quần thể khác nhau giữa các tính năng trở nên khả thi. Đây là một giải pháp adur và heuristic thừa nhận có thể không đủ nghiêm ngặt cho thị hiếu, sở thích và đào tạo của bạn.

Không giỏi về ký hiệu loại latex, hãy để tôi mô tả đơn giản cách các thử nghiệm này có thể hoạt động: đầu tiên, xây dựng một loại vòng lặp macro vượt qua tất cả các tính năng thông qua, một tính năng tại một thời điểm. Với mỗi lần vượt qua của vòng lặp, tính năng mới sẽ trở thành mục tiêu hoặc DV với X bao gồm một biến giả cho dân số cũng như bất kỳ biến điều khiển nào phù hợp. Đảm bảo rằng các điều khiển tương tự được sử dụng cho từng tính năng cũng như dữ liệu cơ bản hoàn toàn giống nhau cho tất cả ANOVAs, loại bỏ sự biến đổi do sự thay đổi của các mẫu dữ liệu hữu hạn. Tổng hợp các giá trị thử nghiệm F cho biến giả cho từng tính năng. Điều này sẽ cung cấp một số liệu chuẩn hóa cho phép so sánh giữa các tính năng. Thử nghiệm F được ưu tiên hơn so với betas được trang bị kể từ betaskhông được tiêu chuẩn hóa, được thể hiện trong đơn vị và các nhà phát triển tiêu chuẩn của từng tính năng riêng lẻ.

Nhận xét cuối cùng của bạn, "Tôi lo lắng rằng câu trả lời tôi nhận được (1) có thể phụ thuộc vào tập hợp các mô hình phân loại / hồi quy cụ thể mà tôi sử dụng" luôn luôn đúng. Các câu trả lời hoàn toàn có khả năng thay đổi theo chức năng của (các) mô hình được sử dụng. Nó cũng là một biểu hiện của một bất ổn thường thấy trong số các nhà thống kê được đào tạo lý thuyết và cổ điển mạnh mẽ hơn, những người không thoải mái hoặc gặp khó khăn khi thừa nhận bản chất không xác định của mô hình thống kê ứng dụng. Một thuốc giải độc tuyệt vời cho những triệu chứng này là cuốn sách gần đây của Efron và cuốn sách về suy luận thống kê thời đại máy tính . Họ đưa mô hình thống kê vào thế kỷ 21, thời đại của khoa học dữ liệu và học máy, bằng cách thừa nhận thẳng thắn tính lặp đi lặp lại, gần đúng, heuristic của tất cảmô hình sở hữu một thuật ngữ lỗi. Người ta không cần phải là người Bayes để nhận ra sự thật vốn có trong quan sát này. Quan điểm của họ là một viễn cảnh mới mẻ khác với tính quyết định cứng nhắc của thực tiễn thống kê cổ điển, thứ 20 đã giơ tay khi, ví dụ, một ma trận sản phẩm chéo sẽ không đảo ngược và / hoặc một số giả định mô hình mô phạm đã được đáp ứng.


Cảm ơn @DJohnson. Khi bạn nói "Tổng hợp các giá trị thử nghiệm F cho biến giả cho từng tính năng", ý nghĩa chính xác của bạn là gì? tức là bạn sẽ làm gì chính xác với kết quả này? Ngoài ra, bạn có ý nghĩa gì bởi betas trong bối cảnh này? Cuối cùng, cách tiếp cận lặp đi lặp lại này có bị giới hạn không có tương tác không? Ví dụ: Sử dụng ví dụ ban đầu, nếu có sự khác biệt đáng kể về "chiều cao của các cá nhân lái xe đi làm thì sao?"
Amelio Vazquez-Reina

Ngoài ra, tại sao bạn lại tiến hành một chuỗi các thử nghiệm ANOVA 1 chiều trái ngược với thực hiện ANOVA đa chiều?
Amelio Vazquez-Reina

2
Những câu hỏi hay. Về mặt cấu hình mô tả kết quả, tôi đã nghĩ đến việc chỉ cần ghi lại kiểm tra F và ý nghĩa hoặc giá trị p liên quan cho từng tính năng và sau đó xếp hạng chúng từ cao đến thấp. Do F-test là tỷ lệ chi bình phương và do đó, không đối xứng, nên phương tiện dân số có thể được thêm vào báo cáo để giúp hiểu được tính định hướng của kết quả. Ngoài ra, một bài kiểm tra t có thể hỗ trợ cho sự hiểu biết này. Hồ sơ này sẽ giúp hiểu được cả cường độ hoặc sức mạnh của các tính năng như là một chức năng của các quần thể cơ bản.
Mike Hunter

Như đã lưu ý, các biến kiểm soát nên được thêm vào khi thích hợp. Chúng có thể bao gồm các tương tác, miễn là chúng được sử dụng nhất quán trên tất cả các mô hình. Giới thiệu các yếu tố bổ sung, theo định nghĩa, sẽ mở rộng mô hình từ một chiều sang hồi quy bội hoặc ANOVA.
Mike Hunter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.