Làm thế nào bạn sẽ giải thích các mô hình tuyến tính tổng quát cho những người không có nền tảng thống kê?


16

Tôi luôn gặp khó khăn khi giải thích các kỹ thuật thống kê cho khán giả không có nền tảng thống kê. Nếu tôi muốn giải thích GLM là gì đối với những khán giả như vậy (mà không đưa ra thuật ngữ thống kê), cách tốt nhất hoặc hiệu quả nhất là gì?

Tôi thường giải thích GLM với ba phần - (1) thành phần ngẫu nhiên là biến phản ứng, (2) thành phần hệ thống là các yếu tố dự đoán tuyến tính và (3) chức năng liên kết là "chìa khóa" để kết nối (1) và (2). Sau đó, tôi sẽ đưa ra một ví dụ về hồi quy tuyến tính hoặc logistic và giải thích cách chức năng liên kết được chọn dựa trên biến trả lời. Do đó nó hoạt động như là chìa khóa kết nối hai thành phần.


Những loại khán giả có nền tảng? Giải thích GLM cho một nhà toán học hoặc một nhà sinh học là rất khác nhau.

1
Sẽ có một vài nhà toán học không có nền tảng thống kê, @Procrastinator. Nhưng quan điểm của bạn là một điều tốt: có một ý tưởng rõ ràng hơn về đối tượng dự định sẽ giúp giữ cho các câu trả lời nhất quán và tập trung. Bạn có phiền khi chỉnh sửa câu hỏi để mở rộng về điều này không, Ken?
whuber

1
Tôi thấy quan điểm của bạn, @Procrastinator nhưng tôi hy vọng sẽ có được câu trả lời dễ hiểu cho mọi người (các nhà toán học và / hoặc nhà sinh học), nói chung bởi vì nếu tôi không có nền tảng toán học hoặc sinh học (đó là trường hợp), Tôi sẽ không biết làm thế nào để giải thích GLM cho họ về nền tảng của họ.
Ken

4
Tôi nghĩ điều quan trọng là hãy nhớ rằng bạn có thể lấy bằng cử nhân, thạc sĩ hoặc thậm chí là tiến sĩ sinh học mà không cần học lớp thống kê, thậm chí tại nhiều trường đại học cấp một. Bằng cấp của tôi về hóa sinh đòi hỏi hai học kỳ tính toán giới thiệu và một học kỳ của phương trình vi phân. Bản chất của các lớp này nhanh chóng bị lãng quên vì nhiều sinh viên sẽ không bao giờ sử dụng các kỹ năng này nữa! Vì vậy, tôi thực sự nghĩ rằng cần phải giảm bớt lời giải thích cho những người không thống kê điển hình.
Alexander

Một bình luận để thêm vào các câu trả lời dưới đây; nếu bạn có thể vượt qua việc khớp một đường (tức là hàm liên kết và các yếu tố dự báo tuyến tính) thì kết nối với trọng số phương sai nghịch đảo hiệu quả không quá khó để giao tiếp; chúng tôi chỉ đơn giản muốn tăng cường đóng góp chính xác và giảm cân phần còn lại. Điều này cho phép bạn tránh nói bất cứ điều gì quá kỹ thuật về tính ngẫu nhiên của kết quả. Các GLM của NB đã được phát minh là (chỉ) các mô hình mà IWLS có thể được sử dụng để cung cấp cho MLE, vì vậy cách suy nghĩ về chúng được mô tả ở trên nắm bắt hầu hết lý do tại sao chúng thực sự hữu ích.
khách

Câu trả lời:


25

Nếu khán giả thực sự không có nền tảng thống kê, tôi nghĩ tôi sẽ cố gắng đơn giản hóa lời giải thích thêm một chút nữa. Đầu tiên, tôi sẽ vẽ một mặt phẳng tọa độ trên bảng với một đường thẳng trên đó, như vậy:

y = mx + b

Mọi người trong buổi nói chuyện của bạn sẽ quen thuộc với phương trình cho một dòng đơn giản, y = m x + b , bởi vì đó là thứ được học ở trường phổ thông. Vì vậy, tôi sẽ hiển thị cùng với bản vẽ. Tuy nhiên, tôi sẽ viết nó ngược lại, như vậy: y= =mx+b

 mx+b= =y

Tôi muốn nói rằng phương trình này là một ví dụ về hồi quy tuyến tính đơn giản. Sau đó tôi sẽ giải thích làm thế nào bạn (hoặc một máy tính) có thể khớp một phương trình như vậy với một biểu đồ phân tán các điểm dữ liệu, giống như biểu đồ được hiển thị trong hình ảnh này:

Âm mưu phân tán

Tôi muốn nói rằng ở đây, chúng ta đang sử dụng tuổi của sinh vật mà chúng ta đang nghiên cứu để dự đoán mức độ lớn của nó và phương trình hồi quy tuyến tính kết quả mà chúng ta có được (hiển thị trên hình ảnh) có thể được sử dụng để dự đoán mức độ lớn của một sinh vật là nếu chúng ta biết tuổi của nó.

 mx+b= =y

Sau đó, tôi sẽ giải thích lại rằng đây là một ví dụ về phương trình hồi quy tuyến tính đơn giản và thực sự có nhiều loại phức tạp hơn. Ví dụ, trong một loạt được gọi là hồi quy logistic , y chỉ được phép là 1 hoặc 0. Người ta có thể muốn sử dụng loại mô hình này nếu bạn đang cố gắng dự đoán câu trả lời "có" hoặc "không", như người đó có bị bệnh hay không. Một loạt đặc biệt là một cái gì đó gọi là Poisson hồi quy , được sử dụng để phân tích "đếm" hay "sự kiện" dữ liệu (Tôi sẽ không đi sâu thêm vào này, trừ khi thực sự cần thiết).

Sau đó tôi sẽ giải thích rằng hồi quy tuyến tính, hồi quy logistic và hồi quy Poisson thực sự là tất cả các ví dụ đặc biệt của một phương pháp tổng quát hơn, một cái gì đó gọi là "mô hình tuyến tính tổng quát". Điều tuyệt vời về "mô hình tuyến tính tổng quát" là chúng cho phép chúng ta sử dụng dữ liệu "phản hồi" có thể nhận bất kỳ giá trị nào (như mức độ lớn của một sinh vật trong hồi quy tuyến tính), chỉ mất 1 hoặc 0 (như ai đó có hay không bệnh trong hồi quy logistic), hoặc có số lượng rời rạc (như số lượng sự kiện trong hồi quy Poisson).

Sau đó, tôi sẽ nói rằng trong các loại phương trình này, x (dự đoán) được kết nối với y (phản hồi) thông qua một cái gì đó mà các nhà thống kê gọi là "hàm liên kết". Chúng tôi sử dụng các "hàm liên kết" này trong các trường hợp trong đó x không liên quan đến y theo cách tuyến tính.

Dù sao, đó là hai xu của tôi về vấn đề này! Có thể lời giải thích được đề xuất của tôi nghe có vẻ hơi ngớ ngẩn, nhưng nếu mục đích của bài tập này chỉ là để đưa "ý chính" đến với khán giả, có lẽ một lời giải thích như thế này không quá tệ. Tôi nghĩ điều quan trọng là khái niệm này phải được giải thích một cách trực quan và bạn tránh ném vào các từ như "thành phần ngẫu nhiên", "thành phần hệ thống", "chức năng liên kết", "chức năng xác định", "chức năng logit", v.v. Nếu bạn ' đang nói chuyện với những người thực sự không có nền tảng thống kê, như một nhà sinh học hay bác sĩ điển hình, đôi mắt của họ sẽ sáng lên khi nghe những lời đó. Họ không biết phân phối xác suất là gì, họ chưa bao giờ nghe nói về chức năng liên kết và họ không biết "logit" là gì

Trong lời giải thích của bạn cho một đối tượng không thống kê, tôi cũng sẽ tập trung vào khi nào nên sử dụng loại mô hình nào. Tôi có thể nói về số lượng dự đoán mà bạn được phép đưa vào ở phía bên trái của phương trình (Tôi đã nghe quy tắc ngón tay cái không quá kích thước mẫu của bạn chia cho mười). Sẽ rất tốt nếu bao gồm một bảng tính ví dụ với dữ liệu và giải thích cho khán giả cách sử dụng gói phần mềm thống kê để tạo mô hình. Sau đó tôi sẽ đi qua đầu ra của mô hình đó từng bước và cố gắng giải thích tất cả các chữ cái và số khác nhau có ý nghĩa gì. Các nhà sinh học không biết gì về công cụ này và quan tâm nhiều hơn đến việc tìm hiểu nên sử dụng bài kiểm tra nào thay vì thực sự hiểu được toán học đằng sau GUI của SPSS!

Tôi sẽ đánh giá cao bất kỳ ý kiến ​​hoặc đề xuất nào liên quan đến lời giải thích được đề xuất của tôi, đặc biệt nếu có ai ghi chú lỗi hoặc nghĩ cách giải thích tốt hơn!


4
Không phải ai cũng quen thuộc với phương trình cho một dòng; thậm chí không phải tất cả sinh viên tốt nghiệp, cũng không phải tất cả những người có bằng tiến sĩ.
Peter Flom - Tái lập Monica

6
Ý tôi là, tôi chắc chắn rằng một sinh viên tốt nghiệp tồn tại ngoài kia trên thế giới, người không biết phương trình của một dòng, nhưng có lẽ khán giả mà bạn muốn giải thích các mô hình tuyến tính tổng quát ít nhất sẽ có một nửa manh mối về cao đại số cấp trường! : -o
Alexander

Tôi đồng ý với bạn Alexander và cách tiếp cận của bạn có vẻ rất tự nhiên đối với tôi. Tôi sẽ không tập trung vào "g" của glm quá nhiều (hoặc quá sớm) và cũng sẽ không đi sâu vào phân biệt ngẫu nhiên so với cố định. Tất nhiên nó phụ thuộc vào lượng thời gian bạn phải giải thích tất cả điều này.
Đaminh Comtois

Y= =αX+βα

9

Tôi sẽ không gọi phản hồi là một thành phần ngẫu nhiên. Nó là sự kết hợp của một thành phần xác định và ngẫu nhiên.

đăng nhập(p/(1-p))[0,1]


3
Tôi tự hỏi về việc sử dụng "phản ứng." Đối tượng dự định của chúng tôi có thể hiểu điều đó có nghĩa là phản ứng quan sát được : có hoặc không, 0 hoặc 1, v.v. Trong hồi quy logistic, chúng tôi mô hình hóa một cái gì đó không quan sát được (và không bao giờ có thể quan sát trực tiếp); cụ thể là cơ hội giả thuyết của phản ứng. "Liên kết" chỉ đơn thuần là vấn đề thể hiện những cơ hội đó dưới dạng tỷ lệ cược đăng nhập chứ không phải là xác suất. Hồi quy logistic giả định tỷ lệ cược log thay đổi tuyến tính với IV. (Việc tôi sử dụng "mô hình", "giả" và "giả" chứ không phải "là" và "dự đoán", cho thấy một quan điểm nhận thức và bản thể khác nhau, quá.)
whuber

1
Điểm tốt whuber.
Michael R. Chernick

-2

Tôi sẽ giải thích nó nói rằng đôi khi tôi cần những điều dự đoán. Ví dụ, giá của một ngôi nhà được cung cấp một số thông tin về nó. Nói, kích thước, vị trí của nó, tuổi xây dựng, v.v. Tôi muốn đưa yếu tố đó vào một mô hình có tính đến ảnh hưởng của các yếu tố này để dự đoán giá.

Bây giờ lấy một ví dụ phụ, giả sử, tôi chỉ xem xét kích thước của ngôi nhà. Điều đó có nghĩa là không có gì khác ảnh hưởng đến giá cả. Đó có thể là trường hợp tôi đang so sánh những ngôi nhà ở cùng địa phương, được xây dựng cùng thời gian, v.v. Hoặc có thể là tôi không muốn làm phức tạp vấn đề cho chính mình và do đó muốn cuộc sống thực sự phù hợp với cách thức Tôi có thể nghĩ xa. Tiếp tục, tôi tạo một mô hình nơi tôi có một danh sách các kích cỡ và giá tương ứng của các tài sản tương tự (giả sử, từ việc bán hàng đang diễn ra gần đây ... nhưng điều đó sẽ có sự thiên vị nghiêm trọng từ những ngôi nhà không được bán và do đó ảnh hưởng đến giá của những ngôi nhà đó. nhưng hãy bỏ qua điều đó).

Bây giờ tôi thấy rằng một ngôi nhà 100 feet vuông có giá 1 triệu đô la (vượt qua chính mình, đây là một ví dụ đơn giản). Vì vậy, tự nhiên bạn sẽ mong đợi một ngôi nhà 200 feet sẽ có giá gấp đôi. Và đó là những gì chúng ta sẽ gọi là "mô hình tuyến tính". Tất nhiên khi chúng tôi thu thập dữ liệu và kích thước lô so với giá, chúng tôi thấy rằng nó không chính xác gấp đôi. Nhưng chắc chắn có một xu hướng ngày càng tăng.

Vì vậy, tôi cố gắng định lượng xu hướng. Làm thế nào nhiều tăng cho mỗi foot vuông tăng? Đó là hồi quy tuyến tính.

Bản đồ thuật ngữ INSERT và tiếp tục với các khái niệm thống kê. Một cách giải thích thành phần ngẫu nhiên và có hệ thống có thể là bất cứ điều gì bạn quên mô hình hóa, hoặc không thể đánh giá được, là ngẫu nhiên. Bất cứ điều gì bạn có thể là hệ thống. (Ví dụ: giả sử là năm 2008 và bạn muốn bán một căn nhà.)

Giả định làm nền tảng cho mô hình này là biểu đồ tán xạ sẽ trông giống như một cây gậy. Đó là cả X và Y là "Bình thường". và tất cả đều có phương sai tương tự.

Nếu đó không phải là trường hợp, nhập GLM. và bây giờ giải thích chức năng liên kết n tất cả những điều đó.

Nó được đơn giản hóa, nhưng nó nên hoạt động như một giới thiệu.

Bạn có thể đưa vào lịch sử của GLM và các mô hình giai thừa. Trường hợp Fisher yêu cầu mọi thứ bắt đầu thay đổi cùng nhau và khung này phù hợp với loại phức tạp đó.

Hi vọng điêu nay co ich...


1
Chúng tôi đánh giá cao nỗ lực của bạn nhưng không cần phải đăng tài liệu của bạn cho đến khi bạn thực sự viết xong. Ở dạng hiện tại, cách nó phân rã thành các ghi chú mật mã thưa thớt ở cuối sẽ khiến độc giả thất vọng.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.