Trong hồi quy tuyến tính, khi nào thì thích hợp để sử dụng nhật ký của một biến độc lập thay vì các giá trị thực tế?

164

Tôi đang tìm kiếm một phân phối có hành vi tốt hơn cho biến độc lập trong câu hỏi, hoặc để giảm ảnh hưởng của các ngoại lệ, hoặc một cái gì khác?

— d_2
nguồn

1

Bạn đang hỏi về cách làm giảm ảnh hưởng của các ngoại lệ hoặc khi nào sử dụng nhật ký của một số biến?

— Benjamin Bannier

23

Tôi nghĩ rằng OP đang nói "Tôi đã nghe nói về những người sử dụng nhật ký của các biến đầu vào: tại sao họ làm điều đó?"

— Shane

Tại sao chỉ là nhật ký? Không nên đặt câu hỏi này cho bất kỳ kỹ thuật chuyển đổi dữ liệu nào có thể được sử dụng để giảm thiểu phần dư liên quan đến mx + b?

— AsymLabs

1

@AsymLabs - Nhật ký có thể đặc biệt trong hồi quy, vì đây là chức năng duy nhất chuyển đổi sản phẩm thành tổng kết.

— xác suất

12

Một cảnh báo cho độc giả: Câu hỏi hỏi về việc chuyển đổi IV, nhưng một số câu trả lời dường như đang nói về lý do để chuyển đổi DV. Đừng lầm tưởng rằng đó cũng là những lý do để biến đổi IV - một số có thể, một số khác chắc chắn là không. Cụ thể, phân phối IV nói chung không liên quan (thực sự, phân phối biên của DV cũng không).

— Glen_b

168

Tôi luôn ngần ngại nhảy vào một chủ đề có nhiều phản hồi xuất sắc như thế này, nhưng điều gây ấn tượng với tôi là có rất ít câu trả lời cung cấp bất kỳ lý do nào để thích logarit đối với một số phép biến đổi khác làm "đè bẹp" dữ liệu, chẳng hạn như root hoặc đối ứng.

Trước khi làm điều đó, chúng ta hãy tóm tắt lại sự khôn ngoan trong các câu trả lời hiện có một cách tổng quát hơn. Một số biểu thức lại phi tuyến tính của biến phụ thuộc được chỉ định khi áp dụng bất kỳ điều nào sau đây:

Phần dư có phân phối lệch. Mục đích của việc chuyển đổi là để thu được các phần dư được phân phối gần như đối xứng (tất nhiên là khoảng 0).
Sự lây lan của phần dư thay đổi một cách có hệ thống với các giá trị của biến phụ thuộc ("không đồng nhất"). Mục đích của việc chuyển đổi là để loại bỏ sự thay đổi có hệ thống đó trong sự lây lan, đạt được "tính đồng nhất" gần đúng.
Để tuyến tính hóa một mối quan hệ.
Khi lý thuyết khoa học chỉ ra. Ví dụ, hóa học thường gợi ý biểu thị nồng độ dưới dạng logarit (đưa ra các hoạt động hoặc thậm chí là độ pH nổi tiếng).
Khi một lý thuyết thống kê mơ hồ hơn cho thấy phần dư phản ánh "các lỗi ngẫu nhiên" không tích lũy cộng gộp.
Để đơn giản hóa một mô hình. Ví dụ, đôi khi một logarit có thể đơn giản hóa số lượng và độ phức tạp của các thuật ngữ "tương tác".

(Những chỉ dẫn này có thể mâu thuẫn với nhau; trong những trường hợp như vậy, cần có sự phán xét.)

Vì vậy, khi nào một logarit được chỉ định cụ thể thay vì một số chuyển đổi khác?

Phần dư có phân phối sai lệch "mạnh". Trong cuốn sách về EDA của mình, John Tukey cung cấp các cách định lượng để ước tính sự biến đổi (trong họ Box-Cox, hoặc sức mạnh, biến đổi) dựa trên thống kê thứ hạng của phần dư. Nó thực sự đi đến thực tế là nếu lấy nhật ký đối xứng các phần dư, nó có thể là hình thức biểu hiện lại đúng; mặt khác, một số biểu hiện lại là cần thiết.
Khi SD của phần dư tỷ lệ thuận với các giá trị được trang bị (và không phải với một số công suất của các giá trị được trang bị).
Khi mối quan hệ gần với cấp số nhân.
Khi phần dư được cho là phản ánh các lỗi tích lũy nhân.
Bạn thực sự muốn một mô hình trong đó các thay đổi biên trong các biến giải thích được diễn giải theo các thay đổi nhân (phần trăm) trong biến phụ thuộc.

Cuối cùng, một số phi - lý do để sử dụng một tái thể hiện :

Làm cho ngoại lệ không giống như ngoại lệ. Một ngoại lệ là một mốc thời gian không phù hợp với một số mô tả tương đối đơn giản về dữ liệu. Thay đổi mô tả của một người để làm cho các ngoại lệ trông đẹp hơn thường là sự đảo ngược các ưu tiên không chính xác: trước tiên hãy lấy một mô tả tốt về mặt thống kê, tốt về mặt thống kê của dữ liệu và sau đó khám phá bất kỳ ngoại lệ nào. Đừng để ngoại lệ không thường xuyên xác định cách mô tả phần còn lại của dữ liệu!
Bởi vì phần mềm tự động làm điều đó. (Nói đủ rồi!)
Bởi vì tất cả các dữ liệu là tích cực. (Tính tích cực thường bao hàm độ lệch dương, nhưng nó không phải. Hơn nữa, các phép biến đổi khác có thể hoạt động tốt hơn. Ví dụ, một gốc thường hoạt động tốt nhất với dữ liệu được tính.)
Để làm cho dữ liệu "xấu" (có thể có chất lượng thấp) xuất hiện tốt.
Để có thể vẽ đồ thị dữ liệu. (Nếu một phép chuyển đổi là cần thiết để có thể vẽ dữ liệu, có lẽ cần một hoặc nhiều lý do chính đáng đã được đề cập. Nếu lý do duy nhất cho phép chuyển đổi thực sự là để vẽ, hãy tiếp tục và thực hiện - nhưng chỉ để vẽ dữ liệu. Để lại dữ liệu chưa được dịch để phân tích.)

— whuber
nguồn

1

Điều gì về các biến như mật độ dân số trong một khu vực hoặc tỷ lệ giáo viên-trẻ em cho mỗi khu học chánh hoặc số vụ giết người trên 1000 trong dân số? Tôi đã thấy các giáo sư lấy nhật ký của các biến này. Tôi không rõ tại sao. Ví dụ, không phải tỷ lệ giết người đã là một tỷ lệ phần trăm? Nhật ký sẽ thay đổi tỷ lệ phần trăm của tỷ lệ? Tại sao nhật ký của tỷ lệ giáo viên trẻ em được ưa thích? Có nên thực hiện chuyển đổi nhật ký cho mọi biến liên tục khi không có lý thuyết cơ bản nào về một dạng chức năng thực sự?

— dùng1690130

1

@JG Tỷ lệ nhỏ có xu hướng phân phối sai lệch; logarit và rễ có khả năng làm cho chúng đối xứng hơn. Tôi không hiểu câu hỏi của bạn liên quan đến tỷ lệ phần trăm: có lẽ bạn đang sử dụng các tỷ lệ phần trăm khác nhau (một để thể hiện một cái gì đó theo tỷ lệ của tổng thể và một tỷ lệ khác để thể hiện một sự thay đổi tương đối)? Tôi không tin rằng tôi đã viết bất cứ điều gì ủng hộ rằng logarit luôn được áp dụng - cách xa nó! Vì vậy, tôi không hiểu cơ sở cho câu hỏi cuối cùng của bạn.

— whuber

2

"Khi phần dư được cho là phản ánh các lỗi tích lũy nhân." Tôi gặp khó khăn khi giải thích cụm từ này. Có thể bổ sung điều này một chút với một hoặc hai câu khác không? Sự tích lũy mà bạn đang đề cập đến là gì?

— Hatshepsut

@ user1690130 cho các tỷ lệ và mật độ, chúng thường được trang bị dưới dạng phân phối poisson-gia đình cho các số có bù cho độ phơi sáng. Ví dụ: số người là số lượng và phần bù là diện tích của vùng. Xem câu hỏi này để được giải thích tốt - stats.stackexchange.com/questions/11182/,

— Michael Barton

2

@Hatshepsut một ví dụ đơn giản về các lỗi tích lũy nhân sẽ là âm lượng như một biến phụ thuộc và sai số trong các phép đo của từng chiều tuyến tính.

— abalter

73

Tôi luôn nói với sinh viên có ba lý do để biến đổi một biến bằng cách lấy logarit tự nhiên. Lý do ghi nhật ký biến sẽ xác định xem bạn muốn đăng nhập (các) biến độc lập, phụ thuộc hay cả hai. Để rõ ràng trong suốt Tôi đang nói về việc lấy logarit tự nhiên.

Thứ nhất, để cải thiện sự phù hợp với mô hình như các áp phích khác đã lưu ý. Chẳng hạn, nếu phần dư của bạn không được phân phối bình thường thì lấy logarit của biến bị lệch có thể cải thiện sự phù hợp bằng cách thay đổi thang đo và làm cho biến được phân phối "bình thường" hơn. Chẳng hạn, thu nhập bị cắt ngắn ở mức 0 và thường thể hiện độ lệch dương. Nếu biến có độ lệch âm, trước tiên bạn có thể đảo ngược biến trước khi lấy logarit. Tôi đang nghĩ ở đây đặc biệt là các thang đo Likert được nhập dưới dạng các biến liên tục. Mặc dù điều này thường áp dụng cho biến phụ thuộc, đôi khi bạn gặp vấn đề với phần dư (ví dụ: độ không đồng nhất) gây ra bởi một biến độc lập đôi khi có thể được sửa bằng cách lấy logarit của biến đó. Ví dụ, khi chạy một mô hình giải thích các đánh giá giảng viên trên một tập hợp giảng viên và lớp học, biến số "kích thước lớp học" (nghĩa là số lượng sinh viên trong bài giảng) có các ngoại lệ gây ra sự không đồng nhất vì sự chênh lệch trong các đánh giá giảng viên nhỏ hơn đoàn hệ so với đoàn hệ nhỏ hơn. Ghi nhật ký biến sinh viên sẽ giúp ích, mặc dù trong ví dụ này, việc tính toán các lỗi tiêu chuẩn mạnh mẽ hoặc sử dụng bình phương tối thiểu có thể giúp việc giải thích dễ dàng hơn.

Lý do thứ hai để ghi nhật ký một hoặc nhiều biến trong mô hình là để giải thích. Tôi gọi đây là lý do thuận tiện. Nếu bạn đăng nhập cả hai biến phụ thuộc (Y) và biến độc lập (X), thì hệ số hồi quy của bạn ( ) sẽ là độ co giãn và việc giải thích sẽ diễn ra như sau: X tăng 1% sẽ dẫn đến một paribus paribus % tăng Y (trung bình). Chỉ ghi nhật ký một mặt của "phương trình" hồi quy sẽ dẫn đến các cách hiểu khác nhau như được nêu dưới đây: $\beta$ $\beta$

Y và X - tăng một đơn vị trong X sẽ dẫn đến tăng / giảm trong Y $\beta$

Nhật ký Y và Nhật ký X - tăng 1% trong X sẽ dẫn đến tăng / giảm% trong Y $\beta$

Nhật ký Y và X - tăng một đơn vị trong X sẽ dẫn đến tăng / giảm % Y / % trong Y $\beta*100$

Y và Nhật ký X - tăng 1% trong X sẽ dẫn đến tăng / giảm trong Y $\beta/100$

Và cuối cùng có thể có một lý do lý thuyết để làm như vậy. Ví dụ, một số mô hình mà chúng tôi muốn ước tính là nhân và do đó phi tuyến. Lấy logarit cho phép các mô hình này được ước tính bằng hồi quy tuyến tính. Những ví dụ điển hình cho điều này bao gồm hàm sản xuất Cobb-Douglas trong kinh tế học và Phương trình khai thác trong giáo dục. Hàm sản xuất Cobb-Douglas giải thích cách chuyển đổi đầu vào thành đầu ra:

Y = A L^{α} K^{β}

$Y = A L^\alpha K^\beta$

Ở đâu

$Y$ là tổng sản lượng hoặc sản lượng của một số thực thể, ví dụ như công ty, trang trại, v.v.

$A$ là tổng năng suất của yếu tố (sự thay đổi đầu ra không phải do đầu vào gây ra, ví dụ như do thay đổi công nghệ hoặc thời tiết)

$L$ là đầu vào lao động

$K$ là đầu vào vốn

$\alpha$ & là độ co giãn đầu ra. $\beta$

Lấy logarit của điều này làm cho hàm dễ ước tính bằng hồi quy tuyến tính OLS như sau:

\log (Y) = \log (A) + α \log (L) + β \log (K)

$\log(Y) = \log(A) + \alpha\log(L) + \beta\log(K)$

— Graham Cookson
nguồn

5

"Nhật ký Y và X - tăng một đơn vị trong X sẽ dẫn đến tăng / giảm 100% Y": Tôi nghĩ điều này chỉ áp dụng khi β nhỏ để exp (β) 1 +

— Ida

1

tốt đẹp và rõ ràng cảm ơn! Một câu hỏi, làm thế nào để bạn giải thích các chặn trong trường hợp Log Y và X? và nói chung tôi đang gặp rắc rối về cách báo cáo hồi quy biến đổi nhật ký ...

— Bakaburg

2

Tôi là người thích câu trả lời có chứa các ví dụ từ Kinh tế học ["Bạn đã cho tôi tại ' Hàm sản xuất Cobb-Douglas '"] .... Mặc dù vậy, bạn nên thay đổi thuật ngữ chặn trong phương trình thứ hai để ghi nhật ký (A ) để làm cho nó phù hợp với phương trình đầu tiên.

— Steve S

@Ida quả thật. Đối với người đọc quan tâm, bài đăng của tôi ở đây mô tả lý do tại sao, đối với "y" đã đăng nhập, nhà phân tích nên can thiệp khi phần trăm thay đổi.

100 \times (e^{β} - 1)

$100 \times (e^\beta-1)$

— AdamO

21

Để biết thêm về điểm tuyệt vời của các nhà sản xuất về lý do thích logarit hơn một số biến đổi khác như gốc hoặc đối ứng, nhưng tập trung vào khả năng diễn giải duy nhất của các hệ số hồi quy do chuyển đổi log so với các biến đổi khác, xem:

Oliver N. Keene. Việc chuyển đổi nhật ký là đặc biệt. Thống kê trong Y học 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF về tính hợp pháp đáng ngờ có sẵn tại http://rds.epi-ucsf.org/ticr/syllabus/cifts/25/2009/04/21/Lecture/readings/log.pdf ).

Nếu bạn ghi nhật ký biến độc lập x vào cơ sở b , bạn có thể hiểu hệ số hồi quy (và CI) là sự thay đổi của biến phụ thuộc y trên b tăng gấp đôi trong x . (Do đó, các bản ghi cho cơ sở 2 thường hữu ích vì chúng tương ứng với sự thay đổi của y trên mỗi lần nhân đôi trong x , hoặc các bản ghi cho cơ sở 10 nếu x thay đổi theo nhiều bậc độ lớn, hiếm hơn). Các phép biến đổi khác, chẳng hạn như căn bậc hai, không có cách giải thích đơn giản như vậy.

Nếu bạn đăng nhập biến phụ thuộc y (không phải câu hỏi ban đầu mà là câu hỏi mà một số câu trả lời trước đã giải quyết), thì tôi thấy ý tưởng của 'Cole sympercents' của Tim Cole hấp dẫn khi trình bày kết quả (tôi thậm chí đã sử dụng chúng trong một bài báo), mặc dù họ dường như không nắm bắt được tất cả những điều đó:

Tim J Cole. Sympercents: sự khác biệt tỷ lệ phần trăm đối xứng trên thang đo 100 log (e) đơn giản hóa việc trình bày dữ liệu chuyển đổi nhật ký. Thống kê trong Y học 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Tôi rất vui vì Stat Med đã ngừng sử dụng SICIs vì DOI ...]

— trên đỉnh
nguồn

1

Cảm ơn đã tham khảo và điểm rất tốt. Câu hỏi quan tâm là liệu vấn đề này có áp dụng cho tất cả các biến đổi, không chỉ các bản ghi. Đối với chúng tôi, số liệu thống kê / xác suất là hữu ích vì nó cho phép dự đoán hiệu suất hiệu quả hoặc tiêu chí / hướng dẫn hiệu quả. Trong những năm qua, chúng tôi đã sử dụng các phép biến đổi công suất (nhật ký bằng tên khác), biến đổi đa thức và các phép biến đổi khác (thậm chí biến đổi từng phần) để cố gắng giảm phần dư, thắt chặt khoảng tin cậy và nói chung là cải thiện khả năng dự đoán từ một tập dữ liệu nhất định. Có phải chúng ta đang nói điều này là không chính xác?

— AsymLabs

1

@AsymLabs, hai nền văn hóa của Breiman tách biệt nhau (đại khái là người dự đoán và người điều hành) như thế nào? Cf. Hai nền văn hóa - gây tranh cãi.

— chối

15

Người ta thường lấy nhật ký của một biến đầu vào để chia tỷ lệ và thay đổi phân phối (ví dụ để làm cho nó được phân phối bình thường). Nó không thể được thực hiện một cách mù quáng; bạn cần cẩn thận khi thực hiện bất kỳ tỷ lệ nào để đảm bảo rằng kết quả vẫn có thể hiểu được.

Điều này được thảo luận trong hầu hết các văn bản thống kê giới thiệu. Bạn cũng có thể đọc bài viết của Andrew Gelman về "Thu nhỏ đầu vào hồi quy bằng cách chia cho hai độ lệch chuẩn" để thảo luận về vấn đề này. Ông cũng có một cuộc thảo luận rất hay về vấn đề này khi bắt đầu "Phân tích dữ liệu bằng cách sử dụng hồi quy và mô hình đa cấp / phân cấp" .

Lấy nhật ký không phải là một phương pháp thích hợp để xử lý dữ liệu / ngoại lệ xấu.

— Shane
nguồn

12

Bạn có xu hướng lấy nhật ký của dữ liệu khi có vấn đề với phần dư. Ví dụ: nếu bạn vẽ các phần dư dựa trên một hiệp phương cụ thể và quan sát một mô hình tăng / giảm (hình dạng phễu), thì một phép biến đổi có thể phù hợp. Phần dư không ngẫu nhiên thường chỉ ra rằng các giả định mô hình của bạn là sai, tức là dữ liệu không bình thường.

Một số loại dữ liệu tự động cho vay để chuyển đổi logarit. Ví dụ, tôi thường lấy nhật ký khi giao dịch với nồng độ hoặc tuổi.

Mặc dù các phép biến đổi không được sử dụng chủ yếu để xử lý các ngoại lệ, nhưng chúng giúp ích kể từ khi ghi nhật ký làm mất dữ liệu của bạn.

— csgillespie
nguồn

1

Tuy nhiên, sử dụng nhật ký sẽ thay đổi mô hình - đối với hồi quy tuyến tính, đó là y ~ a * x + b, đối với hồi quy tuyến tính trên nhật ký, đó là y ~ y0 * exp (x / x0).

1

Tôi đồng ý - lấy nhật ký thay đổi mô hình của bạn. Nhưng nếu bạn phải chuyển đổi dữ liệu của mình, điều đó có nghĩa là mô hình của bạn không phù hợp ngay từ đầu.

— csgillespie

2

@cgillespie: Nồng độ, có; nhưng tuổi tác? Điều đó lạ thật.

— whuber

@whuber: Tôi cho rằng nó phụ thuộc rất nhiều vào dữ liệu, nhưng các bộ dữ liệu tôi đã sử dụng, bạn sẽ thấy một sự khác biệt lớn giữa 10 và 18 tuổi, nhưng một sự khác biệt nhỏ giữa 20 và 28 tuổi. Ngay cả đối với trẻ nhỏ, sự khác biệt giữa trẻ 0-1 tuổi cũng không giống với sự khác biệt giữa 1-2.

— csgillespie

1

@landroni Đó là từ ngắn gọn. Tôi sẽ không nói nó nghèo, ngoại trừ có khả năng "ví dụ" được dự định thay vì "tức là" tôi hiểu việc sử dụng "ngẫu nhiên" ở đây theo nghĩa "độc lập và phân phối giống hệt nhau", đó thực sự là giả định chung nhất được giả định bởi TUỔI. Trong một số cài đặt, mọi người cũng cho rằng phân phối cơ bản phổ biến này là bình thường, nhưng điều đó không thực sự cần thiết trong thực tế hoặc trên lý thuyết: tất cả những gì cần thiết là phân phối lấy mẫu của các thống kê có liên quan gần với bình thường.

— whuber

10

$X$ $X$ $X$

$X$ $X$ $\sqrt[3]{X}$ rms $X$ $x$

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

$\sqrt[3]{X}$ $X$

— Frank Mitchell
nguồn

E [Y | X] = f (X)

$E[Y|X] = f(X)$

9

Tôi muốn trả lời câu hỏi của người dùng 1690130 để lại như một nhận xét cho câu trả lời đầu tiên vào ngày 26 tháng 10 và đọc như sau: "Điều gì về các biến như mật độ dân số trong một khu vực hoặc tỷ lệ giáo viên trẻ em cho mỗi khu học chánh hoặc Tôi đã thấy các giáo sư lấy nhật ký của các biến này. Tôi không rõ tại sao. Chẳng hạn, tỷ lệ giết người đã là một tỷ lệ phần trăm? Nhật ký sẽ thay đổi tỷ lệ phần trăm của Tại sao nhật ký của tỷ lệ giáo viên-trẻ em được ưa thích? "

Tôi đang tìm cách trả lời một vấn đề tương tự và muốn chia sẻ những gì về giáo trình thống kê cũ của tôi ( Jeffrey Wooldridge. 2006. Giới thiệu Kinh tế lượng - Phương pháp hiện đại, Phiên bản thứ 4. Chương 6 Phân tích hồi quy: Các vấn đề tiếp theo. 191 ) nói về nó. Wooldridge khuyên:

Các biến xuất hiện ở dạng tỷ lệ hoặc phần trăm, chẳng hạn như tỷ lệ thất nghiệp, tỷ lệ tham gia chương trình lương hưu, tỷ lệ học sinh vượt qua kỳ thi tiêu chuẩn và tỷ lệ bắt giữ đối với các tội phạm được báo cáo - có thể xuất hiện ở dạng ban đầu hoặc logarit , mặc dù có xu hướng sử dụng chúng ở dạng cấp độ . Điều này là do bất kỳ hệ số hồi quy nào liên quan đến biến ban đầu - cho dù đó là biến phụ thuộc hay biến độc lập - sẽ có một giải thích thay đổi điểm phần trăm. Nếu chúng ta sử dụng, giả sử, ghi nhật ký ( unem ) trong hồi quy, trong đó unem là tỷ lệ phần trăm của các cá nhân thất nghiệp, chúng ta phải rất cẩn thận để phân biệt giữa thay đổi điểm phần trăm và thay đổi tỷ lệ phần trăm. Nhớ, nếu unemđi từ 8 đến 9, đây là mức tăng một điểm phần trăm, nhưng tăng 12,5% so với mức thất nghiệp ban đầu. Sử dụng nhật ký có nghĩa là chúng tôi đang xem xét tỷ lệ phần trăm thay đổi trong tỷ lệ thất nghiệp: log (9) - log (8) = 0.118 hoặc 11.8%, đó là xấp xỉ logarit với mức tăng 12,5% thực tế.

Dựa trên điều này và cõng trên nhận xét trước đó của người đăng ký đối với câu hỏi của người dùng 1690130, tôi sẽ tránh sử dụng logarit của mật độ hoặc tỷ lệ phần trăm để giữ cho việc giải thích đơn giản trừ khi sử dụng biểu mẫu nhật ký tạo ra sự đánh đổi lớn như có thể làm giảm độ lệch của mật độ hoặc biến tỷ lệ.

— Sannita
nguồn

Thông thường đối với tỷ lệ phần trăm (tức là tỷ lệ trên (0,1), một biến đổi logit được sử dụng. Điều này là do dữ liệu tỷ lệ thường vi phạm giả định về tính quy tắc của phần dư, theo cách chuyển đổi log sẽ không chính xác.

— colin

3

Quan điểm của Shane là lấy nhật ký để xử lý dữ liệu xấu cũng được thực hiện. Như Colin về tầm quan trọng của phần dư bình thường. Trong thực tế tôi thấy rằng thông thường bạn có thể nhận được số dư bình thường nếu các biến đầu vào và đầu ra cũng tương đối bình thường. Trong thực tế, điều này có nghĩa là phân phối các bộ dữ liệu được chuyển đổi và chưa được dịch và đảm bảo với bản thân rằng chúng đã trở nên bình thường hơn và / hoặc tiến hành các xét nghiệm về tính quy phạm (ví dụ: các thử nghiệm Shapiro-Wilk hoặc Kolmogorov-Smirnov) và xác định xem kết quả có bình thường hơn không. Giải thích và truyền thống cũng rất quan trọng. Ví dụ, trong các biến đổi nhật ký tâm lý học nhận thức về thời gian phản ứng thường được sử dụng, tuy nhiên, với tôi ít nhất, việc giải thích một bản ghi RT không rõ ràng. Hơn nữa,

— russellpierce
nguồn

2

Câu trả lời sẽ được sắp xếp lại dựa trên phiếu bầu, vì vậy vui lòng cố gắng không tham khảo các câu trả lời khác.

— Vebjorn Ljosa

4

Một bài kiểm tra về tính bình thường thường là quá nghiêm trọng. Thông thường nó đủ để có được phần dư phân phối đối xứng. (Trong thực tế, phần dư có xu hướng phân phối cực đại mạnh mẽ, một phần là sự giả tạo của ước tính mà tôi nghi ngờ, và do đó sẽ kiểm tra là "không đáng kể" bất kể người ta thể hiện lại dữ liệu như thế nào.)

— whuber

@whuber: Đồng ý. Đó là lý do tại sao tôi chỉ định "trở nên bình thường hơn". Mục đích nên là để nhãn cầu thống kê kiểm tra thay đổi thay vì quyết định chấp nhận / từ chối dựa trên giá trị p của xét nghiệm.

— russellpierce

Một người nên LUÔN tham khảo các câu trả lời khác khi thích hợp!

— abalter

@abalter? Tôi không làm theo.

— russellpierce