Tôi đang tìm kiếm một phân phối có hành vi tốt hơn cho biến độc lập trong câu hỏi, hoặc để giảm ảnh hưởng của các ngoại lệ, hoặc một cái gì khác?
Tôi đang tìm kiếm một phân phối có hành vi tốt hơn cho biến độc lập trong câu hỏi, hoặc để giảm ảnh hưởng của các ngoại lệ, hoặc một cái gì khác?
Câu trả lời:
Tôi luôn ngần ngại nhảy vào một chủ đề có nhiều phản hồi xuất sắc như thế này, nhưng điều gây ấn tượng với tôi là có rất ít câu trả lời cung cấp bất kỳ lý do nào để thích logarit đối với một số phép biến đổi khác làm "đè bẹp" dữ liệu, chẳng hạn như root hoặc đối ứng.
Trước khi làm điều đó, chúng ta hãy tóm tắt lại sự khôn ngoan trong các câu trả lời hiện có một cách tổng quát hơn. Một số biểu thức lại phi tuyến tính của biến phụ thuộc được chỉ định khi áp dụng bất kỳ điều nào sau đây:
Phần dư có phân phối lệch. Mục đích của việc chuyển đổi là để thu được các phần dư được phân phối gần như đối xứng (tất nhiên là khoảng 0).
Sự lây lan của phần dư thay đổi một cách có hệ thống với các giá trị của biến phụ thuộc ("không đồng nhất"). Mục đích của việc chuyển đổi là để loại bỏ sự thay đổi có hệ thống đó trong sự lây lan, đạt được "tính đồng nhất" gần đúng.
Để tuyến tính hóa một mối quan hệ.
Khi lý thuyết khoa học chỉ ra. Ví dụ, hóa học thường gợi ý biểu thị nồng độ dưới dạng logarit (đưa ra các hoạt động hoặc thậm chí là độ pH nổi tiếng).
Khi một lý thuyết thống kê mơ hồ hơn cho thấy phần dư phản ánh "các lỗi ngẫu nhiên" không tích lũy cộng gộp.
Để đơn giản hóa một mô hình. Ví dụ, đôi khi một logarit có thể đơn giản hóa số lượng và độ phức tạp của các thuật ngữ "tương tác".
(Những chỉ dẫn này có thể mâu thuẫn với nhau; trong những trường hợp như vậy, cần có sự phán xét.)
Vì vậy, khi nào một logarit được chỉ định cụ thể thay vì một số chuyển đổi khác?
Phần dư có phân phối sai lệch "mạnh". Trong cuốn sách về EDA của mình, John Tukey cung cấp các cách định lượng để ước tính sự biến đổi (trong họ Box-Cox, hoặc sức mạnh, biến đổi) dựa trên thống kê thứ hạng của phần dư. Nó thực sự đi đến thực tế là nếu lấy nhật ký đối xứng các phần dư, nó có thể là hình thức biểu hiện lại đúng; mặt khác, một số biểu hiện lại là cần thiết.
Khi SD của phần dư tỷ lệ thuận với các giá trị được trang bị (và không phải với một số công suất của các giá trị được trang bị).
Khi mối quan hệ gần với cấp số nhân.
Khi phần dư được cho là phản ánh các lỗi tích lũy nhân.
Bạn thực sự muốn một mô hình trong đó các thay đổi biên trong các biến giải thích được diễn giải theo các thay đổi nhân (phần trăm) trong biến phụ thuộc.
Cuối cùng, một số phi - lý do để sử dụng một tái thể hiện :
Làm cho ngoại lệ không giống như ngoại lệ. Một ngoại lệ là một mốc thời gian không phù hợp với một số mô tả tương đối đơn giản về dữ liệu. Thay đổi mô tả của một người để làm cho các ngoại lệ trông đẹp hơn thường là sự đảo ngược các ưu tiên không chính xác: trước tiên hãy lấy một mô tả tốt về mặt thống kê, tốt về mặt thống kê của dữ liệu và sau đó khám phá bất kỳ ngoại lệ nào. Đừng để ngoại lệ không thường xuyên xác định cách mô tả phần còn lại của dữ liệu!
Bởi vì phần mềm tự động làm điều đó. (Nói đủ rồi!)
Bởi vì tất cả các dữ liệu là tích cực. (Tính tích cực thường bao hàm độ lệch dương, nhưng nó không phải. Hơn nữa, các phép biến đổi khác có thể hoạt động tốt hơn. Ví dụ, một gốc thường hoạt động tốt nhất với dữ liệu được tính.)
Để làm cho dữ liệu "xấu" (có thể có chất lượng thấp) xuất hiện tốt.
Để có thể vẽ đồ thị dữ liệu. (Nếu một phép chuyển đổi là cần thiết để có thể vẽ dữ liệu, có lẽ cần một hoặc nhiều lý do chính đáng đã được đề cập. Nếu lý do duy nhất cho phép chuyển đổi thực sự là để vẽ, hãy tiếp tục và thực hiện - nhưng chỉ để vẽ dữ liệu. Để lại dữ liệu chưa được dịch để phân tích.)
Tôi luôn nói với sinh viên có ba lý do để biến đổi một biến bằng cách lấy logarit tự nhiên. Lý do ghi nhật ký biến sẽ xác định xem bạn muốn đăng nhập (các) biến độc lập, phụ thuộc hay cả hai. Để rõ ràng trong suốt Tôi đang nói về việc lấy logarit tự nhiên.
Thứ nhất, để cải thiện sự phù hợp với mô hình như các áp phích khác đã lưu ý. Chẳng hạn, nếu phần dư của bạn không được phân phối bình thường thì lấy logarit của biến bị lệch có thể cải thiện sự phù hợp bằng cách thay đổi thang đo và làm cho biến được phân phối "bình thường" hơn. Chẳng hạn, thu nhập bị cắt ngắn ở mức 0 và thường thể hiện độ lệch dương. Nếu biến có độ lệch âm, trước tiên bạn có thể đảo ngược biến trước khi lấy logarit. Tôi đang nghĩ ở đây đặc biệt là các thang đo Likert được nhập dưới dạng các biến liên tục. Mặc dù điều này thường áp dụng cho biến phụ thuộc, đôi khi bạn gặp vấn đề với phần dư (ví dụ: độ không đồng nhất) gây ra bởi một biến độc lập đôi khi có thể được sửa bằng cách lấy logarit của biến đó. Ví dụ, khi chạy một mô hình giải thích các đánh giá giảng viên trên một tập hợp giảng viên và lớp học, biến số "kích thước lớp học" (nghĩa là số lượng sinh viên trong bài giảng) có các ngoại lệ gây ra sự không đồng nhất vì sự chênh lệch trong các đánh giá giảng viên nhỏ hơn đoàn hệ so với đoàn hệ nhỏ hơn. Ghi nhật ký biến sinh viên sẽ giúp ích, mặc dù trong ví dụ này, việc tính toán các lỗi tiêu chuẩn mạnh mẽ hoặc sử dụng bình phương tối thiểu có thể giúp việc giải thích dễ dàng hơn.
Lý do thứ hai để ghi nhật ký một hoặc nhiều biến trong mô hình là để giải thích. Tôi gọi đây là lý do thuận tiện. Nếu bạn đăng nhập cả hai biến phụ thuộc (Y) và biến độc lập (X), thì hệ số hồi quy của bạn ( ) sẽ là độ co giãn và việc giải thích sẽ diễn ra như sau: X tăng 1% sẽ dẫn đến một paribus paribus % tăng Y (trung bình). Chỉ ghi nhật ký một mặt của "phương trình" hồi quy sẽ dẫn đến các cách hiểu khác nhau như được nêu dưới đây:β
Y và X - tăng một đơn vị trong X sẽ dẫn đến tăng / giảm trong Y
Nhật ký Y và Nhật ký X - tăng 1% trong X sẽ dẫn đến tăng / giảm% trong Y
Nhật ký Y và X - tăng một đơn vị trong X sẽ dẫn đến tăng / giảm % Y / % trong Y
Y và Nhật ký X - tăng 1% trong X sẽ dẫn đến tăng / giảm trong Y
Và cuối cùng có thể có một lý do lý thuyết để làm như vậy. Ví dụ, một số mô hình mà chúng tôi muốn ước tính là nhân và do đó phi tuyến. Lấy logarit cho phép các mô hình này được ước tính bằng hồi quy tuyến tính. Những ví dụ điển hình cho điều này bao gồm hàm sản xuất Cobb-Douglas trong kinh tế học và Phương trình khai thác trong giáo dục. Hàm sản xuất Cobb-Douglas giải thích cách chuyển đổi đầu vào thành đầu ra:
Ở đâu
là tổng sản lượng hoặc sản lượng của một số thực thể, ví dụ như công ty, trang trại, v.v.
là tổng năng suất của yếu tố (sự thay đổi đầu ra không phải do đầu vào gây ra, ví dụ như do thay đổi công nghệ hoặc thời tiết)
là đầu vào lao động
là đầu vào vốn
beta & là độ co giãn đầu ra.
Lấy logarit của điều này làm cho hàm dễ ước tính bằng hồi quy tuyến tính OLS như sau:
Để biết thêm về điểm tuyệt vời của các nhà sản xuất về lý do thích logarit hơn một số biến đổi khác như gốc hoặc đối ứng, nhưng tập trung vào khả năng diễn giải duy nhất của các hệ số hồi quy do chuyển đổi log so với các biến đổi khác, xem:
Oliver N. Keene. Việc chuyển đổi nhật ký là đặc biệt. Thống kê trong Y học 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF về tính hợp pháp đáng ngờ có sẵn tại http://rds.epi-ucsf.org/ticr/syllabus/cifts/25/2009/04/21/Lecture/readings/log.pdf ).
Nếu bạn ghi nhật ký biến độc lập x vào cơ sở b , bạn có thể hiểu hệ số hồi quy (và CI) là sự thay đổi của biến phụ thuộc y trên b tăng gấp đôi trong x . (Do đó, các bản ghi cho cơ sở 2 thường hữu ích vì chúng tương ứng với sự thay đổi của y trên mỗi lần nhân đôi trong x , hoặc các bản ghi cho cơ sở 10 nếu x thay đổi theo nhiều bậc độ lớn, hiếm hơn). Các phép biến đổi khác, chẳng hạn như căn bậc hai, không có cách giải thích đơn giản như vậy.
Nếu bạn đăng nhập biến phụ thuộc y (không phải câu hỏi ban đầu mà là câu hỏi mà một số câu trả lời trước đã giải quyết), thì tôi thấy ý tưởng của 'Cole sympercents' của Tim Cole hấp dẫn khi trình bày kết quả (tôi thậm chí đã sử dụng chúng trong một bài báo), mặc dù họ dường như không nắm bắt được tất cả những điều đó:
Tim J Cole. Sympercents: sự khác biệt tỷ lệ phần trăm đối xứng trên thang đo 100 log (e) đơn giản hóa việc trình bày dữ liệu chuyển đổi nhật ký. Thống kê trong Y học 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Tôi rất vui vì Stat Med đã ngừng sử dụng SICIs vì DOI ...]
Người ta thường lấy nhật ký của một biến đầu vào để chia tỷ lệ và thay đổi phân phối (ví dụ để làm cho nó được phân phối bình thường). Nó không thể được thực hiện một cách mù quáng; bạn cần cẩn thận khi thực hiện bất kỳ tỷ lệ nào để đảm bảo rằng kết quả vẫn có thể hiểu được.
Điều này được thảo luận trong hầu hết các văn bản thống kê giới thiệu. Bạn cũng có thể đọc bài viết của Andrew Gelman về "Thu nhỏ đầu vào hồi quy bằng cách chia cho hai độ lệch chuẩn" để thảo luận về vấn đề này. Ông cũng có một cuộc thảo luận rất hay về vấn đề này khi bắt đầu "Phân tích dữ liệu bằng cách sử dụng hồi quy và mô hình đa cấp / phân cấp" .
Lấy nhật ký không phải là một phương pháp thích hợp để xử lý dữ liệu / ngoại lệ xấu.
Bạn có xu hướng lấy nhật ký của dữ liệu khi có vấn đề với phần dư. Ví dụ: nếu bạn vẽ các phần dư dựa trên một hiệp phương cụ thể và quan sát một mô hình tăng / giảm (hình dạng phễu), thì một phép biến đổi có thể phù hợp. Phần dư không ngẫu nhiên thường chỉ ra rằng các giả định mô hình của bạn là sai, tức là dữ liệu không bình thường.
Một số loại dữ liệu tự động cho vay để chuyển đổi logarit. Ví dụ, tôi thường lấy nhật ký khi giao dịch với nồng độ hoặc tuổi.
Mặc dù các phép biến đổi không được sử dụng chủ yếu để xử lý các ngoại lệ, nhưng chúng giúp ích kể từ khi ghi nhật ký làm mất dữ liệu của bạn.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Tôi muốn trả lời câu hỏi của người dùng 1690130 để lại như một nhận xét cho câu trả lời đầu tiên vào ngày 26 tháng 10 và đọc như sau: "Điều gì về các biến như mật độ dân số trong một khu vực hoặc tỷ lệ giáo viên trẻ em cho mỗi khu học chánh hoặc Tôi đã thấy các giáo sư lấy nhật ký của các biến này. Tôi không rõ tại sao. Chẳng hạn, tỷ lệ giết người đã là một tỷ lệ phần trăm? Nhật ký sẽ thay đổi tỷ lệ phần trăm của Tại sao nhật ký của tỷ lệ giáo viên-trẻ em được ưa thích? "
Tôi đang tìm cách trả lời một vấn đề tương tự và muốn chia sẻ những gì về giáo trình thống kê cũ của tôi ( Jeffrey Wooldridge. 2006. Giới thiệu Kinh tế lượng - Phương pháp hiện đại, Phiên bản thứ 4. Chương 6 Phân tích hồi quy: Các vấn đề tiếp theo. 191 ) nói về nó. Wooldridge khuyên:
Các biến xuất hiện ở dạng tỷ lệ hoặc phần trăm, chẳng hạn như tỷ lệ thất nghiệp, tỷ lệ tham gia chương trình lương hưu, tỷ lệ học sinh vượt qua kỳ thi tiêu chuẩn và tỷ lệ bắt giữ đối với các tội phạm được báo cáo - có thể xuất hiện ở dạng ban đầu hoặc logarit , mặc dù có xu hướng sử dụng chúng ở dạng cấp độ . Điều này là do bất kỳ hệ số hồi quy nào liên quan đến biến ban đầu - cho dù đó là biến phụ thuộc hay biến độc lập - sẽ có một giải thích thay đổi điểm phần trăm. Nếu chúng ta sử dụng, giả sử, ghi nhật ký ( unem ) trong hồi quy, trong đó unem là tỷ lệ phần trăm của các cá nhân thất nghiệp, chúng ta phải rất cẩn thận để phân biệt giữa thay đổi điểm phần trăm và thay đổi tỷ lệ phần trăm. Nhớ, nếu unemđi từ 8 đến 9, đây là mức tăng một điểm phần trăm, nhưng tăng 12,5% so với mức thất nghiệp ban đầu. Sử dụng nhật ký có nghĩa là chúng tôi đang xem xét tỷ lệ phần trăm thay đổi trong tỷ lệ thất nghiệp: log (9) - log (8) = 0.118 hoặc 11.8%, đó là xấp xỉ logarit với mức tăng 12,5% thực tế.
Dựa trên điều này và cõng trên nhận xét trước đó của người đăng ký đối với câu hỏi của người dùng 1690130, tôi sẽ tránh sử dụng logarit của mật độ hoặc tỷ lệ phần trăm để giữ cho việc giải thích đơn giản trừ khi sử dụng biểu mẫu nhật ký tạo ra sự đánh đổi lớn như có thể làm giảm độ lệch của mật độ hoặc biến tỷ lệ.
Quan điểm của Shane là lấy nhật ký để xử lý dữ liệu xấu cũng được thực hiện. Như Colin về tầm quan trọng của phần dư bình thường. Trong thực tế tôi thấy rằng thông thường bạn có thể nhận được số dư bình thường nếu các biến đầu vào và đầu ra cũng tương đối bình thường. Trong thực tế, điều này có nghĩa là phân phối các bộ dữ liệu được chuyển đổi và chưa được dịch và đảm bảo với bản thân rằng chúng đã trở nên bình thường hơn và / hoặc tiến hành các xét nghiệm về tính quy phạm (ví dụ: các thử nghiệm Shapiro-Wilk hoặc Kolmogorov-Smirnov) và xác định xem kết quả có bình thường hơn không. Giải thích và truyền thống cũng rất quan trọng. Ví dụ, trong các biến đổi nhật ký tâm lý học nhận thức về thời gian phản ứng thường được sử dụng, tuy nhiên, với tôi ít nhất, việc giải thích một bản ghi RT không rõ ràng. Hơn nữa,