Phân tích tỷ lệ


13

Tôi có một bộ dữ liệu chứa nhiều tỷ lệ cộng với 1. Tôi quan tâm đến sự thay đổi của các tỷ lệ này dọc theo một gradient (xem bên dưới để biết dữ liệu).

gradient <- 1:99
A1 <- gradient * 0.005
A2 <- gradient * 0.004
A3 <- 1 - (A1 + A2)

df <- data.frame(gradient = gradient,
                 A1 = A1,
                 A2 = A2,
                 A3 = A3)

require(ggplot2)
require(reshape2)
dfm <- melt(df, id = "gradient")
ggplot(dfm, aes(x = gradient, y = value, fill = variable)) +
  geom_area()

nhập mô tả hình ảnh ở đây

Thông tin bổ sung: Không nhất thiết phải tuyến tính, tôi đã làm điều này chỉ để dễ lấy ví dụ. Số lượng ban đầu mà từ đó các tỷ lệ này được tính toán cũng có sẵn. Tập dữ liệu thực có chứa nhiều biến hơn khi thêm tới 1 (ví dụ: B1, B2 & B3, C1 đến C4, v.v.) - vì vậy, một gợi ý cho giải pháp đa biến cũng sẽ hữu ích ... Nhưng bây giờ tôi sẽ sử dụng đơn biến bên thống kê.

Câu hỏi: Làm thế nào người ta có thể phân tích loại dữ liệu như vậy? Tôi đã đọc một chút xung quanh, và có lẽ một mô hình đa quốc gia hoặc một glm là phù hợp? - Nếu tôi chạy 3 (hoặc 2) glms, làm cách nào tôi có thể kết hợp ràng buộc mà các giá trị dự đoán tổng hợp lên tới 1? Tôi không muốn chỉ vẽ loại dữ liệu như vậy, tôi cũng muốn thực hiện một hồi quy sâu hơn như phân tích. Tôi tốt nhất muốn sử dụng R - làm thế nào tôi có thể làm điều này trong R?


Lệnh proprcsplinetrong Stata có thể là thứ bạn đang tìm kiếm (tôi biết bạn muốn sử dụng R, nhưng có thể đây là điểm khởi đầu): proprcspline tính toán một khối spline bị giới hạn theo tỷ lệ quan sát trong từng loại của yvar cho xvar và đồ thị chúng như một âm mưu khu vực xếp chồng lên nhau. Tùy chọn, các tỷ lệ được làm mịn này có thể được điều chỉnh cho một tập hợp các biến điều khiển (cvars).
boscovich

Bạn có thể giải thích ý nghĩa của việc "quan tâm" là gì không? Bạn chỉ muốn vẽ tỷ lệ theo độ dốc? Hay bạn có một phân tích sâu hơn trong tâm trí? Nếu vậy, bản chất của nó là gì - chính xác thì bạn hy vọng học được gì từ những dữ liệu này? Ngoài ra, bạn có số lượng ban đầu có sẵn (sẽ là tốt) hoặc chỉ tỷ lệ? Bạn có thể nói thêm một chút về những dữ liệu này bao gồm những gì và làm thế nào chúng được thu thập?
whuber

1
@whuber: Tôi muốn phân tích sâu hơn với dữ liệu này. Giả thuyết của tôi là tỷ lệ sẽ thay đổi theo độ dốc. Số lượng cũng có sẵn.
EDi

1
Âm thanh như bạn có dữ liệu thành phần. Tôi không biết nhiều về nó, nhưng công việc của Aitchison là nơi để bắt đầu. Có một gói, các tác phẩm, trên CRAN.
Aaron rời Stack Overflow

Câu trả lời:


13

Trong một chiều, điều này nghe giống như một công việc cho hồi quy beta (có hoặc không có phân tán biến). Đây là mô hình hồi quy với biến phụ thuộc phân phối beta, bị ràng buộc 0-1 một cách tự nhiên. Một gói R là betareg và một bài báo mô tả việc sử dụng nó ở đây .
Đối với nhiều hơn hai tỷ lệ, phần mở rộng thông thường của bản phân phối Beta dẫn đến hồi quy Dirichlet. Một gói R DirichletReg có sẵn, được mô tả ví dụ ở đây .

Có một số lý do không sử dụng liên kết logit và hồi quy logistic đa thức cho dữ liệu thành phần thực sự, chủ yếu là để làm gì với những giả định mạnh mẽ mà chúng ngụ ý cho phương sai. Tuy nhiên, nếu dữ liệu của bạn là tất cả số lượng thực sự được chuẩn hóa (số dư?), Những giả định đó có thể đúng và đề xuất của Peter có thể là cách để đi.


Cảm ơn bạn đã liên kết, tôi sẽ xem xét chúng. DirichletReg có vẻ đầy hứa hẹn! Ví dụ Slide 3 của liên kết của bạn: "Nếu 'xác suất' trả lời trong một cateogory nhất định được trải rộng trên các lựa chọn, cách tiếp cận Dirichlet có nhiều thông tin hơn." . Bởi vì tôi không biết làm thế nào với mlogit, vì các lựa chọn không cần phải là duy nhất. Đây cũng là một cách tốt để giải thích đồ họa - chưa từng nghĩ về điều đó ...
EDi

Đối với đồ họa, bạn có thể thấy các hàm R splineplotcdplot hữu ích. Thật vậy, nếu bạn chỉ muốn các đường được trang bị và không cần nhiều máy hồi quy thì có lẽ bạn có thể dỗ cdplot để cung cấp cho bạn các đường cong có liên quan (nó chỉ có mật độ bên dưới)
liên hợp

Xin lỗi, tôi có nghĩa là gõ spineplot ở trên, rõ ràng.
liên hợp chiến

Lưu ý rằng gói DirichletReg hiện có sẵn trên CRAN và một họa tiết đã được xuất bản.
jbaums 27/2/2015

4

Tôi không chắc chắn chính xác những gì bạn đang cố gắng tìm hiểu, nhưng còn một hồi quy logistic đa thức với độ dốc là biến độc lập thì sao?

Trong R, một cách để làm điều này là hàm mlogit trong thư viện mlogit. Xem họa tiết này

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.