Hoàn thành các ví dụ thực chất của nghiên cứu tái sản xuất bằng R


71

Câu hỏi: Có bất kỳ ví dụ hay nào về nghiên cứu tái sản xuất bằng R được cung cấp trực tuyến miễn phí không?

Ví dụ lý tưởng: Cụ thể, các ví dụ lý tưởng sẽ cung cấp:

  • Dữ liệu thô (và lý tưởng là dữ liệu meta giải thích dữ liệu),
  • Tất cả mã R bao gồm nhập dữ liệu, xử lý, phân tích và tạo đầu ra,
  • Sweave hoặc một số cách tiếp cận khác để liên kết đầu ra cuối cùng với tài liệu cuối cùng,
  • Tất cả ở định dạng có thể dễ dàng tải xuống và có thể biên dịch trên máy tính của người đọc.

Lý tưởng nhất, ví dụ sẽ là một bài báo hoặc một luận án trong đó nhấn mạnh vào một chủ đề được áp dụng thực tế trái ngược với một ví dụ giảng dạy thống kê.

Lý do quan tâm: Tôi đặc biệt quan tâm đến các chủ đề được áp dụng trong các bài báo và luận văn, bởi vì trong những tình huống này, một số vấn đề khác phát sinh:

  • Các vấn đề phát sinh liên quan đến làm sạch và xử lý dữ liệu,
  • Các vấn đề phát sinh liên quan đến việc quản lý siêu dữ liệu,
  • Các tạp chí và luận văn thường có những kỳ vọng hướng dẫn về phong cách liên quan đến sự xuất hiện và định dạng của bảng và hình,
  • Nhiều tạp chí và luận văn thường có một loạt các phân tích làm phát sinh các vấn đề liên quan đến quy trình công việc (nghĩa là cách phân tích trình tự) và thời gian xử lý (ví dụ: các vấn đề về phân tích bộ đệm, v.v.).

Xem các ví dụ làm việc hoàn chỉnh có thể cung cấp tài liệu giảng dạy tốt cho các nhà nghiên cứu bắt đầu với nghiên cứu tái sản xuất.

Câu trả lời:


14

Frank Harrell đã đánh trống trong nghiên cứu và báo cáo tái sản xuất trong nhiều, nhiều năm. Bạn có thể bắt đầu tại trang wiki này liệt kê nhiều tài nguyên khác, bao gồm nghiên cứu được xuất bản và cũng bao gồm trang Charles Geyer.


11

Tạp chí Biostatistic có Associate Editor for Rep sinh sản, và tất cả các bài viết của nó được đánh dấu:

Nghiên cứu sinh sản

Chính sách nghiên cứu có thể tái tạo của chúng tôi là để các bài báo trong tạp chí được đánh dấu diều D nếu dữ liệu dựa trên chúng có sẵn miễn phí, C nếu mã của tác giả có sẵn miễn phí và R nếu có cả dữ liệu và mã, và của chúng tôi Associate Editor for Rep sinh sản có thể sử dụng những cái này để tái tạo kết quả trong bài báo. Dữ liệu và mã được công bố điện tử trên trang web của tạp chí dưới dạng Tài liệu bổ sung.

http://biostatistic.oxfordjournals.org/

Làm thế nào tốt một ý tưởng đó là?

http://biostatistic.oxfordjournals.org/content/12/1/18.abab đi kèm với gói R trong phần bổ sung phân tích - bản thân tôi chưa thử. Ngoài ra, không thể tìm ra nơi đánh giá độ mở được chỉ định. Đang gửi email cho biên tập viên liên kết với một số câu hỏi ...

[biên tập]

Roger Peng, biên tập viên liên kết nói với tôi rằng có lẽ không có cách nào tìm thấy các giấy tờ có thể sao chép mà không nhận được PDF. Anh ấy chỉ cho tôi cái này có chữ 'R' lớn trên đó (không có nghĩa là xếp hạng R như phim) cho khả năng tái tạo:

http://biostatistic.oxfordjournals.org/content/10/3 / 409.abab

Tất nhiên, tạp chí không miễn phí ... #fail

Barry


1
thật tuyệt khi thấy một tạp chí ưu tiên khả năng tái tạo. Bạn đã thấy bất kỳ ví dụ tốt của các bài viết được đánh dấu R?
Jeromy Anglim

1
Họ không ưu tiên cho nó để xuất bản, tôi nghĩ họ chỉ muốn làm nổi bật nó. Tôi sẽ chỉnh sửa câu trả lời của tôi bằng một ví dụ.
Spainedman

10

Không thể sản xuất NCI60 Dự đoán hóa trị

Đây là một phân tích tái sản xuất cho thấy sự thiếu khả năng tái tạo của một bài báo đã có trong tin tức. Một thử nghiệm lâm sàng dựa trên kết luận sai của bài báo không thể đưa ra đã bị đình chỉ, tái lập, đình chỉ một lần nữa, ... Đó là một ví dụ tốt về phân tích tái sản xuất trong tin tức.


10

Tôi có một vài ví dụ như vậy trên trang tài liệu nghiên cứu của tôi . (Tôi không được phép đăng nhiều hơn một siêu liên kết với tư cách là thành viên mới. Vì vậy, tôi sẽ chỉ mô tả các giấy tờ trên trang web đó.)

(1) "Tạo hiệu ứng rõ ràng nhất trong các thử nghiệm ngẫu nhiên" sử dụng hệ thống họa tiết của R.

(2) "Các hiệu ứng quy cho một chiến dịch bình chọn ngẫu nhiên theo cụm" là một bài viết phức tạp hơn liên quan đến một số mô phỏng tốn thời gian. Chúng tôi đã sử dụng một hệ thống dựa trên Makefile và đăng nó lên Dataverse

(3) "EDA cho HLM" là nỗ lực sớm nhất của tôi. Ở đây tôi chỉ cần đặt dữ liệu và các tập tin Sweave liên quan vào một tarball.

Một vấn đề chúng tôi phát hiện ra khi tạo kho lưu trữ JASA của chúng tôi là các phiên bản và mặc định của các gói CRAN đã thay đổi. Vì vậy, trong kho lưu trữ đó, chúng tôi cũng bao gồm các phiên bản của các gói mà chúng tôi đã sử dụng. Hệ thống dựa trên họa tiết có thể sẽ bị hỏng khi mọi người thay đổi gói của họ (không chắc chắn làm thế nào để bao gồm các gói bổ sung trong gói đó là Compendium).

Cuối cùng, tôi tự hỏi phải làm gì khi bản thân R thay đổi. Có cách nào để sản xuất một máy ảo tái tạo toàn bộ môi trường tính toán được sử dụng cho một tờ giấy sao cho máy ảo không lớn?

Dù sao, tôi hy vọng rằng những ví dụ này sẽ giúp. Ít nhất họ cho thấy một số thí nghiệm của riêng tôi trong lĩnh vực này.

(Dưới đây là một số siêu liên kết văn bản đơn giản.)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376

Bạn đưa ra một số câu hỏi thú vị. Tôi đã đăng một câu hỏi riêng trích dẫn bạn: stats.stackexchange.com/questions/4466/NH
Jeromy Anglim

9

Koenker và Zeileis cung cấp một trang web với một ví dụ tương đối đầy đủ. Họ chia sẻ:

  • Rnw (mã Sweave)
  • Mã phân tích R
  • PDF cuối cùng
  • Thảo luận về các vấn đề kiểm soát phiên bản

8

Chúng tôi đã viết một bài giải thích cách sử dụng R / Bioconductor khi phân tích dữ liệu microarray. Bài viết được viết bằng Sweave và tất cả các mã được sử dụng để tạo các biểu đồ được đưa vào làm tài liệu bổ sung.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Phân tích dữ liệu microarray của khóa học thời gian sử dụng BioConductor: một nghiên cứu trường hợp sử dụng yeast2 Affymetrix mảng BMC Research Notes, 3:81.


7

Trang của Charles Geyer trên Sweave có một ví dụ từ một luận án, đáp ứng một số yêu cầu của bạn (dữ liệu thô chỉ đơn giản là từ gói R, nhưng mã R / sweave và PDF cuối cùng có sẵn):

Một bài viết về lý thuyết trong luận án của Yun Ju Sung, Monte Carlo Likabilities Inference for Missing Data Model (in trước) có chứa các ví dụ điện toán. Mỗi số trong bài báo và mọi âm mưu đã được lấy (bằng cách cắt và dán, tôi phải thừa nhận) từ một tài liệu "tài liệu bổ sung" được thực hiện trong Sweave.

(Tệp nguồn được liên kết trong phần "Tài liệu bổ sung cho bài viết".)

Tôi biết rằng tôi đã bắt gặp ít nhất một ví dụ R khi duyệt trang tài liệu Rep sinhibleResearch.net trước đây, nhưng không may là không đánh dấu nó.


5

Simon Jackman có một ví dụ đặc biệt hữu ích trong việc phân tích kết quả của một cuộc khảo sát: "Người Mỹ và người Úc 10 năm sau ngày 9/11". Nó có nhiều ví dụ về tích hợp các bảng và số liệu.

Ông đã thực hiện báo cáo tài liệuPDF của Sweave qua bài đăng trên blog này .

Mặc dù dữ liệu thô không được cung cấp (theo như tôi có thể nói), do đó không thể chạy các ví dụ Sweave thực tế, tôi nghĩ rằng có thể học được một chút công bằng từ việc nghiên cứu mã Sweave.


5

Neil Saunders đã phân tích các tương tác trực tuyến liên quan đến một hội nghị. Một số thuộc tính làm cho nó trở thành một ví dụ Sweave hữu ích bao gồm:

  • Tập tin Rnw được cung cấp
  • Đồ thị được tạo bằng cách sử dụng ggplot
  • Kích thước tốt và miền dễ hiểu

Các tài liệu có sẵn ở đây:


4

Cũng xem Tạp chí Phần mềm Thống kê ; họ khuyến khích làm giấy tờ ở Sweave.


Không, không chính thức - việc gửi LaTeX được khuyến khích nhưng nếu bạn nhìn vào trang hướng dẫn thì nó không chứa từ Sweave. Các tác giả sử dụng nó và / hoặc gửi mã R cùng với giấy, nhưng với tôi điều này là quan điểm của Shane về các họa tiết gói.
Dirk Eddelbuettel

Ok, vẫn còn hầu hết các trình đệ trình sử dụng nó (cũng kiểu nhật ký bao gồm Swave.sty); vấn đề chính là không có Rnws được xuất bản, vẫn có những bài báo được thực hiện bởi Sweave đi kèm với đầu ra của Stangle.

4

Tôi đã tìm thấy những cái tốt trong quá khứ và sẽ đăng một khi tôi đào chúng lên, nhưng một số gợi ý chung nhanh chóng:

  1. Bạn có thể tìm thấy một số ví dụ thú vị bằng cách tìm kiếm google với từ khóa và ext: rnw (sẽ tìm kiếm các tệp có phần mở rộng sweave). Đây là một ví dụ tìm kiếm . Đây là kết quả thứ ba từ tìm kiếm của tôi: http://www.ne.su.se/apers/araietal_source.Rnw . Đây là một ví dụ khác từ tìm kiếm của tôi: http://www.stat.umn.edu/geyer/gdor/ .
  2. Nhiều gói R có họa tiết thú vị mà về cơ bản là tương tự. Một ví dụ: https://r-forge.r-project.org/scm/viewvc.php/apers/maxLik.Rnw

4

Robert Gent quý ông đã viết một bài báo có tên "Nghiên cứu sinh sản: Nghiên cứu trường hợp tin sinh học"

Nó triển khai một tập hợp các phân tích ngắn dưới dạng Gói R và sử dụng Sweave. Nó cũng thảo luận về việc sử dụng Sweave nói chung hơn.

Xem phần "Tệp liên quan" của trang bài viết để biết tệp lưu trữ của tất cả các tệp và thư mục được sử dụng.

Tài liệu tham khảo:

  • Gent Gent, Robert (2005) "Nghiên cứu sinh sản: Nghiên cứu trường hợp tin sinh học", Ứng dụng thống kê trong di truyền học và sinh học phân tử: Tập. 4: Vấn đề. 1, Điều 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Có sẵn tại: http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Một tờ giấy đẹp, bởi một người bạn trong phòng thí nghiệm của tôi. PI của chúng tôi khá hài lòng khi một cái gì đó tương tự như thư của người hâm mộ đã đến. Bây giờ tất cả các ấn phẩm từ nhóm có các phương pháp bổ sung được trình bày trong LaTeX / Sweave. Một số bài viết cũng vậy (không thể quyết định nên giữ tôi trong LyX / Sweave hay gấp và chỉ thực hiện các bổ sung trong Sweave).


3

Tìm kiếm các ví dụ và thực tiễn là một cách tốt để tìm hiểu, nhưng tôi chỉ muốn đề cập rằng khả năng tái tạo không chỉ về mặt kỹ thuật / kịch bản mà còn cả kiểu mã và khía cạnh cấu trúc, giảm thiểu các tác dụng phụ trong các chức năng cốt lõi, v.v. Chambers book Software for Data Phân tích cho phép hiểu sâu hơn các kỹ thuật giúp tránh các vấn đề về độ tin cậy và khả năng tái tạo ở cấp mã R.


2

nếu bạn vẫn cần một ví dụ tuyệt vời về phân tích REPRODUCIBLE hoàn toàn cộng với GIẤY, hãy sử dụng repo này .

@Jscamac đã làm một công việc tuyệt vời bằng cách làm cho phân tích của anh ấy có thể áp dụng được và cá nhân tôi đã xác nhận nó.

Bạn có thể dựa vào cách sử dụng các hàm R cụ thể như gói remakeđể đảm bảo khả năng tái tạo.

Xem ra / tính toán mất khoảng một giờ để hoàn thành.

Tất cả được viết theo kịch bản và tạo ra một tờ giấy LaTeX cuối cùng với các số liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.