Cuốn sách tham khảo để thống kê với R - nó có tồn tại không và nó nên chứa gì?


25

Lý lịch

Có rất nhiều cuộc thảo luận xung quanh vấn đề này, vì vậy tôi nghĩ rằng tôi có thể tìm thấy câu trả lời của mình từ những bước đi trước đó trên StackExchange và bằng cách googling giận dữ. Sau khi sử dụng nửa ngày cố gắng chỉ tìm một cuốn sách tham khảo cho thống kê (sinh học) với R, tôi đã hoàn toàn bối rối và phải bỏ cuộc. Có thể tài liệu miễn phí kết hợp thực sự tốt hơn bất kỳ cuốn sách nào bạn có thể mua tại thời điểm này. Hãy cùng tìm hiểu.

Internet có đầy đủ các tài liệu miễn phí tốt cho ngôn ngữ R , vì vậy thực sự không có điểm nào trả tiền cho một cuốn sách tầm thường, mà cuối cùng hầu như được sử dụng như một trang trí văn phòng. Trang chủ R liệt kê những cuốn sách liên quan đến R và có rất nhiều trong số chúng. Nói chính xác hơn: 115. Chỉ có một trong số chúng được quảng cáo với các từ tham khảo số liệu thống kê độc lập . Bây giờ nó đã 8 tuổi và có thể đã lỗi thời. Phiên bản thứ tư của Thống kê ứng dụng hiện đại với S thậm chí còn cũ hơn. Sách R thường được nhai vì quá cơ bảnkhông được đề xuất vì thiếu tài liệu tham khảo, mã được định dạng kém và kết thúc cẩu thả.

Tuy nhiên, tôi đang tìm kiếm một cuốn sách mà tôi có thể sử dụng làm tài liệu tham khảo độc lập cho các số liệu thống kê thực tế (đầu tiên và quan trọng nhất) với R (thứ cấp). Cuốn sách nên sống trên bàn làm việc của tôi thu thập các chú thích, vết cà phê và dấu vân tay dính dầu mỡ thay vì bụi trên kệ sách. Nó sẽ thay thế bộ sưu tập pdf miễn phí mà tôi đã sử dụng cho đến nay, không quên rằng R đi kèm với một thư viện tham khảo tuyệt vời. “ Cách tiếp cận đúng là gì? Càng, tại sao? "Và‘ về mặt kỹ thuật, như thế nào? ’Được thường xuyên hơn đốt câu hỏi hơn là‘ làm thế nào để làm điều đó với R? ’

Vì tôi là một nhà sinh thái học, tôi chủ yếu quan tâm đến các ứng dụng cho thống kê sinh học. Tuy nhiên, vì những điều này thường được kết nối, một tài liệu tham khảo chung liên ngành sẽ có giá trị nhất đối với tôi.

Nhiệm vụ

Nếu một cuốn sách như vậy tồn tại (tôi nghi ngờ nó), vui lòng cung cấp tên của cuốn sách (chỉ một cho mỗi câu trả lời) và một đánh giá ngắn về cuốn sách giải thích lý do tại sao nó nên được đặt tên là cuốn sách tham khảo cho chủ đề. Vì câu hỏi này không khác lắm so với câu hỏi hiện có, vui lòng sử dụng câu hỏi này cho câu trả lời của bạn. Bạn cũng có thể liệt kê các sai sót của cuốn sách để chúng tôi có thể liệt kê chúng là các tính năng cho cuốn sách tham khảo lý tưởng.

Câu hỏi của tôi là cuốn sách tham khảo để thống kê (trong số các loại được sử dụng nhiều nhất) với R chứa gì?

Một số suy nghĩ ban đầu đang theo các tính năng chung (xin vui lòng, cập nhật):

  • Dày như cục gạch
  • Súc tích, nhưng dễ hiểu
  • Đầy số liệu (với mã R được cung cấp)
  • Các bảng và sơ đồ dễ hiểu mô tả các chi tiết quan trọng nhất từ ​​văn bản
  • Dễ hiểu, văn bản mô tả về các số liệu thống kê / phương pháp có chứa các phương trình quan trọng nhất.
  • Các ví dụ tốt cho mỗi cách tiếp cận (với mã R)
  • Danh sách tài liệu tham khảo rộng và cập nhật
  • Số lỗi chính tả tối thiểu

Mục lục

Vì tôi không phải là một nhà thống kê và sẽ cần cuốn sách này (không tồn tại?) Để trả lời câu hỏi nên tôi rất khó để viết về nội dung. Vì Sách R rõ ràng dự định là sách tham khảo để thống kê với R, nhưng thường bị chỉ trích, tôi đã sao chép mục lục từ sách làm điểm bắt đầu cho mục lục cho sách tham chiếu thống kê R độc lập. Nhiệm vụ bổ sung: vui lòng, cung cấp bổ sung, đề xuất, xóa, vv cho mục lục.

  1. Bắt đầu
  2. Yếu tố cần thiết của ngôn ngữ R
  3. Nhập dữ liệu
  4. Dữ liệu dữ liệu
  5. Đồ họa
  6. Những cái bàn
  7. toán học
  8. Bài kiểm tra cổ điển
  9. Mô hình thống kê
  10. hồi quy
  11. Phân tích phương sai
  12. Phân tích hiệp phương sai
  13. Mô hình tuyến tính tổng quát
  14. Đếm dữ liệu
  15. Đếm dữ liệu trong bảng
  16. Dữ liệu tỷ lệ
  17. Biến phản ứng nhị phân
  18. Mô hình phụ gia tổng quát
  19. Mô hình hiệu ứng hỗn hợp
  20. Hồi quy phi tuyến tính
  21. Mô hình cây
  22. Phân tích chuỗi thời gian
  23. Thống kê đa biến
  24. Thống kê không gian
  25. Phân tích sống còn
  26. Mô hình mô phỏng
  27. Thay đổi giao diện đồ họa
  28. Tài liệu tham khảo và đọc thêm
  29. Mục lục

Những gì đã được nói trước đó?

StackExhange chứa một số bước yêu cầu thống kê và đề xuất sách R. Sách để học ngôn ngữ R hỏi về một cuốn sách tham khảo học ngôn ngữ R mà không có khía cạnh thống kê. Nghệ thuật lập trình R được xếp hạng là gợi ý duy nhất tốt nhất. Cuốn sách để học thống kê sử dụng R yêu cầu một cuốn sách giới thiệu lý tưởng để thống kê, đây thực sự không phải là một cuốn sách tham khảo. Sách giáo khoa thống kê nguồn mở xếp hạng thống kê đa biến với R là lựa chọn thay thế tốt nhất. Cuốn sách nào bạn muốn giới thiệu cho các nhà khoa học phi thống kê? hỏi về cuốn sách tham khảo thống kê tốt nhất mà không chỉ định chương trình lựa chọn.Tài liệu tham khảo hoặc sách về mô phỏng dữ liệu thiết kế thử nghiệm ở điểm R có lẽ gần nhất với câu hỏi của tôi. Giới thiệu về lập trình và mô phỏng khoa học bằng R là cuốn sách được khuyên dùng nhất ở đây và có thể gần với những gì tôi đang tìm kiếm. Tuy nhiên, cuốn sách này sẽ không đủ là một cuốn sách tham khảo thống kê với R.

Một số gợi ý cho cuốn sách tham khảo và sai sót của họ

R in Action đã nhận được những đánh giá tốt hơn The R Book, nhưng nó rõ ràng là khá giới thiệu .

Thiết kế và phân tích sinh học bằng R: một hướng dẫn thực tế có lẽ gần với những gì tôi đang tìm kiếm. Nó đã nhận được một đánh giá tốt , nhưng rõ ràng cái này cũng chứa nhiều lỗi chính tả. Ngoài ra, cuốn sách này không tập trung vào việc giải thích các số liệu thống kê, mà đưa ra các phân tích thống kê như các công thức nấu ăn sẵn cho các nhà nghiên cứu sử dụng.

Mô hình sinh thái và dữ liệu trong R bỏ qua cấp độ giới thiệu. Đây là một tính năng rất hữu ích khi thấy từ "giới thiệu" đó, ghi được 43 lần xuất hiện trong danh sách sách R , nhưng có lẽ không hoàn toàn thỏa mãn, nếu chúng ta theo cuốn sách tham khảo về thống kê?

Giới thiệu về lập trình và mô phỏng khoa học bằng R nhận được đánh giá rất tích cực , nhưng chỉ giới hạn ở mô phỏng dữ liệu.

Richiemorrisroe gợi ý rằng Thống kê ứng dụng hiện đại với S là đủ cho một cuốn sách tham khảo thống kê độc lập với R. Cuốn sách này đã nhận được đánh giá xuất sắc ( 1 , 2 ) và có lẽ là ứng cử viên tốt nhất cho danh hiệu này vào lúc này? Phiên bản gần đây nhất xuất hiện cách đây 10 năm, đó là một khoảng thời gian khá dài để xem xét phát triển chương trình.

Dimitriy V. Masterov đề xuất Phân tích dữ liệu bằng cách sử dụng mô hình hồi quy và đa cấp / phân cấp . Chưa kiểm tra cuốn sách này.


Sau khi đọc rất nhiều đánh giá về sách, có vẻ như cuốn sách hoàn hảo được hỏi ở đây vẫn chưa tồn tại. Tuy nhiên, có lẽ có thể chọn một cái khá gần. Tread này được dự định là một wiki cộng đồng cho người dùng thống kê để tìm cuốn sách tham khảo tốt nhất hiện có và là động lực để các nhà văn sách mới và cũ cải thiện công việc của họ.


3
(+1) để đánh giá tốt! Tuy nhiên, có vẻ như bạn đã trả lời câu hỏi của riêng bạn trong câu hỏi của riêng bạn ...
ocram

1
Nếu bạn đã dành quá nhiều thời gian để tìm ra điều này, hãy đưa ra một danh sách dài của riêng bạn, và thậm chí là một phác thảo của một cuốn sách như vậy, có thể bạn nên viết một cuốn sách. Đây là một khuyến nghị tôi thường đưa ra về danh sách thống kê và kinh tế lượng khi ai đó yêu cầu một bài đánh giá tốt về [BLAH] và thảo luận về những gì họ không thích về năm hoặc mười bài đánh giá hiện tại - hãy viết bài của bạn lên đó.
StasK

Câu trả lời:


12

Cá nhân tôi nghĩ rằng Thống kê ứng dụng hiện đại với S-Plus đánh dấu vào tất cả các ô bạn đã phác thảo. Mỗi ví dụ đều có mã R, họ cung cấp các tài liệu tham khảo tốt cho các nguồn khác, và Venables và Ripley có một phong cách viết tuyệt vời và ngắn gọn mà tôi thực sự đánh giá cao. Tôi có xu hướng đọc lại cuốn sách thường xuyên và mỗi lần tôi nhận được nhiều hơn từ nó. Tất nhiên, số dặm của bạn có thể thay đổi.


2
Tôi đồng ý. Tôi có nhiều sách thống kê dựa trên R và MASS4 có lẽ là gần nhất với những gì bạn đang tìm kiếm, nhưng ở những nơi "terse" trở nên khó đọc và đòi hỏi kiến ​​thức nền tảng thống kê nhiều hơn tôi có. Điều đó nói rằng, tôi có cuốn sách gần 10 năm và tôi tiếp tục quay lại với nó và học những thứ mới. Tôi sẽ không để tuổi tác làm bạn thất vọng. Ồ, và tôi hiện đang làm một số liệu thống kê phd :-)
Sean

Tôi cũng quay lại và quay lại MASS, nghe có vẻ như được ưu tiên tiết lộ cho nó như một cuốn sách tham khảo.
Peter Ellis

Phiên bản MASS năm 1998 có khác nhiều so với năm 2003 không? Tự hỏi liệu sự khác biệt nội dung có đủ để trả thêm khoảng 50 bảng cho nó không.
phỏng đoán

6

Cảm ơn vì một câu hỏi hay và đặc biệt là tổng hợp tất cả thông tin đó. Thật không may, cuốn sách bạn mô tả không tồn tại, và thành thật mà nói, nó không thể tồn tại. Nếu những gì bạn chủ yếu muốn là một cuốn sách tham khảo cho thống kê, tôi sẽ bắt đầu với một cuốn sách thực sự tốt về các mô hình tuyến tính. Đề nghị của tôi là Kutner et al, nó đáp ứng các tiêu chí lớn hơn một viên gạch cả về khối lượng và khối lượng, rất toàn diện, rõ ràng và có rất nhiều ví dụ. Trong thực tế, nếu bạn loại bỏ yêu cầu R, nó sẽ đánh dấu vào toàn bộ danh sách của bạn. Tôi thường xuyên quay lại với nó. Tuy nhiên, trong ~ 1500 trang, nó chỉ bao gồm các mô hình tuyến tính - nghĩa là hồi quy và ANOVA - có một số chương ngắn về một vài chủ đề khác, nhưng bạn sẽ thực sự muốn các cuốn sách khác cho điều đó. Tiếp theo, tôi sẽ nhận được một cuốn sách tham khảo thống kê hàng đầu, ở cấp độ phù hợp với bạn, cho bất kỳ kỹ thuật nào khác mà bạn có thể cần phải làm việc (ví dụ: phân tích sinh tồn, phân tích không gian, v.v.). Nếu những cuốn sách đó không sử dụng R cho ví dụ của chúng, bạn có thể muốn có được một cuốn sách cụ thể R, như một trong những cuốn sách sử dụng R! sách, nhưng giữa các tài liệu, các họa tiết, danh sách gửi thư trợ giúp R, StackOverflow và CV, bạn có thể không cần. Nếu bạn muốn học lập trình theo R đúng cách, bạn cũng nên lấy một trong những cuốn sách đó. Tại thời điểm này, bạn có ít nhất 4 cuốn sách. Tôi xin lỗi, nhưng đó là như vậy. Không ai làm việc nhiều với số liệu thống kê chỉ có một cuốn sách bao gồm tất cả mọi thứ.


5

Tôi không nghĩ rằng một cuốn sách như thế này tồn tại. Cuốn sách mà tôi nghĩ là gần nhất là Phân tích dữ liệu của Gelman và Hill sử dụng mô hình hồi quy và đa cấp / phân cấp .

Nhược điểm:

  • Nó ~ 5 tuổi và nhắm vào các nhà khoa học xã hội.

  • Nó không có mọi thứ trong danh sách TOC của bạn (không có gì về mặt không gian, về cơ bản không có gì trên chuỗi thời gian, v.v.)

Ưu điểm:

  • Được viết tốt

  • Nó có một danh sách các lỗi và một TOC tại liên kết

  • Nó bao gồm những thứ chính như dữ liệu bị thiếu, không có trong danh sách được đánh số của bạn.

  • Nó đánh hầu hết các mục trong danh sách đạn của bạn.

  • Rất nhiều biểu đồ và mã R (một số mã Bugs cho đa cấp).

  • Tất cả dữ liệu / mã có sẵn để tải xuống.


4

Tôi đang làm việc theo cách của mình thông qua các yếu tố của học thống kê . Cuốn sách này bao gồm một loạt các kỹ thuật đáng kinh ngạc (hơn 700 trang) nhưng mỗi cách tiếp cận được giải thích rõ ràng theo cách rất thực tế, thay vì mang tính lý thuyết cao. Nó không rõ ràng chứa bất cứ điều gì về R, tuy nhiên các sơ đồ và đồ thị đều được thực hiện rõ ràng với R và có các gói trên CRAN cho tất cả các chủ đề được thảo luận. Các tác giả đều đã tham gia vào sự phát triển của R (cũng như một khối công bằng của các kỹ thuật máy học hiện đại).


2
Thậm chí còn có gói R cho cuốn sách đó: ElemStatLearn :-)
chl

3

Tôi đồng ý với câu trả lời được bình chọn hàng đầu hiện nay rằng MASS4 khá phù hợp với yêu cầu và có cùng kinh nghiệm với một người trả lời khác gặp khó khăn trong việc đáp ứng yêu cầu về mức độ tinh vi thống kê khá cao. MASS3 thực tế là "Rbook" đầu tiên của tôi và nó phục vụ tôi khá tốt trong khả năng đó. Tôi đã mua "Cuốn sách R" của Crawley và thấy nó không thỏa đáng cho cả một mô tả không chính xác về ngôn ngữ R và ít hơn một tập hợp các ví dụ hoạt động dường như thiếu chiều sâu của lý thuyết thống kê.

Tuy nhiên, với thời gian trôi qua, tôi đã tìm thấy "Chiến lược mô hình hồi quy" (RMS) của Mitchell phù hợp hơn với trọng tâm "thống kê sinh học" của câu hỏi này cũng như có chiều sâu tốt. Đây không phải là một văn bản giới thiệu về R. Vì người ta cần tìm ở nơi khác và tôi khuyên bạn nên giới thiệu một trong Giới thiệu về Lập trình và mô phỏng khoa học bằng cách sử dụng R [ http://www.crcpress.com/product/vdn/9781420068726] hoặc (mặc dù tên của nó) "R for Dummies" được viết bởi một vài người đóng góp lâu năm cho các thẻ đăng R của StackOverflow. Tôi chỉ có RMS trong phiên bản đầu tiên khi nó tập trung hơn vào S, nhưng kể từ đó, Mitchell đã chuyển sang R và hỗ trợ đầy đủrms/HmiscBộ đôi gói R. Tôi tin rằng nó đáp ứng đề xuất của @ gung cho phạm vi bảo hiểm đặc biệt trong một số lĩnh vực được liệt kê, mặc dù không dành cho phân tích không gian hoặc mô hình hỗn hợp.


1
Tôi rất muốn giới thiệu cả RMS và MASS. Tôi không thuộc ngành thống kê sinh học, nhưng hầu hết các lời khuyên trong Harrell thường hữu ích hơn nhiều. Tôi thường yêu cầu các sinh viên nghiên cứu tiềm năng đọc cuốn sách củaellell, hoặc ít nhất là chương 4, và sau đó thường giới thiệu MASS như một cuốn sách tổng hợp tốt để đảm bảo họ quen thuộc.
Glen_b -Reinstate Monica

Để tự học chung, tôi đề cử "Thống kê lý thuyết" của Cox và Hinkleys và "Tập 2 Giới thiệu về Lý thuyết Xác suất" của Cox và Hinkleys. Nhưng đó rõ ràng là không giải quyết phần R của câu hỏi này.
DWin

[Các sinh viên mà tôi giám sát nằm trong các lĩnh vực nằm ngoài số liệu thống kê, mặc dù công việc của họ liên quan đến khá nhiều ... MASS và RMS thường hữu ích cho họ hơn Cox và Hinkley và Feller Vol 2, mặc dù cả hai - cùng với Kendall và Stuart - rất có giá trị đối với nền tảng của riêng tôi]
Glen_b -Reinstate Monica

2

Nếu bạn muốn dịch ... (đây là một cuốn sách đồng hành của một cuốn sách lý thuyết 4.900 trang):

Sách lớn R

Cuốn sách này (trong đó tôi là đồng tác giả) là một cuốn sách tổng hợp 15 năm kinh nghiệm tư vấn và giảng dạy ở cấp đại học và sau đại học và chỉ hiển thị các ví dụ về công cụ R mà các chi tiết về toán học (bằng chứng) được đưa ra trong 4.900 trang của tôi sách đồng hành nơi tính toán cũng được thực hiện bằng tay với các giá trị số (+500 trang sẽ có trong phiên bản tiếp theo). Cuốn sách này cũng cung cấp khả năng kiểm tra xem phần mềm có đưa ra các giá trị phù hợp hay không và nó thú vị hơn nhiều so với việc tính toán bằng tay hoặc trong MS Excel về các môn học thường được dạy trong các khóa học sau đại học ở các trường châu Âu. Mục đích của cuốn sách này cũng là để cho thấy rằng bạn có thể sử dụng 1 phần mềm thay vì nhiều phần mềm cho cùng một kết quả mà không mất chi phí (thay vì sử dụng JMP + Minitab + SPSS + SAS + MATLAB cùng nhau). Cuốn sách này cũng cho thấy những điểm yếu của R (bảo trì gói không được bảo đảm). Nó cũng là một bản tóm tắt các câu hỏi có giá trị cao trên các diễn đàn và blog R khác nhau. Nó là miễn phí và màu sắc!


1
Bạn cũng có thể cung cấp "đánh giá ngắn" được yêu cầu? Tại sao bạn lại giới thiệu cuốn sách này? Những điều tốt (và xấu) về nó là gì?
whuber

Tôi là một trong những đồng tác giả ... không trung lập cho một bài đánh giá ngắn ...
Vincent ISOZ

1
Điều đó ổn thôi - chúng tôi sẽ rất biết ơn khi nghe từ bạn những gì bạn nghĩ là điểm mạnh của cuốn sách của bạn hoặc một đặc điểm của những người sẽ được hưởng lợi từ nó. Bằng cách tiết lộ kết nối của bạn với cuốn sách (điều cần thiết ), bạn cho phép người đọc tính đến điều đó trong việc đánh giá những gì bạn nói. Tôi nghi ngờ rằng nhiều độc giả sẽ hiểu rằng bạn rất am hiểu về cuốn sách này và sẽ đánh giá cao những gì bạn nói. Nếu không cung cấp một số loại đánh giá, câu trả lời của bạn sẽ phải chuyển sang một nhận xét đơn thuần sẽ nhận được tương đối ít chú ý.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.