Một cuốn sách hay với sự căng thẳng như nhau về lý thuyết và toán học


10

Tôi đã có đủ các khóa học về thống kê trong những năm học và ở trường đại học. Tôi có một sự hiểu biết công bằng về các khái niệm, chẳng hạn như CI, giá trị p, diễn giải ý nghĩa thống kê, nhiều thử nghiệm, tương quan, hồi quy tuyến tính đơn giản (với bình phương tối thiểu) (mô hình tuyến tính tổng quát) và tất cả các thử nghiệm về giả thuyết. Tôi đã được giới thiệu về nó nhiều trong những ngày đầu chủ yếu là về mặt toán học. Và gần đây, với sự giúp đỡ của cuốn sách Trực quan sinh học trực quan, tôi đã nắm bắt và hiểu biết chưa từng có đối với lý thuyết khái niệm thực tế, tôi tin.

Bây giờ, điều tôi thấy tôi thiếu là sự hiểu biết về các mô hình phù hợp (ước tính các tham số cho mô hình) và tương tự. Cụ thể, các khái niệm như ước lượng khả năng tối đa, mô hình tuyến tính tổng quát , phương pháp tiếp cận Bayes để thống kê suy luận luôn có vẻ xa lạ với tôi. Không có đủ ví dụ hoặc hướng dẫn hoặc âm thanh khái niệm, như người ta sẽ tìm thấy trên các mô hình xác suất đơn giản hoặc về các chủ đề (cơ bản) khác trên internet.

Tôi là một nhà sinh học và tôi làm việc trên dữ liệu RNA-Seq liên quan đến số lượng đọc thô đối với việc tìm kiếm, giả sử, biểu hiện gen (hoặc biểu hiện gen khác biệt). Từ nền tảng của tôi, ngay cả khi tôi không quen thuộc với các mô hình thống kê, tôi có thể nắm được lý do cho giả định phân phối poisson và nhị thức âm, v.v. Nhưng một số bài báo đề cập đến các mô hình tuyến tính tổng quát và ước tính MLE, v.v. Tôi tin rằng tôi có nền tảng cần thiết để hiểu.

Tôi đoán những gì tôi đang yêu cầu là một cách tiếp cận mà một số chuyên gia trong số các bạn cho là hữu ích và (a) cuốn sách giúp tôi nắm bắt các khái niệm này theo cách trực quan hơn (không chỉ là toán học khắt khe, mà là lý thuyết được hỗ trợ bằng toán học). Vì tôi chủ yếu sẽ áp dụng chúng, tôi sẽ hài lòng (vào lúc này) với việc hiểu những gì và sau này, tôi có thể quay lại các bằng chứng toán học nghiêm ngặt ... Có ai có bất kỳ khuyến nghị nào không? Tôi không ngại mua nhiều hơn 1 cuốn sách nếu các chủ đề tôi yêu cầu thực sự nằm rải rác để được bao phủ trong một cuốn sách.

Cảm ơn rât nhiều!


Bạn có thể giới thiệu cho tôi một số nguồn tốt để tìm hiểu về dữ liệu RNA-Seq và các thách thức thống kê trong lĩnh vực này không?
Biuler

1
chắc chắn, trang web seqanswers.com là một tài nguyên rất tốt cho NGS. Bạn có thể bắt đầu với các công nghệ khác nhau và cách chúng hoạt động từ đây: goo.gl/NLuvJ Đây là một số bài viết giải thích một số vấn đề thống kê với dữ liệu NGS. Nói tóm lại, chúng là ước lượng phương sai sinh học và kỹ thuật (liên quan đến biểu hiện gen). 1) Một trong những bài báo đầu tiên đánh giá biến thể kỹ thuật: ncbi.nlm.nih.gov/pubmed/18550804 2) DESeq: một công cụ phát hiện biểu hiện gen: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon
Arun

1
Chuyển đổi sang CW vì có vẻ như một loạt các đề xuất tốt sẽ được cung cấp và không có tiêu chuẩn khách quan rõ ràng nào để quyết định "tốt nhất" trong số đó. Tôi hy vọng điều này sẽ giúp độc giả dễ dàng bình chọn nhiều câu trả lời hơn :-).
whuber

chắc chắn có ý nghĩa. Tôi có thể tạo một bài viết wiki cộng đồng không? hoặc nó đòi hỏi đặc quyền của người điều hành?
Arun

Câu trả lời:


5

Bạn sẽ tìm thấy mọi thứ không phải Bayes mà bạn đã hỏi về nó Chiến lược mô hình hồi quy của Frank Harrell . Tôi sẽ để lại các khuyến nghị của Bayes cho những người hiểu biết hơn (mặc dù tôi có Gelman, Carlin, Stern và Rubin , cũng như Gilks, Richardson và Speigelhalter , trên kệ sách của tôi). Nên có một vài cuốn sách sinh học Bayes trên thị trường.

Cập nhật: McCullach và Nelder (1989) là một cuốn sách kinh điển về GLM, tất nhiên. Nó là đột phá cho thời gian của nó, nhưng tôi thấy nó khá nhàm chán, thẳng thắn. Bên cạnh đó, nó không bao gồm các bổ sung sau này như chẩn đoán dư, mô hình không tăng hoặc mở rộng đa cấp / phân cấp. Hardin và Hilbe (2007) bao gồm một số nội dung mới hơn với các ví dụ thực tế trong Stata (nơi GLM và tiện ích mở rộng được triển khai rất tốt; Hardin từng làm việc tại Stata Corp viết nhiều lệnh này, cũng như đóng góp cho ước tính bánh sandwich).


Xin chào StasK, cảm ơn bạn rất nhiều! Tôi tìm thấy một mô hình hồi quy sẽ phục vụ cho các yêu cầu của tôi. Bao nhiêu họ bao gồm GLM? Tôi cũng thấy rằng các tài liệu tham khảo của bạn về suy luận Bayes là những tiêu chuẩn mà tôi luôn thấy được đề xuất. Theo bạn, họ dễ theo dõi như thế nào (như thể nếu trình độ quá cao)? Ngoài ra, bạn đã xem cuốn sách Các mô hình tuyến tính tổng quát chưa? Một trong những tác giả là JA Nelder. Ngoài ra, tôi cũng muốn mua cuốn sách này trên các mô hình thống kê . Bạn có suy nghĩ gì về điều này không? Cảm ơn!
Arun

Tôi chưa thấy cuốn sách của Freedman này. Đây là một điều khá thú vị, mặc dù nó có vẻ khá nhẹ về sự nghiêm ngặt, và tôi không chắc mình hài lòng với điều đó. . Tôi thực sự không biết nền tảng toán học / chỉ số của bạn, vì vậy tôi sẽ rất khó để đánh giá nếu những cuốn sách này sẽ khó khăn. Một số sách Bayes có thể là; họ có xu hướng cho rằng bạn đã biết MLE và GLM.
StasK

1
Tôi đã cập nhật phản hồi của mình để bao gồm tài liệu tham khảo McCullach và Nelder.
StasK

Tôi là một engr điện tử. biến sinh học. Tôi đã có các khóa học về thống kê (đối với lý thuyết truyền thông), các quá trình xác suất và ngẫu nhiên, thoải mái với phép tính (mặc dù hơi gỉ) và đại số tuyến tính. Tất nhiên đây hầu hết là trình độ đại học ... Mục tiêu của tôi là âm thanh về mặt khái niệm (nhiều hơn các diễn giải hình học, hiểu các phương pháp và quan trọng nhất là mục đích), v.v ... Tất nhiên, tôi không bận tâm đến toán học, nếu nó đi kèm với những công thức này. Cảm ơn một lần nữa cho các khuyến nghị của bạn!
Arun

3

Những cuốn sách này giải thích những thứ tốt, nhưng không phải là những thứ mà OP yêu cầu.
StasK

@StasK, bạn có thể giải thích những thứ không có trong những cuốn sách trên không?
Biuler

Tôi đã dạy từ HTF, và những thứ tôi dạy từ đó là về các chức năng cơ bản, mức độ tự do hiệu quả, lựa chọn mô hình, lasso, xác nhận chéo, v.v. MLE và GLM mà OP quan tâm nhất được đề cập đến. Có thể giả định rằng sinh viên thống kê đã quen thuộc với công cụ này từ khóa đào tạo thống kê chung của họ, hoặc sinh viên CS sẽ sử dụng SVM thay vì hồi quy logistic như phản ứng giật đầu gối đối với dữ liệu kết quả nhị phân. Công cụ Bayes cũng chỉ được đề cập đến trong phạm vi mà các quy tắc quyết định của Bayes là tối ưu, theo một nghĩa nào đó; không có MCMC hoặc liên hợp, nói.
StasK

Bạn đã đọc cuốn sách "Phương pháp thống kê cho tin sinh học" chưa?
Biuler

@biuler, không, tôi không có. Tôi không làm việc trong tin sinh học, nhưng tôi biết rằng đó là một thế giới hơi khác. Vì vậy, tôi không thể đưa ra bất kỳ khuyến nghị hợp lý. Theo tôi, nhánh thống kê sinh học liên quan đến các mô hình như GLM, GEE, mô hình dọc và mô hình sống sót có nhiều điểm chung với kinh tế lượng (vì vậy, cuốn sách của Wooldridge về mô hình dữ liệu mặt cắt ngang và bảng điều khiển có thể là một khuyến nghị tốt cho một số người làm việc sinh học với các mô hình này) hơn với di truyền thống kê, kiểm soát tỷ lệ lỗi theo gia đình và khai thác dữ liệu, dường như là lĩnh vực chuyên môn của bạn.
StasK
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.