Học gì sau Casella & Berger?


22

Tôi là một học sinh tốt nghiệp toán thuần túy với ít kiến ​​thức về toán ứng dụng. Kể từ mùa thu năm ngoái, tôi đã tham gia các lớp học về cuốn sách của Casella & Berger và tôi đã hoàn thành hàng trăm (230+) trang về các vấn đề tập thể dục trong cuốn sách. Ngay bây giờ tôi đang ở Chương 10.

Tuy nhiên, vì tôi không học chuyên ngành thống kê hoặc dự định trở thành một nhà thống kê, tôi không nghĩ rằng tôi sẽ có thể đầu tư thời gian thường xuyên để tiếp tục học phân tích dữ liệu. Kinh nghiệm của tôi cho đến nay là nói với tôi rằng, để trở thành một nhà thống kê, người ta cần phải chịu nhiều tính toán tẻ nhạt liên quan đến các bản phân phối khác nhau (Weibull, Cauchy, , ...). Tôi thấy trong khi các ý tưởng cơ bản là đơn giản, việc thực hiện (ví dụ LRT trong kiểm tra giả thuyết) vẫn có thể khó khăn do kỹ thuật.tF

Tôi hiểu có đúng không? Có cách nào để tôi có thể tìm hiểu xác suất & thống kê không chỉ bao gồm các tài liệu nâng cao hơn mà còn có thể giúp đỡ trong trường hợp tôi cần phân tích dữ liệu trong cuộc sống thực không? Tôi có cần dành 20 giờ mỗi tuần cho nó như tôi đã từng không?

Mặc dù tôi tin rằng không có con đường hoàng gia nào trong việc học toán, tôi thường không thể không tự hỏi - hầu hết chúng ta không biết phân phối cho dữ liệu thực tế là gì, vậy mục đích của chúng ta là gì để tập trung vào các gia đình phân phối khác nhau ? Nếu kích thước mẫu nhỏ và định lý giới hạn trung tâm không áp dụng, làm thế nào chúng ta có thể phân tích chính xác dữ liệu bên cạnh trung bình và phương sai mẫu nếu phân phối không xác định?

Học kỳ của tôi sẽ kết thúc sau một tháng nữa và tôi không muốn kiến ​​thức của mình bay hơi sau khi tôi bắt đầu tập trung vào nghiên cứu tiến sĩ. Thế là tôi quyết định hỏi. Tôi đang học R, và tôi có một số nền tảng lập trình, nhưng trình độ của tôi tương đương với một con khỉ mã.

Câu trả lời:


24

Tôi không nghĩ rằng tôi sẽ có thể đầu tư thời gian thường xuyên để tiếp tục học phân tích dữ liệu

Tôi không nghĩ Casella & Berger là nơi để tìm hiểu dữ liệu nhiều trong cách phân tích dữ liệu . Đó là nơi để tìm hiểu một số công cụ của lý thuyết thống kê.

Kinh nghiệm của tôi cho đến nay nói với tôi là một người thống kê cần phải chịu nhiều tính toán tẻ nhạt liên quan đến các bản phân phối khác nhau (Weibull, Cauchy, t, F ...).

Tôi đã dành rất nhiều thời gian như một nhà thống kê làm phân tích dữ liệu. Nó hiếm khi (hầu như không bao giờ) liên quan đến tôi làm tính toán tẻ nhạt. Đôi khi nó liên quan đến một số đại số đơn giản, nhưng các vấn đề phổ biến thường được giải quyết và tôi không cần phải tốn bất kỳ nỗ lực nào để sao chép mỗi lần.

Máy tính làm tất cả các tính toán tẻ nhạt.

Nếu tôi ở trong tình huống tôi không sẵn sàng giả sử trường hợp tiêu chuẩn hợp lý (ví dụ: không chuẩn bị sử dụng GLM), tôi thường không có đủ thông tin để đảm nhận bất kỳ phân phối nào khác, vì vậy câu hỏi về tính toán trong LRT thường là tranh luận (tôi có thể thực hiện chúng khi tôi cần, chúng chỉ có xu hướng đã được giải quyết hoặc xuất hiện rất hiếm khi đó là một trò giải trí thú vị).

Tôi có xu hướng làm rất nhiều mô phỏng; Tôi cũng thường xuyên cố gắng sử dụng việc lấy mẫu lại ở một số dạng hoặc bên cạnh hoặc thay cho các giả định tham số.

Tôi có cần phải dành 20 giờ + mỗi tuần cho nó như trước đây không?

Nó phụ thuộc vào những gì bạn muốn có thể làm và bao lâu bạn muốn có được nó tốt.

Phân tích dữ liệu là một kỹ năng, và nó cần thực hành và một nền tảng kiến ​​thức lớn. Bạn sẽ có một số kiến ​​thức bạn cần rồi.

Nếu bạn muốn trở thành một học viên giỏi ở nhiều lĩnh vực khác nhau, sẽ mất rất nhiều thời gian - nhưng theo tôi thì nó còn vui hơn nhiều so với đại số và như vậy khi thực hiện các bài tập Casella và Berger.

Một số kỹ năng tôi xây dựng dựa trên các vấn đề hồi quy có ích với chuỗi thời gian, nói - nhưng rất nhiều kỹ năng mới là cần thiết. Vì vậy, học cách giải thích các lô còn lại và các lô QQ là tiện dụng, nhưng chúng không cho tôi biết tôi cần lo lắng bao nhiêu về một vết sưng nhỏ trong âm mưu PACF và không cung cấp cho tôi các công cụ như sử dụng dự đoán trước một bước lỗi.

Vì vậy, ví dụ, tôi không cần phải nỗ lực tìm ra cách làm ML hợp lý cho các mô hình gamma hoặc weibull điển hình , bởi vì chúng đủ tiêu chuẩn để được giải quyết các vấn đề mà phần lớn đã được đưa vào một hình thức thuận tiện.

Nếu bạn đến để nghiên cứu , bạn sẽ cần nhiều hơn những kỹ năng bạn học được ở những nơi như Casella & Berger (nhưng ngay cả với những kỹ năng đó, bạn cũng nên đọc nhiều hơn một cuốn sách).


Một số điều được đề xuất:

Bạn chắc chắn nên xây dựng một số kỹ năng hồi quy, ngay cả khi bạn không làm gì khác.

Có một số cuốn sách khá hay, nhưng có lẽ Phân tích hồi quy ứng dụng Draper & Smith cộng với Fox và Weisberg Một đồng hành R với hồi quy ứng dụng ; Tôi cũng đề nghị bạn xem xét việc theo dõi với Chiến lược mô hình hồi quy của Mitchell

(Bạn có thể thay thế bất kỳ số lượng sách hay nào cho Draper và Smith - tìm một hoặc hai cuốn sách phù hợp với bạn.)

Cuốn sách thứ hai có một số chương bổ sung trực tuyến rất đáng đọc (và gói R của riêng nó)

-

Một phần ăn thứ hai tốt sẽ Venables & Ripley của Modern Thống Kê Ứng Dụng với S .

Đó là một số nền tảng trong một loạt các ý tưởng khá rộng.

Nó có thể chỉ ra rằng bạn cần một số tài liệu cơ bản hơn trong một số chủ đề (tôi không biết nền tảng của bạn).

Sau đó, bạn cần bắt đầu suy nghĩ về lĩnh vực thống kê nào bạn muốn / cần - thống kê Bayes, chuỗi thời gian, phân tích đa biến, v.v.


6

Lời khuyên của tôi, xuất phát từ quan điểm ngược lại (Thống kê nghiên cứu sinh) là làm việc thông qua sách giáo khoa hồi quy. Đây có vẻ là một điểm khởi đầu tự nhiên cho một người có nền tảng lý thuyết vững chắc mà không có bất kỳ kinh nghiệm áp dụng. Tôi biết nhiều sinh viên tốt nghiệp từ bên ngoài bộ phận của chúng tôi bắt đầu trong một khóa học hồi quy.

Một cái tốt là Hồi quy tuyến tính ứng dụng của Sanford Weisberg . Tôi tin rằng đó là phiên bản thứ tư của nó. Bạn có thể có thể tìm thấy các phiên bản cũ tương đối rẻ.

http://users.stat.umn.edu/~sandy/alr4ed/

Một điều thú vị về sách giáo khoa này, đặc biệt là do thiếu kinh nghiệm tương đối của bạn với R, là đoạn mồi R có sẵn thông qua liên kết trên. Nó cung cấp hướng dẫn đầy đủ để tạo lại mọi thứ được thực hiện trong cuốn sách. Bằng cách này, bạn thực sự có thể học hồi quy (ngoài một số điều cơ bản về GLM), mà không cần lập trình R giữ bạn lại (và có thể bạn sẽ nắm bắt được nhiều điều cơ bản R trên đường đi).

Nếu bạn muốn giới thiệu toàn diện về R, bạn có thể được phục vụ tốt hơn thông qua An R đồng hành với hồi quy ứng dụng của Fox và Weisberg , nhưng có vẻ như bạn muốn học thống kê hơn là lập trình (nếu hai điều đó có thể được nghĩ riêng).

Theo như cam kết về thời gian của bạn, tôi thực sự không nghĩ rằng bạn sẽ tìm thấy sách giáo khoa hoặc tài liệu này quá khó. Không giống như Casella-Berger, sẽ không có nhiều bằng chứng về chứng minh hoặc phái sinh. Nó thường khá đơn giản.

Bên cạnh đó, dường như có các giải pháp trôi nổi trên mạng (hoặc tại một thời điểm nào đó), vì vậy bạn có thể thử các vấn đề, kiểm tra các giải pháp và loại tốc độ theo cách của bạn thông qua cuốn sách.


4

Bản thân tôi đang cố gắng để trở thành một nhà thống kê, nhưng tôi chủ yếu là một nhà tâm lý học, người có một số lợi ích về số lượng và phương pháp. Để thực hiện công việc tâm lý học đúng cách, tôi đã nghiên cứu các phương pháp tiên tiến (đối với một nhà tâm lý học) mà tôi không mơ ước được tính toán thủ công (tôi sẽ không biết nhiều về cách này). Tôi đã rất ngạc nhiên khi các phương thức này có thể truy cập và thuận tiện thông qua tất cả những nỗ lực tận tâm của các lập trình viên gói R trong thập kỷ qua. Tôi đã thực hiện phân tích thực tế với các phương pháp mới mà tôi đã học cách sử dụng trong vòng chưa đầy 20 giờ cho mỗi phương pháp ... Tôi có thể dành nhiều thời gian cho một phương pháp mới vào thời điểm tôi sẵn sàng xuất bản kết quả sử dụng nó, nhưng chắc chắn không cần phải làm một công việc bán thời gian chỉ để đạt được tiến bộ như tôi có. Làm những gì bạn có thể khi bạn tìm thấy thời gian cho nó; đó không phải là một sự theo đuổi tất cả hoặc không có gì nếu bạn không cần nó.

Tôi chắc chắn đã không tập trung hoàn toàn vào bất kỳ chủ đề nào, nói gì đến gia đình phân phối; Tôi nghi ngờ rằng bất kỳ nhà thống kê trung thực và tốt bụng cũng sẽ nghiên cứu rất hẹp. Tôi đã nghiên cứu các bản phân phối lý thuyết trong khoảng một giờ mỗi ngày trong một vài lần trong tuần qua; đó là rất nhiều để chứng minh hữu ích trong các ứng dụng dữ liệu thực. Theo như tôi có thể nói, ý tưởng không quá nhiều để phân loại nghiêm ngặt các phân phối; đó là nhận ra các hình dạng phân phối giống với các lý thuyết và sử dụng chúng để giúp quyết định các phân tích phù hợp và hiểu các động lực cơ bản. Tôi đã chia sẻ những suy nghĩ tương tự về câu trả lời gần đây nhất của tôi về " Có nên chọn phân phối dựa trên lý thuyết, phù hợp hay cái gì khác không? "

Bạn chưa nói phân tích bạn muốn thực hiện trong những gì tôi giả định là kịch bản trường hợp xấu nhất giả thuyết của bạn, nhưng có nhiều cách để nghiên cứu sự nhạy cảm của bất kỳ phân tích để lấy mẫu lỗi. Nếu CLT không áp dụng, vẫn còn một số câu hỏi thống kê bạn có thể hỏi nếu bạn biết cách. Các phương pháp phi tham số thường đưa ra các giả định rất hạn chế về phân phối, vì vậy kiến ​​thức trước về hình dạng phân bố của dân số không nhất thiết là một vấn đề lớn.

Kiến thức nói chung không thực sự làm bay hơi tất cả những điều đó một cách nhanh chóng hay hoàn toàn, nhưng nếu bạn không sử dụng nó, bạn sẽ khó có thể nhớ lại một cách tự do. Bạn sẽ giữ được lợi thế nhận dạng lâu hơn, vẫn có thể có ích nếu bạn cần nghiên cứu các chủ đề bạn đã nghiên cứu vài năm trước ... nhưng nếu bạn muốn thông thạo những gì bạn đã học, hãy tiếp tục sử dụng nó và tiếp tục học hỏi R chắc chắn là một nơi tốt để đầu tư bất kỳ thời gian học tập rảnh rỗi nào bạn có. Nó cũng có ích với toán học thuần túy của bạn: xem một câu trả lời gần đây khác của tôi về " Phần mềm trực quan hóa dữ liệu nguồn mở tốt nhất để sử dụng với PowerPoint ."


3

Tôi tình cờ thấy cái này vào năm 2019. Hai xu của tôi.

Tôi là giáo sư thống kê có thiên hướng phân tích dữ liệu các loại (đó là lý do tại sao tôi chọn số liệu thống kê!). Để nắm bắt một số kiến ​​thức thực tế, tôi khuyên James, Witten, Hastie và Tibshirani "Giới thiệu về học thống kê". Họ thậm chí có một MOOC dựa trên điều đó. Cuốn sách sử dụng rất nhiều ví dụ "dữ liệu thực" và cũng dựa trên R.


Bạn có bất cứ điều gì để đề xuất ngoài "các yếu tố của học thống kê"? Tôi nghĩ rằng tôi đã quen thuộc với (phần cơ bản của) cuốn sách bây giờ.
Bombyx mori

2

Trả lời cho những người khác đến với câu hỏi này sau


phân tích dữ liệu thực tế cuộc sống

Tìm hiểu cơ sở dữ liệu (SQL), dplyr / pandas, công cụ unix (sed, grep), cạo, kịch bản, làm sạch dữ liệu và kiểm tra phần mềm. Các phân phối chuyên ngành khác nhau có rất ít giá trị trong ngành công nghiệp.

Một cuốn sách hồi quy được áp dụng như Angrist & Pischke, Faraway hoặc Weisberg, sẽ là một loại lý thuyết thực tế hơn.

hầu hết thời gian chúng tôi không biết phân phối cho dữ liệu thực tế là gì, vì vậy mục đích để chúng tôi tập trung hoàn toàn vào các gia đình phân phối khác nhau là gì

Do đó sự quan tâm trong số liệu thống kê phi tham số. Nhưng đồng thời không tính toán không có giả định là quá lỏng lẻo. Để trả lời câu hỏi của bạn, các gia đình chuyên biệt có thể được coi là câu trả lời cho các câu hỏi đơn giản mà bạn có thể gặp phải. Ví dụ, tôi nghĩ về một Gaussian như một ước lượng điểm "trơn tru". Poisson trả lời một câu hỏi đơn giản khác. Khi mọi người xây dựng các mô hình toán học, những điểm đặc biệt này có thể là điểm tựa hữu ích. (Nhưng các học giả thường thực hiện nhiệm vụ phân phối tổng thể sai cách.)

OP: Hy vọng bạn đã có niềm vui với nghiên cứu tiến sĩ của bạn!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.