Quy tắc ngón tay cái cho thống kê hiện đại


85

Tôi thích cuốn sách của G van Belle về Quy tắc thống kê của ngón tay cái , và ở mức độ thấp hơn Các lỗi phổ biến trong Thống kê (và Cách tránh chúng) từ Phillip I Good và James W. Hardin. Họ giải quyết những cạm bẫy phổ biến khi diễn giải kết quả từ các nghiên cứu thực nghiệm và quan sát và đưa ra các khuyến nghị thực tế cho suy luận thống kê, hoặc phân tích dữ liệu thăm dò. Nhưng tôi cảm thấy rằng các hướng dẫn "hiện đại" là hơi thiếu, đặc biệt là việc sử dụng ngày càng nhiều các số liệu thống kê tính toán và mạnh mẽ trong các lĩnh vực khác nhau, hoặc giới thiệu các kỹ thuật từ cộng đồng học máy, ví dụ như thống kê sinh học lâm sàng hoặc dịch tễ di truyền.

Ngoài các thủ thuật tính toán hoặc cạm bẫy phổ biến trong trực quan hóa dữ liệu có thể được giải quyết ở nơi khác, tôi muốn hỏi: các quy tắc hàng đầu mà bạn muốn giới thiệu để phân tích dữ liệu hiệu quả là gì? ( một quy tắc cho mỗi câu trả lời, xin vui lòng ).

Tôi đang nghĩ về các hướng dẫn mà bạn có thể cung cấp cho một đồng nghiệp, một nhà nghiên cứu không có nền tảng vững chắc về mô hình thống kê hoặc một sinh viên trong khóa học từ trung cấp đến nâng cao. Điều này có thể liên quan đến các giai đoạn phân tích dữ liệu khác nhau, ví dụ như chiến lược lấy mẫu, lựa chọn tính năng hoặc xây dựng mô hình, so sánh mô hình, dự toán, v.v.

Câu trả lời:


62

Đừng quên thực hiện một số kiểm tra dữ liệu cơ bản trước khi bạn bắt đầu phân tích. Cụ thể, hãy xem xét một biểu đồ phân tán của mọi biến bạn định phân tích theo số ID, ngày / giờ thu thập dữ liệu hoặc tương tự. Mắt thường có thể nhận các mẫu tiết lộ vấn đề khi thống kê tóm tắt không hiển thị bất cứ điều gì bất thường. Và nếu bạn sẽ sử dụng nhật ký hoặc chuyển đổi khác để phân tích, hãy sử dụng nó cho cốt truyện.


6
Tôi đã học được điều này một cách khó khăn. Hai lần.
onestop

2
Đúng! Xem xét trước khi bạn bước nhảy vọt. Xin vui lòng, nhìn vào dữ liệu.
vqv

7
Kiểm tra trực quan dữ liệu có thể làm tăng lỗi loại I nếu các quyết định được đưa ra sau hoc. Tôi có xu hướng chạy các phân tích xác nhận khi chúng được quy định trước và bao gồm các kết quả bị ảnh hưởng bởi kiểm tra như các phân tích thăm dò hoặc độ nhạy.
AdamO

51

Giữ phân tích của bạn tái sản xuất. Một người đánh giá hoặc sếp của bạn hoặc người khác cuối cùng sẽ hỏi bạn chính xác bạn đã đạt được kết quả như thế nào - có thể là sáu tháng hoặc hơn sau khi bạn phân tích. Bạn sẽ không nhớ cách bạn làm sạch dữ liệu, phân tích bạn đã làm gì, tại sao bạn chọn mô hình cụ thể bạn đã sử dụng ... Và tái tạo lại tất cả điều này là một nỗi đau.

Hệ quả: sử dụng một ngôn ngữ kịch bản nào đó, đưa ý kiến ​​vào tập lệnh phân tích của bạn và giữ chúng. Những gì bạn sử dụng (R, SAS, Stata, bất cứ điều gì) ít quan trọng hơn việc có một kịch bản hoàn toàn có thể tái tạo. Từ chối các môi trường trong đó điều này là không thể hoặc khó xử.


24
Nếu bạn sẽ sử dụng R, tôi khuyên bạn nên nhúng mã R của mình vào tài liệu Sweave tạo báo cáo. Bằng cách đó, mã R ở lại với báo cáo.
John D. Cook

36

không có bữa trưa miễn phí đâu

Một phần lớn các thất bại thống kê được tạo ra bằng cách nhấp vào nút sáng bóng lớn có tên "Tính toán ý nghĩa" mà không tính đến gánh nặng của các giả định ẩn.

Nói lại

Ngay cả khi một cuộc gọi đến một máy phát ngẫu nhiên có liên quan, người ta có thể gặp may mắn hoặc xui xẻo và do đó nhảy đến kết luận sai.


29

Một quy tắc cho mỗi câu trả lời ;-)

Nói chuyện với các nhà thống kê trước khi tiến hành nghiên cứu. Nếu có thể, trước khi nộp đơn xin cấp. Giúp anh ấy / cô ấy hiểu vấn đề bạn đang nghiên cứu, nhận ý kiến ​​của anh ấy / cô ấy về cách phân tích dữ liệu bạn sắp thu thập và suy nghĩ về ý nghĩa của thiết kế nghiên cứu và yêu cầu dữ liệu của bạn. Có lẽ anh chàng / gal thống kê đề nghị thực hiện một mô hình phân cấp để giải thích cho người đã chẩn đoán bệnh nhân - sau đó bạn cần theo dõi ai đã chẩn đoán ai. Nghe có vẻ tầm thường, nhưng tốt hơn hết là bạn nên nghĩ về điều này trước khi bạn thu thập dữ liệu (và không thu thập được thứ gì quan trọng) sau đó.

Trên một lưu ý liên quan: làm một phân tích sức mạnh trước khi bắt đầu. Không có gì khó chịu bằng việc không dự trù ngân sách cho một cỡ mẫu đủ lớn. Khi suy nghĩ về kích thước hiệu ứng bạn đang mong đợi, hãy nhớ xu hướng xuất bản - kích thước hiệu ứng bạn sẽ tìm thấy có thể sẽ nhỏ hơn so với những gì bạn mong đợi đối với tài liệu (thiên vị).


28

Một điều tôi nói với các sinh viên của mình là tạo ra một biểu đồ thích hợp cho mọi giá trị p. ví dụ: một biểu đồ phân tán nếu chúng kiểm tra mối tương quan, các ô vuông cạnh nhau nếu chúng thực hiện ANOVA một chiều, v.v.


28

Nếu bạn quyết định giữa hai cách phân tích dữ liệu của mình, hãy thử cả hai cách và xem liệu nó có tạo ra sự khác biệt không.

Điều này rất hữu ích trong nhiều bối cảnh:

  • Để biến đổi hay không biến đổi
  • Xét nghiệm không tham số hoặc tham số
  • Mối tương quan của Spearman hoặc Pearson
  • PCA hoặc phân tích nhân tố
  • Liệu sử dụng trung bình số học hay ước tính mạnh mẽ của giá trị trung bình
  • Có bao gồm đồng biến hay không
  • Có nên sử dụng xóa danh sách khôn ngoan, xóa cặp khôn ngoan, cắt bỏ hoặc một số phương pháp thay thế giá trị bị thiếu khác

Điều này không nên loại bỏ suy nghĩ về vấn đề này, nhưng ít nhất nó cũng mang lại cảm giác về mức độ mà những phát hiện thực chất là mạnh mẽ cho sự lựa chọn.


4
Có phải là một báo giá? Tôi chỉ tự hỏi làm thế nào để thử các quy trình thử nghiệm thay thế (không phải chiến lược phân tích!) Có thể không phần nào phá vỡ sự kiểm soát của lỗi Loại I hoặc tính toán Công suất ban đầu. Tôi biết SAS trả về một cách có hệ thống các kết quả từ các thử nghiệm tham số và không tham số (ít nhất là trong so sánh hai mẫu phương tiện và ANOVA), nhưng tôi luôn thấy điều này hấp dẫn: Chúng ta không nên quyết định trước khi xem kết quả mà thử nghiệm nào nên được áp dụng?
chl

4
@chl điểm tốt. Tôi đồng ý rằng quy tắc ngón tay cái ở trên có thể được sử dụng vì những lý do sai. Tức là, thử mọi thứ theo nhiều cách và chỉ báo cáo kết quả mang lại câu trả lời dễ chịu hơn. Tôi thấy quy tắc ngón tay cái hữu ích như một công cụ đào tạo phân tích dữ liệu để tìm hiểu ảnh hưởng của các quyết định phân tích đối với các kết luận thực chất. Tôi đã thấy nhiều sinh viên bị lạc với các quyết định, đặc biệt là có lời khuyên cạnh tranh trong tài liệu (ví dụ, biến đổi hay không biến đổi) thường có ảnh hưởng tối thiểu đến các kết luận thực chất.
Jeromy Anglim

1
@chl không nó không phải là một trích dẫn. Nhưng tôi nghĩ rằng nó là tốt để phân định quy tắc của ngón tay cái từ lý do và cảnh giác của nó. Tôi thay đổi nó thành đậm để làm cho nó rõ ràng.
Jeromy Anglim

1
Ok, nó có ý nghĩa với tôi để thử các biến đổi khác nhau và xem xét nếu nó cung cấp một cách tốt hơn để giải thích cho các mối quan hệ được nghiên cứu; Điều tôi không hiểu là thử các chiến lược phân tích khác nhau, mặc dù đó là thông lệ hiện tại (nhưng không được báo cáo trong các bài báo đã xuất bản :-), đặc biệt. khi họ dựa vào các giả định khác nhau (trong EFA so với PCA, bạn giả sử có một thuật ngữ lỗi bổ sung; trong thử nghiệm không tham số so với tham số, bạn sẽ bỏ đi một phần của các giả định, v.v.). Nhưng, tôi đồng ý phân định ranh giới giữa phân tích thăm dò và xác nhận không quá rõ ràng ...
chl

2
Điều này đối với tôi chỉ hữu ích cho phân tích thăm dò hoặc trong các bước đào tạo và xác nhận. Bạn sẽ luôn cần một bước kiểm tra xác minh cuối cùng hoặc nếu không bạn có thể tự đánh lừa mình bằng những kết quả quan trọng nhất định hoạt động tốt khi bạn có một sự khác biệt mong muốn theo niềm tin 'chủ quan' của bạn . Ai là người đánh giá phương pháp nào hoạt động tốt hơn? Cá nhân tôi, nếu tôi nghi ngờ các phương pháp khác nhau, thì tôi sẽ kiểm tra nó trên dữ liệu mô phỏng, để kiểm tra những thứ như phương sai của công cụ ước tính hoặc độ mạnh, v.v.
Sextus Empiricus

22

Hỏi dữ liệu của bạn. Trong kỷ nguyên hiện đại của RAM giá rẻ, chúng ta thường làm việc với lượng lớn dữ liệu. Một lỗi 'ngón tay mập' hoặc 'vị trí thập phân bị mất' có thể dễ dàng chi phối một phân tích. Nếu không có một số kiểm tra vệ sinh cơ bản, (hoặc vẽ sơ đồ dữ liệu, như được đề xuất bởi những người khác ở đây), người ta có thể lãng phí rất nhiều thời gian. Điều này cũng gợi ý sử dụng một số kỹ thuật cơ bản cho 'sự mạnh mẽ' để vượt trội hơn.


2
Hệ quả: xem xét liệu ai đó đã mã hóa một giá trị còn thiếu là "9999" thay vì "NA". Nếu phần mềm của bạn sử dụng giá trị này theo mệnh giá, nó sẽ làm rối phân tích của bạn.
Stephan Kolassa

21

Sử dụng phần mềm hiển thị chuỗi logic lập trình từ dữ liệu thô cho đến các phân tích / kết quả cuối cùng. Tránh phần mềm như Excel nơi một người dùng có thể mắc lỗi không thể phát hiện trong một ô, chỉ kiểm tra thủ công mới nhận được.


1
VisTrails là một hệ thống giúp quá trình này. (Tôi chỉ sử dụng các hệ thống homebrew; các mục tiêu chung của nhóm quan trọng hơn một công cụ cụ thể.)
denis

18

Luôn tự hỏi "những kết quả này có ý nghĩa gì và chúng sẽ được sử dụng như thế nào?"

Thông thường mục đích của việc sử dụng số liệu thống kê là để hỗ trợ đưa ra quyết định trong tình trạng không chắc chắn. Vì vậy, điều quan trọng là phải có trước mặt bạn "Những quyết định nào sẽ được đưa ra do kết quả của phân tích này và phân tích này sẽ ảnh hưởng đến những quyết định này như thế nào?" (ví dụ: xuất bản một bài viết, đề xuất một phương pháp mới được sử dụng, cung cấp $ X tiền tài trợ cho Y, nhận thêm dữ liệu, báo cáo số lượng ước tính là E, v.v.

Nếu bạn không cảm thấy rằng có bất kỳ quyết định nào được đưa ra, thì người ta sẽ tự hỏi tại sao bạn lại thực hiện phân tích ngay từ đầu (vì nó khá tốn kém khi phân tích). Tôi nghĩ rằng số liệu thống kê là một "phiền toái" ở chỗ nó là một phương tiện để kết thúc, chứ không phải là một kết thúc. Theo quan điểm của tôi, chúng tôi chỉ định lượng sự không chắc chắn để chúng tôi có thể sử dụng điều này để đưa ra quyết định giải thích cho sự không chắc chắn này một cách chính xác.

Tôi nghĩ rằng đây là một lý do tại sao giữ cho mọi thứ đơn giản là một chính sách tốt nói chung, bởi vì nó thường dễ dàng hơn nhiều khi liên hệ một giải pháp đơn giản với thế giới thực (và do đó với môi trường mà quyết định được đưa ra) so với giải pháp phức tạp . Nó cũng thường dễ dàng hơn để hiểu những hạn chế của câu trả lời đơn giản. Sau đó, bạn chuyển sang các giải pháp phức tạp hơn khi bạn hiểu các giới hạn của giải pháp đơn giản và cách giải quyết phức tạp.


3
Tôi đồng ý với tất cả mọi thứ ngoại trừ về khái niệm để giữ cho mọi thứ đơn giản. Đối với tôi sự đơn giản hoặc phức tạp nên là một chức năng của chi phí cho quyết định không đúng đắn mà bạn đã giải thích một cách hùng hồn. Đơn giản có thể có chi phí không đáng kể trong một lĩnh vực (ví dụ: phục vụ quảng cáo sai cho khách hàng) và chi phí cực kỳ khác nhau ở khu vực khác (quản lý điều trị sai cho bệnh nhân).
Thomas Speidel

18

Có thể có một danh sách dài nhưng phải đề cập đến một vài: (không theo thứ tự cụ thể)

  1. Giá trị P KHÔNG phải là xác suất. Cụ thể, đó không phải là xác suất để xảy ra lỗi Loại I. Tương tự, các TCTD không có giải thích xác suất cho dữ liệu đã cho. Chúng được áp dụng cho các thí nghiệm lặp đi lặp lại.

  2. Vấn đề liên quan đến phương sai chiếm ưu thế hầu hết thời gian trong thực tế, do đó, ước tính sai lệch với phương sai nhỏ sẽ tốt hơn so với ước tính không thiên vị với phương sai lớn (hầu hết thời gian).

  3. Mô hình phù hợp là một quá trình lặp đi lặp lại. Trước khi phân tích dữ liệu, hãy hiểu nguồn dữ liệu và các mô hình có thể phù hợp hoặc không phù hợp với mô tả. Ngoài ra, hãy thử mô hình bất kỳ vấn đề thiết kế trong mô hình của bạn.

  4. Sử dụng các công cụ trực quan, xem xét dữ liệu (cho những bất thường có thể xảy ra, xu hướng rõ ràng, v.v. để hiểu dữ liệu) trước khi phân tích dữ liệu. Sử dụng các phương pháp trực quan hóa (nếu có thể) để xem mô hình phù hợp với dữ liệu đó như thế nào.

  5. Cuối cùng nhưng không kém phần quan trọng, sử dụng phần mềm thống kê cho những gì chúng được tạo ra (để làm cho nhiệm vụ tính toán của bạn dễ dàng hơn), chúng không thể thay thế cho suy nghĩ của con người.


14
Mục 1 của bạn không chính xác: giá trị P là xác suất lấy được dữ liệu là cực trị hoặc cực đoan hơn, đưa ra giả thuyết khống. Theo như tôi biết điều đó có nghĩa là P một xác suất - dù sao cũng có xác suất. Tuyên bố của bạn là chính xác trong trường hợp một người đang làm việc trong mô hình lỗi của Neyman-Pearson, nhưng không phải là một hoạt động trong mô hình Ngư dân trong đó các giá trị P là ý tưởng của bằng chứng chống lại giả thuyết khống. Đúng là các mô hình thường được trộn lẫn vào một mash-mash không liên tục, nhưng cả hai đều 'chính xác' khi được sử dụng một mình và nguyên vẹn.
Michael Lew

2
Đối với các khoảng tin cậy bạn, một lần nữa, chỉ chính xác trong giới hạn của khoảng tin cậy Neymanian. Fisher (và những người khác trước anh ta) cũng đã nghĩ ra và sử dụng những thứ mà người ta sẽ hiểu là khoảng tin cậy, và có một cách giải thích hoàn toàn hợp lệ về các khoảng thời gian đó đề cập đến thí nghiệm cụ thể mang lại khoảng thời gian. Theo tôi, họ thích hơn Neyman rất nhiều. Xem câu trả lời của tôi cho câu hỏi Chức năng rời rạc: Phạm vi khoảng tin cậy? để biết thêm chi tiết: stats.stackexchange.com/questions/8844/ từ
Michael Lew

@Michael bạn đúng, nhưng hãy xem: Null đúng bao nhiêu lần? Hoặc tốt hơn: Bất cứ ai cũng có thể chứng minh nếu null là chính xác? Chúng ta cũng có thể có những cuộc tranh luận triết học sâu sắc về điều này nhưng đó không phải là vấn đề. Trong sự lặp lại kiểm soát chất lượng có ý nghĩa, nhưng trong khoa học, bất kỳ quy tắc quyết định tốt nào cũng phải có điều kiện dữ liệu.
suncoolsu

1
Fisher biết điều này (dựa trên dữ liệu quan sát được và nhận xét về kiểm soát chất lượng dựa trên điều đó). Ông đã sản xuất nhiều ví dụ truy cập dựa trên điều này. Bayesian đã chiến đấu về điều này, giả sử, trong hơn nửa thế kỷ.
suncoolsu

1
μ=0

13

Đối với tổ chức / quản lý dữ liệu, đảm bảo rằng khi bạn tạo các biến mới trong tập dữ liệu (ví dụ: tính chỉ số khối cơ thể từ chiều cao và cân nặng), các biến ban đầu sẽ không bao giờ bị xóa. Một cách tiếp cận không phá hủy là tốt nhất từ ​​góc độ tái sản xuất. Bạn không bao giờ biết khi nào bạn có thể nhập sai một lệnh và sau đó cần phải làm lại việc tạo biến của bạn. Nếu không có các biến ban đầu, bạn sẽ mất rất nhiều thời gian!


11

Hãy suy nghĩ kỹ về quy trình tạo dữ liệu cơ bản (DGP). Nếu mô hình bạn muốn sử dụng không phản ánh DGP, bạn cần tìm một mô hình mới.


Làm thế nào để bạn biết, làm thế nào bạn có thể biết, DGP là gì. Ví dụ, tôi chạy chuỗi thời gian trong một khu vực mà tôi chưa thấy lý thuyết phát triển tốt (tại sao một số loại chi tiêu công nhất định xảy ra). Tôi không nghĩ có thể biết quá trình thực sự trong trường hợp này.
user54285

8

Đối với biểu đồ, một quy tắc tốt cho số lượng thùng trong biểu đồ :

căn bậc hai của số điểm dữ liệu


6

Mặc dù bộ dữ liệu ngày càng lớn hơn và phần mềm mạnh hơn, các mô hình phù hợp quá mức là mối nguy hiểm lớn đối với các nhà nghiên cứu, đặc biệt là những người chưa bị đốt cháy bởi quá phù hợp. Quá phù hợp có nghĩa là bạn đã trang bị một cái gì đó phức tạp hơn dữ liệu của bạn và trạng thái của nghệ thuật. Giống như tình yêu hay cái đẹp, thật khó để định nghĩa, hãy để một mình định nghĩa chính thức, nhưng dễ nhận ra hơn.

Một quy tắc tối thiểu là 10 điểm dữ liệu cho mỗi tham số ước tính cho mọi thứ như hồi quy cổ điển và xem ra hậu quả nếu bạn bỏ qua nó. Đối với các phân tích khác, bạn thường cần nhiều hơn nữa để thực hiện công việc tốt, đặc biệt nếu có các danh mục hiếm trong dữ liệu.

Ngay cả khi bạn có thể phù hợp với một mô hình một cách dễ dàng, bạn vẫn phải lo lắng liên tục về ý nghĩa của nó và khả năng tái tạo của nó với một bộ dữ liệu rất giống nhau.


Điều đó thường được xem như là một quy tắc chung cho các mô hình trong đó phản hồi là điều kiện bình thường. Trong các trường hợp khác, nó quá tự do. Ví dụ, đối với phân loại nhị phân, quy tắc ngón tay cái tương ứng sẽ là 15 quan sát trong danh mục ít xảy ra cho mọi biến số; & để phân tích sinh tồn, sẽ có 10 sự kiện (nghĩa là không kiểm duyệt dữ liệu) cho mỗi biến.
gung

Tôi đồng ý. Tôi sẽ chỉnh sửa, nhưng tại sao không đăng quy tắc ngón tay cái của riêng bạn cùng với bình luận mở rộng.
Nick Cox

1
Bạn nên làm nổi bật câu cuối cùng "Ngay cả khi bạn có thể phù hợp với một mô hình một cách dễ dàng, bạn nên lo lắng liên tục về ý nghĩa của nó và khả năng tái tạo của nó với một bộ dữ liệu rất giống nhau."
Sextus Empiricus

6

Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Yt+h
  2. Yt+hYt

Yt+hYt+Xt


5

Nếu mô hình không hội tụ dễ dàng và nhanh chóng, đó có thể là lỗi của phần mềm. Tuy nhiên, thông thường hơn là dữ liệu của bạn không phù hợp với mô hình hoặc mô hình không phù hợp với dữ liệu. Thật khó để nói rằng, và các nhà kinh nghiệm và lý thuyết có thể có quan điểm khác nhau. Nhưng tư duy vấn đề, thực sự nhìn vào dữ liệu và không ngừng suy nghĩ về việc giải thích mô hình giúp đỡ nhiều nhất có thể. Trên hết, hãy thử một mô hình đơn giản hơn nếu một mô hình phức tạp sẽ không hội tụ.

Không có lợi ích trong việc buộc hội tụ hoặc tuyên bố chiến thắng và nhận kết quả sau nhiều lần lặp nhưng trước khi mô hình của bạn thực sự đã hội tụ. Tốt nhất bạn tự đánh lừa mình nếu bạn làm điều đó.


"Thực sự nhìn vào dữ liệu" thật tuyệt vời khi chúng ta có một NN thực hiện công việc này cho chúng ta.
Sextus Empiricus

Nó được gọi là JWT.
Nick Cox

5

Trong hồi quy biến công cụ luôn kiểm tra ý nghĩa chung của các công cụ của bạn. Quy tắc ngón tay cái Staiger-Stock nói rằng thống kê F dưới 10 là đáng lo ngại và chỉ ra rằng các công cụ của bạn có thể yếu, tức là chúng không đủ tương quan với biến nội sinh. Tuy nhiên, điều này không tự động ngụ ý rằng F trên 10 đảm bảo các công cụ mạnh. Staiger và Stock (1997) đã chỉ ra rằng các kỹ thuật biến công cụ như 2SLS có thể bị sai lệch trong các mẫu "nhỏ" nếu các công cụ chỉ tương quan yếu với biến nội sinh. Ví dụ của họ là nghiên cứu của Angrist và Krueger (1991), người đã có hơn 300.000 quan sát - một thực tế đáng lo ngại về khái niệm mẫu "nhỏ".


Tôi đã thêm liên kết đến bài viết nhưng tôi tin rằng câu trả lời này cần một số định dạng hơn nữa, tôi thấy quá khó để nhấn mạnh 'quy tắc ngón tay cái' dựa trên việc quét bài viết rất nhanh và câu trả lời này không trực quan lắm.
Sextus Empiricus

3

Không có tiêu chí để lựa chọn tiêu chí thông tin.

Khi ai đó nói điều gì đó như "The? IC chỉ ra điều này, nhưng người ta thường biết là đưa ra kết quả sai" (bạn có thích thư nào không), bạn biết rằng bạn cũng sẽ phải suy nghĩ về mô hình và đặc biệt là liệu nó có làm được không ý nghĩa khoa học hay thực tiễn.

Không đại số có thể cho bạn biết rằng.


2

Tôi đã đọc nó ở đâu đó (có lẽ được xác thực chéo) và tôi đã không thể tìm thấy nó ở bất cứ đâu, vì vậy ở đây đi ...

Nếu bạn phát hiện ra một kết quả thú vị, có lẽ nó đã sai.

Rất dễ bị kích động bởi triển vọng của giá trị p đáng kinh ngạc hoặc lỗi xác thực chéo gần như hoàn hảo. Cá nhân tôi đã ngây ngất trình bày kết quả tuyệt vời (sai) cho các đồng nghiệp chỉ để rút lại chúng. Thông thường, nếu nó có vẻ quá tốt là đúng ...

'đúng sự thật. 'Hoàn toàn đúng.


2

Cố gắng tỏ ra dũng cảm thay vì đạo đức Đó là, đừng để những dấu hiệu nhỏ nhặt về sự không bình thường, không độc lập hoặc phi tuyến tính, v.v. chặn đường của bạn nếu những dấu hiệu đó cần được bỏ qua để dữ liệu được nói to và rõ ràng . - Trong tiếng Đan Mạch, 'dristig' so với 'dydig' là tính từ.


1

Khi phân tích dữ liệu theo chiều dọc, hãy chắc chắn kiểm tra các biến được mã hóa theo cùng một cách trong mỗi khoảng thời gian.

Trong khi viết luận văn của tôi, trong đó yêu cầu phân tích dữ liệu thứ cấp, đã có một tuần hoặc lâu hơn sự thay đổi hoàn toàn của sự thay đổi 1 đơn vị về điểm trầm cảm trung bình qua một năm có nghĩa là ổn định theo năm: nó hóa ra là một trong những năm của tôi bộ dữ liệu, các mục tỷ lệ cho một công cụ được xác thực đã được mã hóa 1 Lần4 thay vì 0 Lần3.


1

Giả thuyết của bạn sẽ thúc đẩy sự lựa chọn của bạn về mô hình, không phải là cách khác.

Để diễn giải Maslow, nếu bạn là một cái búa, mọi thứ trông giống như một cái đinh. Các mô hình cụ thể đi kèm với người mù và các giả định về thế giới được xây dựng ngay trong đó: ví dụ như các mô hình không năng động gây nghẹt thở cho phản hồi kết quả điều trị.


1

Sử dụng mô phỏng để kiểm tra cấu trúc mô hình của bạn có thể tạo ra "kết quả" đơn giản là các tạo tác toán học của các giả định của mô hình của bạn

Thực hiện phân tích của bạn về các biến được rerandomized hoặc trên các biến mô phỏng được biết là không tương quan với nhau. Làm điều này nhiều lần và tương phản ước tính điểm trung bình (và độ tin cậy hoặc khoảng tin cậy) với kết quả bạn thu được trên dữ liệu thực tế: chúng có khác nhau không?


0

Tôi là một nhà phân tích dữ liệu hơn là một nhà thống kê nhưng đây là những gợi ý của tôi.

1) Trước khi bạn phân tích dữ liệu, hãy đảm bảo các giả định về phương pháp của bạn là đúng. Một khi bạn thấy kết quả, họ có thể khó quên ngay cả sau khi bạn khắc phục sự cố và kết quả thay đổi.

2) Nó giúp biết dữ liệu của bạn. Tôi chạy chuỗi thời gian và nhận được một kết quả có ý nghĩa rất nhỏ đối với dữ liệu những năm gần đây. Tôi đã xem xét các phương pháp theo hướng đó và phát hiện ra trung bình của các mô hình trong phương pháp này đã làm sai lệch kết quả trong một khoảng thời gian (và đã xảy ra sự phá vỡ cấu trúc).

3) Hãy cẩn thận về các quy tắc của ngón tay cái. Họ phản ánh kinh nghiệm của các nhà nghiên cứu riêng lẻ từ dữ liệu của họ và nếu lĩnh vực của họ rất khác với kết luận của bạn thì có thể không chính xác cho dữ liệu của bạn. Hơn nữa, và đây là một cú sốc đối với tôi, các nhà thống kê thường không đồng ý về những điểm chính.

4) Thử phân tích dữ liệu bằng các phương pháp khác nhau và xem kết quả có giống nhau không. Hiểu rằng không có phương pháp nào là hoàn hảo và hãy cẩn thận kiểm tra khi bạn có thể vi phạm các giả định.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.