Làm thế nào để làm phiền một trọng tài thống kê?


102

Gần đây tôi đã hỏi một câu hỏi liên quan đến các nguyên tắc chung xung quanh việc xem xét số liệu thống kê trong bài báo . Điều tôi muốn hỏi bây giờ là điều gì đặc biệt làm bạn khó chịu khi xem lại một bài báo, tức là cách tốt nhất để thực sự làm phiền một trọng tài thống kê!

Một ví dụ cho mỗi câu trả lời, xin vui lòng.


Có mở rộng cho các biện minh nhận được để đáp ứng với đánh giá ban đầu (trong đó yêu cầu sửa đổi nhỏ và / hoặc chính) không?
chl

@chl: Vâng, tại sao không.
csgillespie

Câu trả lời:


69

Điều đặc biệt gây khó chịu cho cá nhân tôi là những người sử dụng rõ ràng các gói do người dùng viết cho phần mềm thống kê nhưng không trích dẫn chúng đúng cách, hoặc do đó, không cung cấp bất kỳ tín dụng nào cho các tác giả. Làm như vậy đặc biệt quan trọng khi các tác giả ở trong học viện và công việc của họ phụ thuộc vào việc xuất bản các bài báo được trích dẫn . (Có lẽ tôi nên nói thêm rằng, trong lĩnh vực của tôi, nhiều thủ phạm không phải là thống kê.)


2
+1 cho tôi. Điều này làm tôi thất vọng, đặc biệt là khi họ trích dẫn điều sai và tôi đã cung cấp các chi tiết có liên quan về cách trích dẫn các gói
Gavin Simpson

3
Câu hỏi: khi trích dẫn một gói, bạn có trích dẫn họa tiết (nếu có) hay chính gói đó không?
Brandon Bertelsen

7
@Brandon: nếu tác giả gói quan tâm đủ để hướng dẫn bạn, thì họ đã đưa ra câu trả lời dưới dạng sẽ được chọn bằng trích dẫn ("some_package")
Ben Bolker

2
Ngoài việc có một bài viết mang tính bước ngoặt, điều này không dễ thực hiện, cách dễ nhất để có được trích dẫn là để lại ít nhất một lỗi trong bài viết của bạn. Sau đó, bạn có thể xuất bản một chỉnh sửa, trong đó trích dẫn các bài báo gốc. Để lại một lỗi trong chỉnh sửa và bạn có thể xuất bản một chỉnh sửa tham chiếu đến hiệu chỉnh ban đầu và bài báo gốc (Tôi đã thấy một điều như một học sinh lớp 1). Số lượng trích dẫn tăng theo quy trình O (N ^ 2), trong đó N là số lần hiệu chỉnh.
Mark L. Stone

67

Ôi trời, rất nhiều điều hiện lên trong đầu tôi ...

  • Hồi quy từng bước

  • Chia dữ liệu liên tục thành các nhóm

  • Đưa ra giá trị p nhưng không có thước đo kích thước hiệu ứng

  • Mô tả dữ liệu bằng cách sử dụng giá trị trung bình và độ lệch chuẩn mà không cho biết liệu dữ liệu có ít nhiều đối xứng và không đối xứng

  • Các hình không có chú thích rõ ràng (là các thanh lỗi đó là lỗi tiêu chuẩn của giá trị trung bình hoặc độ lệch chuẩn trong các nhóm, hay là gì?)


5
Tôi hơi tò mò về viên đạn hồi quy từng bước. Điều gì làm cho hồi quy từng bước rất tệ? Có phải đó là vấn đề nạo vét dữ liệu và nhiều so sánh?
Christopher Aden

17
Vấn đề là các quy trình từng bước làm mất hiệu lực hoàn toàn tất cả các giả định và điều kiện tiên quyết cho các thống kê suy luận "bình thường" dựa trên các giá trị p, sau đó bị sai lệch (hướng xuống là "quan trọng hơn"). Về cơ bản, câu trả lời là "có", với lời cảnh báo rằng về nguyên tắc người ta có thể đúng cho tất cả các so sánh này (nhưng điều mà tôi chưa bao giờ thấy được thực hiện). Tôi tin tưởng mạnh mẽ rằng đây là lý do quan trọng nhất tại sao tôi thấy rất nhiều nghiên cứu về tâm lý học không thể sao chép - điều này dẫn đến sự lãng phí tài nguyên rất lớn.
Stephan Kolassa

10
@Stephan: Tôi đồng ý, từng bước là một ý tưởng tồi. Mặc dù, mặc dù họ có thể chưa thực hiện theo phương pháp tâm lý, nhưng có nhiều quy trình lựa chọn điều chỉnh sai lệch liên quan đến quá mức bằng cách điều chỉnh ước tính và sai số chuẩn. Điều này thường không được coi là một vấn đề của nhiều so sánh. Chúng được gọi là phương pháp co ngót. Xem phản hồi của tôi trong chủ đề này < stats.stackexchange.com/questions/499/ Khăn > và "Chiến lược mô hình hóa hồi quy" của Mitchell hoặc Tibshirani trên Lasso.
Brett

5
@Brett Magill: +1 về điều đó, và vâng, tôi biết về co rút và lasso. Bây giờ tất cả những gì tôi cần là một cách nào đó để thuyết phục các nhà tâm lý học rằng những điều này có ý nghĩa ... nhưng mọi người đã chiến đấu với thành công rất hạn chế chỉ để các nhà tâm lý học báo cáo các khoảng tin cậy, vì vậy tôi không quá lạc quan về sự chấp nhận của các nhà tâm lý học trong lần tiếp theo hai mươi năm.
Stephan Kolassa

10
Tôi cũng cho rằng trong tâm lý học tối đa hóa dự đoán không phải là mục đích lý thuyết, nhưng hồi quy từng bước là tất cả về tối đa hóa dự đoán, mặc dù theo cách gần như phân tích. Vì vậy, thường có một sự ngắt kết nối giữa thủ tục và câu hỏi.
Jeromy Anglim


32

Mã được sử dụng để tạo kết quả mô phỏng không được cung cấp. Sau khi yêu cầu mã, nó yêu cầu công việc bổ sung để chạy mã trên bộ dữ liệu do trọng tài tạo.


2
Và nó được định dạng kém, không bị thiếu và sử dụng tên hàm và biến không thể mã hóa. Ồ vâng.
nè 101

30

Đạo văn (lý thuyết hoặc phương pháp). Đánh giá đầu tiên của tôi thực sự là một bài báo cho thấy nhiều bản sao / dán không được kiểm chứng từ một bài báo phương pháp được thiết lập tốt được xuất bản 10 năm trước.

Chỉ cần tìm thấy một vài bài báo thú vị về chủ đề này: Quyền tác giả và đạo văn trong khoa học .

Trong cùng một suy nghĩ, tôi thấy giả mạo (dữ liệu hoặc kết quả) là tồi tệ nhất của tất cả.


20
Nhắc tôi rằng trong những ngày đầu của tôi như là một tài i chi xa quá dài xem xét một bài báo thống kê mà cuối cùng đã bị từ chối bởi rằng tạp chí cụ thể, nhưng các trọng tài khác và tôi đề nghị một ứng dụng hữu ích hơn cho phương pháp này, và tôi cũng phác thảo một bằng chứng đại số để thay thế một nghiên cứu mô phỏng không đạt yêu cầu trong bản thảo. Các tác giả đã có hai bài báo được xuất bản từ nó. Tôi không khó chịu vì điều đó, nhưng một sự thừa nhận như "chúng tôi cảm ơn các trọng tài của một phiên bản trước của bài báo vì những bình luận hữu ích" sẽ là cách cư xử tốt.
vào

1
@onestop Vâng, tôi có thể tưởng tượng một tình huống đáng thất vọng như thế có thể xảy ra như thế nào ...
chl

24
Vài tuần trước tôi đã được đưa ra một bài báo để xem xét và thấy rằng 85% trong số đó đã được xuất bản trong một tạp chí khác ... bởi cùng các tác giả. Điều đó cũng vậy, vẫn được coi là đạo văn. Trong nhiều năm qua, tôi thường xuyên gửi các mẩu giấy - đặc biệt là tóm tắt, giới thiệu và kết luận - cho các công cụ tìm kiếm Web trước khi thực hiện bất kỳ đánh giá nào. Tôi muốn chắc chắn rằng tác phẩm là bản gốc trước khi tôi đầu tư bất cứ lúc nào để đọc nó.
whuber

7
+1, @whuber. Là một biên tập viên của một tạp chí phương pháp luận, tôi thường có công việc khó khăn này để tìm hiểu xem sự đóng góp (như một quy luật, từ các tác giả có uy tín; các tác giả trẻ chưa nhận được quỹ đạo đó) đảm bảo rằng ấn phẩm cho rằng tất cả họ ' Họ đã làm xong là họ ghép lại theo một cách khác trong tám khối Lego bao gồm năm tờ giấy trước đó của họ. Điều này dẫn đến tôi đặt câu hỏi về sự đóng góp trong năm mươi bài báo trước mà các tác giả này đã xuất bản :(.
StasK

26

Khi chúng tôi yêu cầu các tác giả cho

  1. nhận xét nhỏ về một ý tưởng chúng tôi có (theo nghĩa này, đây không được coi là lý do từ chối bài viết mà chỉ để chắc chắn rằng các tác giả có thể thảo luận về một POV khác), hoặc
  2. kết quả không rõ ràng hoặc mâu thuẫn,

và các tác giả không thực sự trả lời trong trường hợp (1) hoặc kết quả bị buộc tội trong (2) biến mất khỏi MS.


7
Kết quả biến mất một cách bí ẩn nên tự động từ chối, imo. Tôi chắc chắn rằng điều này xảy ra rất nhiều "hậu trường" (tức là trước khi bài báo được gửi), nhưng đây là bằng chứng rõ ràng về "hái anh đào" mà những người đọc bình thường của bài báo sẽ không bao giờ biết.
Macro

3
Một lý do khác cho một hệ thống đánh giá ngang hàng mở.
đánh dấu ngày

24

Nhầm lẫn giá trị p và kích thước hiệu ứng (nghĩa là hiệu ứng của tôi lớn vì tôi có giá trị p rất nhỏ).

Khác một chút so với câu trả lời của Stephan về việc loại trừ kích thước hiệu ứng nhưng đưa ra giá trị p. Tôi đồng ý bạn nên cho cả hai (và hy vọng hiểu sự khác biệt!)


23

Không bao gồm kích thước hiệu ứng.

P-ing trên tất cả các nghiên cứu (tôi phải ghi nhận giáo sư trường yêu thích của tôi cho dòng đó).

Đưa ra một số chữ số vô lý (nam tăng hơn 3,102019 bảng so với nữ)

Không bao gồm số trang (điều đó làm cho việc đánh giá khó khăn hơn)

Số liệu và bảng đánh giá sai

(như đã đề cập - từng bước và phân loại các biến liên tục)


7
(+1) cười lớn khi "Đưa ra một số chữ số vô lý (nam tăng hơn 3,102019 bảng so với nữ)".
Macro

19

Khi họ không giải thích đầy đủ phân tích của họ và / hoặc bao gồm các lỗi đơn giản gây khó khăn cho việc tìm ra những gì thực sự đã được thực hiện. Điều này thường bao gồm ném xung quanh rất nhiều biệt ngữ, bằng cách giải thích, điều này mơ hồ hơn tác giả dường như nhận ra và cũng có thể bị sử dụng sai.


Đồng ý - đấu tranh để hiểu ý của tác giả trước khi đánh giá nội dung khoa học thực sự gây phiền nhiễu.
Laurent

5
Tôi đồng ý nhưng tôi thấy còn khó chịu hơn nữa khi một nhà phê bình bảo bạn bỏ qua (hoặc chuyển sang tài liệu thay thế), những chi tiết thực tế, rất quan trọng về phân tích. Vấn đề này khiến cho rất nhiều bài báo khoa học / khoa học xã hội thực hiện ngay cả những phân tích hơi phức tạp nhất cũng khá khó hiểu về vấn đề đó.
Macro

16

Sử dụng ngôn ngữ nhân quả để mô tả các liên kết trong dữ liệu quan sát khi các biến bị bỏ qua gần như chắc chắn là một mối quan tâm nghiêm trọng.


3
Tôi đồng ý rằng các nhà nghiên cứu nên hiểu trách nhiệm của các thiết kế nghiên cứu quan sát, đặc biệt là các liên quan đến các biến bị bỏ qua, nhưng tôi không nghĩ rằng việc tránh ngôn ngữ nhân quả làm điều này. Xem tác phẩm của Hubert Blalock, đặc biệt là cuốn sách Suy luận nguyên nhân trong nghiên cứu phi thực nghiệm của ông để có một lập luận chi tiết hơn để bảo vệ việc sử dụng ngôn ngữ nhân quả.
Andy W

3
(+1) Đây có thể là vấn đề lớn nhất của tôi với nghiên cứu dịch tễ học.
Macro

14

Khi các tác giả sử dụng một thử nghiệm thống kê mà họ biết (trong lĩnh vực của tôi, thường là thử nghiệm t hoặc ANOVA), quảng cáo vô hạn, bất kể nó có phù hợp hay không. Gần đây tôi đã xem xét một bài báo mà các tác giả muốn so sánh một tá các nhóm điều trị khác nhau, vì vậy họ đã thực hiện một thử nghiệm t hai mẫu cho mỗi cặp phương pháp điều trị có thể ...


13

Đến với các từ mới cho các khái niệm hiện có, hoặc ngược lại, sử dụng các thuật ngữ hiện có để biểu thị một cái gì đó khác nhau.

Một số khác biệt về thuật ngữ hiện có đã được giải quyết từ lâu trong tài liệu: dữ liệu theo chiều dọc trong thống kê sinh học so với dữ liệu bảng trong kinh tế lượng; các chỉ số nguyên nhân và kết quả trong xã hội học so với các chỉ số hình thành và phản ánh trong tâm lý học; v.v ... Tôi vẫn ghét họ, nhưng ít nhất bạn có thể tìm thấy một vài ngàn tài liệu tham khảo cho mỗi người trong số họ trong văn học tương ứng của họ. Cái gần đây nhất là toàn bộ chuỗi nghiên cứu về đồ thị chu kỳ có hướng trong tài liệu nhân quả: hầu hết, nếu không phải tất cả, về lý thuyết xác định và ước lượng trong những điều này đã được các nhà kinh tế lượng học phát triển vào những năm 1950 dưới tên các phương trình đồng thời.

Thuật ngữ có gấp đôi, nếu không phải là ba, có nghĩa là "mạnh mẽ" và các ý nghĩa khác nhau thường trái ngược nhau. Lỗi tiêu chuẩn "mạnh mẽ" không mạnh mẽ đối với các ngoại lệ; hơn nữa, chúng không mạnh để chống lại bất cứ điều gì ngoại trừ độ lệch giả định so với mô hình và thường có hiệu suất mẫu nhỏ ảm đạm. Các lỗi tiêu chuẩn của White không mạnh đối với các tương quan nối tiếp hoặc cụm; Các lỗi tiêu chuẩn "mạnh mẽ" trong SEM không mạnh mẽ đối với các lỗi chính tả của cấu trúc mô hình (các đường dẫn hoặc biến bị bỏ qua). Cũng giống như với ý tưởng về thử nghiệm ý nghĩa giả thuyết null, không thể chỉ tay vào bất cứ ai và nói: "Bạn có trách nhiệm gây nhầm lẫn cho nhiều thế hệ các nhà nghiên cứu vì đã đặt ra khái niệm này không thực sự đúng với tên của nó".


1
Tôi phải thừa nhận đã phạm cả hai tội: Tôi mô tả dữ liệu của mình là "có cấu trúc phân cấp: khi tôi có các mức có quan hệ 1: n (nhiều phép đo của mỗi mẫu, nhiều mẫu cho mỗi bệnh nhân). được gọi là cấu trúc dữ liệu "cụm" - bây giờ tôi sử dụng cả hai thuật ngữ. Nhưng tôi vẫn không biết làm thế nào tôi có thể tìm thấy thuật ngữ đó, tôi đã tìm cách để mô tả cấu trúc dữ liệu của mình một cách khác biệt ... Tôi sử dụng các kỹ thuật được gọi là phân loại mềm trong viễn thám. Lĩnh vực của tôi (hóa học) sử dụng nó với ý nghĩa khá khác biệt
cbeleites

2
Điều đó hoàn toàn tốt - bạn cũng có thể thêm "đa cấp" vào danh sách các cách để tham khảo cấu trúc này. "Phân cụm" thường có nghĩa là các quan sát được biết là có tương quan, nhưng không ai quan tâm đến việc mô hình hóa mối tương quan đó vì nó không phải là mối quan tâm chính và loại bỏ các phương pháp mạnh mẽ cho mối tương quan đó, chẳng hạn như GEE. Những gì bạn có là một cái gì đó giống như các biện pháp lặp đi lặp lại MANOVA. Có một gói Stata gllammnghĩ về dữ liệu của bạn dưới dạng dữ liệu đa cấp / phân cấp, nhưng hầu hết các gói khác sẽ nghĩ nhiều phép đo là biến / cột và mẫu là quan sát / hàng.
StasK

Cảm ơn các đầu vào. Chà, ngày nay tôi tất nhiên hỏi ở đây nó được gọi như thế nào ... Đó không phải là phép đo lặp lại chính xác: thông thường tôi đo một số (thứ tự cường độ: trong khoảng từ 10 ^ 2 đến 10 ^ 4) các điểm khác nhau trên mẫu để tạo ra các bản đồ màu sai của các thành phần khác nhau và mỗi phép đo đã có 10 ^ 2 - 10 ^ 3 quan sát (bước sóng trong phổ). Trong mỗi mẫu, nhiều phổ có mối tương quan cao, nhưng không phải tất cả: các mẫu không đồng nhất. ...
cbeleites

1
... Mô tả của bạn về "cụm" nghe rất giống những gì chúng ta làm. Nhưng tôi cẩn thận phân chia các mẫu để xác thực, nói rằng tôi không có ý tưởng nào về kích thước mẫu hiệu quả (bên cạnh đó ít nhất là số lượng mẫu thực có liên quan), và đôi khi cho thấy có tất cả các phép đo của từng mẫu mẫu thực sự giúp cho việc đào tạo mô hình.
cbeleites

1
Dữ liệu thú vị và đầy thách thức, chắc chắn.
StasK

11

Không xem xét dữ liệu bị thiếu.

Nhiều ứng dụng thực tế sử dụng dữ liệu có ít nhất một số giá trị bị thiếu. Điều này chắc chắn rất đúng trong dịch tễ học. Thiếu dữ liệu trình bày các vấn đề cho nhiều phương pháp thống kê - bao gồm các mô hình tuyến tính. Thiếu dữ liệu với các mô hình tuyến tính thường được xử lý thông qua việc xóa các trường hợp với bất kỳ dữ liệu bị thiếu nào trên bất kỳ hiệp phương sai nào. Đây là một vấn đề, trừ khi dữ liệu bị thiếu theo giả định rằng dữ liệu bị mất hoàn toàn ngẫu nhiên (MCAR).

Có lẽ 10 năm trước, thật hợp lý khi công bố kết quả từ các mô hình tuyến tính mà không cần xem xét thêm về sự mất tích. Tôi chắc chắn có tội về điều này. Tuy nhiên, lời khuyên rất tốt về cách xử lý dữ liệu bị thiếu với nhiều lần cắt bỏ hiện đang có sẵn rộng rãi, cũng như các gói / mô hình / thư viện / vv thống kê. để tạo điều kiện cho các phân tích phù hợp hơn theo các giả định hợp lý hơn khi thiếu.


1
Trong tinh thần cố gắng để giáo dục, bạn có thể xây dựng nhiều hơn? Bạn cân nhắc điều gì - thừa nhận nó tồn tại hoặc điều chỉnh phân tích thống kê khi đối mặt với nó (ví dụ: sự cắt bỏ). Khi áp dụng tôi cố gắng bao gồm supp. các bảng giá trị bị thiếu bởi các đồng biến quan tâm, nhưng không rõ liệu điều này có đủ để "xem xét" bởi nhận xét này hay không.
Andy W

8

Báo cáo các hiệu ứng "tiếp cận tầm quan trọng (ví dụ p <.10) và sau đó viết về chúng như thể chúng đã đạt được tầm quan trọng ở mức độ nghiêm ngặt và chấp nhận hơn. Chạy nhiều Mô hình phương trình cấu trúc không được lồng vào nhau và sau đó viết về chúng như thể chúng Được lồng vào nhau. Lấy một chiến lược phân tích được thiết lập tốt và trình bày nó như thể chưa ai từng nghĩ đến việc sử dụng nó trước đây.


Có lẽ đó là phát minh lại bánh xe chứ không phải đạo văn?
gerrit

7

Tôi đề nghị hai bài viết sau:

Martin Bland:
Làm thế nào để làm phật lòng trọng tài thống kê
Điều này dựa trên một loạt các cuộc đàm phán do Martin Bland đưa ra, cùng với dữ liệu từ các trọng tài thống kê khác ('một mẫu thuận tiện với tỷ lệ phản hồi thấp'). Nó kết thúc với một danh sách 11 điểm '[h] ow để tránh làm đảo lộn trọng tài thống kê'.

Stian Lyderen:
Đánh giá thống kê : nhận xét thường xuyên
Bài báo gần đây (xuất bản 2014/2015) liệt kê 14 nhận xét đánh giá phổ biến nhất của tác giả, dựa trên khoảng. 200 đánh giá thống kê các bài báo khoa học (trong một tạp chí cụ thể). Mỗi bình luận có một lời giải thích ngắn gọn về vấn đề và hướng dẫn về cách thực hiện phân tích / báo cáo đúng cách . Danh sách các tài liệu tham khảo được trích dẫn là một kho tàng các bài báo thú vị.


Danh sách của Lyderen rất thú vị. Tôi nghĩ rằng tôi không đồng ý với một số ít trong số họ. . .
StatsStudent

6

Tôi bực mình nhất (và thường xuyên nhất) bực mình vì "xác thực" nhằm mục đích lỗi tổng quát hóa của các mô hình dự đoán trong đó dữ liệu thử nghiệm không độc lập (ví dụ: nhiều phép đo cho mỗi bệnh nhân trong dữ liệu, các phép đo tách ra khỏi bootstrap hoặc chéo xác thực không bệnh nhân ).

Thậm chí còn khó chịu hơn, các bài báo đưa ra kết quả xác thực chéo không hoàn hảo như vậy cộng với một bộ kiểm tra độc lập chứng minh sự thiên vị quá mức của xác thực chéo nhưng không phải là một từ mà thiết kế xác thực chéo là sai ...

(Tôi sẽ rất vui nếu dữ liệu tương tự sẽ được trình bày "chúng tôi biết việc xác thực chéo sẽ phân chia bệnh nhân, nhưng chúng tôi bị mắc kẹt với phần mềm không cho phép điều này. Do đó, chúng tôi đã thử nghiệm thêm một nhóm bệnh nhân thử nghiệm độc lập thực sự. ")

(Tôi cũng biết rằng bootstrapping = resampling với thay thế thường hoạt động tốt hơn so với xác thực chéo = lấy mẫu lại mà không thay thế. Tuy nhiên, chúng tôi đã tìm thấy dữ liệu phổ (mô phỏng phổ và thiết lập mô hình hơi nhân tạo nhưng quang phổ thực) lặp đi lặp lại / xác thực chéo -of-bootstrap có độ không đảm bảo chung tương tự nhau, oob có nhiều sai lệch nhưng ít sai lệch hơn - để viết lại, tôi đang xem xét điều này từ góc độ rất thực tế: xác nhận chéo lặp lại so với ngoài bootstrap không quan trọng miễn là nhiều giấy tờ không phân chia bệnh nhân khôn ngoan cũng không báo cáo / thảo luận / đề cập đến sự không chắc chắn ngẫu nhiên do kích thước mẫu thử nghiệm hạn chế.)

Bên cạnh việc sai, điều này cũng có tác dụng phụ là những người thực hiện xác nhận hợp lệ thường phải bảo vệ tại sao kết quả của họ lại tệ hơn nhiều so với tất cả những kết quả khác trong tài liệu.


1
Không chắc chắn nếu bạn muốn nói điều này nhưng bootstrap "lạc quan" là một trong những cách tốt nhất để xác nhận mô hình, và các mẫu thử nghiệm và huấn luyện của nó trùng nhau.
Frank Harrell

1
@Frank Harrell - Tôi không chắc là tôi đã hiểu ý của bạn. Có lẽ khó khăn là trong hóa học "xác nhận mô hình dự đoán" luôn luôn là về hiệu suất cho các trường hợp mới, chưa biết, trong tương lai (trong ví dụ: chẩn đoán bệnh nhân mới). Tôi luôn luôn sử dụng xác thực chéo hoặc lặp đi lặp lại / lặp đi lặp lại. Bạn có thể giải thích lợi thế của việc đặt các bộ kiểm tra & huấn luyện chồng chéo so với chia tách ở cấp độ bệnh nhân không )?
cbeleites

... Và vâng, một số điểm của xác nhận mô hình có thể được trả lời mà không cần tách dữ liệu trong các trường hợp kiểm tra và huấn luyện riêng biệt (ví dụ: độ ổn định của mô hình về các hệ số). Nhưng đã ổn định mô hình wrt. các dự đoán nên được đo bằng cách sử dụng các bệnh nhân chưa biết (chưa biết: chưa từng xuất hiện trong quá trình xây dựng mô hình bao gồm mọi quá trình tiền xử lý dựa trên dữ liệu có tính đến tất cả các trường hợp). Trên thực tế, đối với định lượng truyền thống trong hóa học, xác thực có các bước cần dữ liệu thử nghiệm được đo độc lập hơn nữa: ...
cbeleites

thực hành tốt yêu cầu người vận hành thiết bị chưa biết và một đặc điểm quan trọng của phương pháp phân tích được xác định trong quá trình xác nhận là tần suất hiệu chuẩn cần được thực hiện lại (hoặc cho thấy độ trôi của dụng cụ không đáng kể trong một khoảng thời gian nhất định) - một số các tác giả thậm chí còn nói về một "lạm dụng việc lấy lại mẫu" dẫn đến việc bỏ qua các bộ thử nghiệm độc lập như vậy .
cbeleites

1
Nếu thiết bị hoặc kỹ thuật đo lường cần xác nhận, thì cần phải có một mẫu độc lập. Nhưng một lỗi phổ biến là sử dụng phân tách dữ liệu để cố gắng mô phỏng xác nhận độc lập. Đây vẫn là một xác nhận nội bộ. Để trả lời câu hỏi @cbeleites ở trên, các mẫu chồng chéo liên quan đến bootstrapping sẽ dẫn đến ước tính chính xác hơn về hiệu suất mô hình trong tương lai so với việc phân tách dữ liệu trong phần lớn các bộ dữ liệu có thể thấy. Tôi đã phân tách dữ liệu hoạt động kém với tỷ lệ sự kiện n = 17.000 và 0,30.
Frank Harrell

4

Sử dụng "dữ liệu" theo nghĩa số ít. Dữ liệu là, họ không bao giờ được.


2
Có lẽ là một nhà thống kê người Pháp;)
Stéphane Laurent

9
Tôi phải thừa nhận, gần đây tôi đã từ bỏ việc sử dụng dữ liệu số nhiều sau khi bám vào nó trong 10 năm hoặc lâu hơn. Tôi thường viết cho khán giả phi kỹ thuật và tôi đã lo lắng rằng tôi sẽ vượt qua sự hào hoa. APA dường như vẫn có một bài đọc nghiêm ngặt về số nhiều nhưng thú vị là Hiệp hội Thống kê Hoàng gia dường như không có một quan điểm cụ thể. Có một cuộc thảo luận thú vị ở đây: Guard.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley

1
Tôi không phải là người nói tiếng Anh, nhưng vấn đề với các công việc như "dữ liệu" hoặc "phương tiện" ở số ít là tiếng Anh đã mượn nhiều từ tiếng Latin khác và bạn cần sử dụng tất cả các từ tiếng Latin một cách nhất quán. Cái gì tiếp theo? "Chương trình giảng dạy là" hay "Chương trình giảng dạy"? "Trung bình là"? Nếu "dữ liệu" là tiếng Latin, thì nó là số nhiều. Kết thúc cuộc thảo luận. Cho dù bây giờ có bao nhiêu người muốn bỏ qua nó.
Fran

Có thể tôi đang lạm dụng nó, nhưng tôi chuyển đổi giữa số ít và số nhiều tùy thuộc vào ngữ cảnh.
StatsStudent

Việc sử dụng từ 'datum' ở mức thấp và chỉ trong các trường hợp chuyên biệt, tôi nghĩ từ 'dữ liệu' là một từ tương đương với từ 'pack' đối với 'sói'. Chắc chắn có thể chấp nhận sử dụng từ 'pack' trong số ít để mô tả nhiều con sói. Từ 'Dữ liệu' đang dần biến thành danh từ tập thể của riêng mình ...
Robert de Graaf

3

Đối với tôi cho đến nay là, quy kết nguyên nhân mà không có bất kỳ phân tích nguyên nhân thích hợp hoặc khi có suy luận nguyên nhân không đúng.

Tôi cũng ghét nó khi không chú ý đến việc xử lý dữ liệu bị thiếu. Tôi cũng thấy rất nhiều bài báo mà các tác giả chỉ đơn giản thực hiện phân tích trường hợp hoàn chỉnh và không đề cập đến việc liệu kết quả có thể khái quát hóa đối với dân số bị thiếu giá trị hay cách dân số có giá trị bị thiếu có thể khác biệt một cách có hệ thống với dân số có dữ liệu hoàn chỉnh.


3

Sử dụng Microsoft Word chứ không phải LaTeX.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.