Cạm bẫy trong thiết kế thí nghiệm: Tránh các thí nghiệm chết


27

Tôi đã đi qua trích dẫn này nhiều lần:

Để tham khảo ý kiến ​​của nhà thống kê sau khi một thí nghiệm kết thúc thường chỉ đơn thuần là yêu cầu anh ta tiến hành khám nghiệm tử thi. Anh ta có lẽ có thể nói những gì thí nghiệm đã chết. - Ronald Fisher (1938)

Đối với tôi, có vẻ như một chút tự phụ. Các ví dụ duy nhất tôi từng thấy mô tả cách các thí nghiệm chết mà không có thiết kế tốt là xung quanh việc thiếu kiểm soát hoặc kiểm soát kém. Ví dụ, các thí nghiệm kiểm soát việc sử dụng phân bón, nhưng không kiểm soát được môi trường cần thiết cho ứng dụng. Có lẽ đó chỉ là tôi, nhưng dường như việc đọc nhanh qua phần Wikipedia về các nguyên tắc thiết kế của Fisher sẽ bao trùm hầu hết các cơ sở.

Là một nhà thống kê, bạn có thường xuyên thấy thiết kế các vấn đề liên quan đến thử nghiệm với dữ liệu không? Có phải chúng luôn liên quan đến một vài yếu tố được đề cập bởi Fisher, hoặc có những cạm bẫy nghiêm trọng khác mà các nhà khoa học không được đào tạo thống kê nên tìm kiếm?


4
Làm thế nào thường xuyên: rất thường xuyên. Để gọi thí nghiệm là "chết" thường là quá xa, nhưng tôi nhiều thí nghiệm tôi thấy có thể tốt hơn nhiều chỉ với những thay đổi nhỏ trong thiết kế.
đánh dấu999

3
Tôi đã thấy một vài. Mặc dù bây giờ có thể là tự phụ , hãy nhớ rằng khi Fisher nói, bạn không thể tìm kiếm trên wikipedia. Tỷ lệ có thể đã cao hơn nhiều trong những ngày đầu.
Glen_b -Reinstate Monica

4
Rất vui khi bạn nêu lên quan điểm này. Tôi cũng tò mò về những gì có lẽ là lần đầu tiên tôi thấy một vòng loại tăng gấp bốn lần: "Đối với tôi, có vẻ như có lẽ hơi tự phụ." :-)
rolando2

1
@ rolando2: Heh, đó là Fisher. Anh ấy đã kiếm được tất cả các vòng loại: D
naught101

5
Tôi đã thấy - theo nghĩa đen - nhiều ngàn bộ dữ liệu trong sự nghiệp của tôi (và hầu như không có bộ dữ liệu nào được thu thập theo một thiết kế được xem xét bởi bất kỳ nhà thống kê nào). Hầu hết những người được thu thập cho các mục đích chính thức, chẳng hạn như đáp ứng các yêu cầu quy định. Tôi không thể nhớ lại một vấn đề duy nhất không có một số vấn đề liên quan đến thiết kế (mặc dù đôi khi đây là những vấn đề nhỏ). Điều này không có nghĩa là các bộ dữ liệu là vô dụng hoặc "chết": nhưng trong hầu hết các trường hợp, nhiệm vụ của tôi là (tiếp tục tương tự y tế) trước tiên để hồi sinh bộ dữ liệu và sau đó áp dụng nó vào mục đích của nó, nếu có thể.
whuber

Câu trả lời:


14

Tôi tin rằng ý của Fisher trong câu nói nổi tiếng của ông vượt xa câu nói "Chúng tôi sẽ thực hiện một thiết kế giai thừa hoàn toàn cho nghiên cứu của chúng tôi" hoặc một phương pháp thiết kế khác. Tư vấn một nhà thống kê khi lập kế hoạch thí nghiệm có nghĩa là suy nghĩ về mọi khía cạnh của vấn đề theo cách thông minh, bao gồm mục tiêu nghiên cứu, biến nào có liên quan, cách thu thập chúng, quản lý dữ liệu, cạm bẫy, đánh giá trung gian về cách thử nghiệm đang diễn ra và nhiều hơn. Thông thường, tôi thấy điều quan trọng là phải xem mọi khía cạnh của thí nghiệm được đề xuất để thực sự hiểu những khó khăn nằm ở đâu.

Kinh nghiệm của tôi chủ yếu là từ các ứng dụng y tế. Một số vấn đề tôi gặp phải có thể được ngăn chặn bằng cách tham khảo ý kiến ​​của một nhà thống kê trước:

  • Tất nhiên, cỡ mẫu không đủ là số một trong danh sách này. Thông thường, dữ liệu từ các nghiên cứu trước sẽ có sẵn và thật dễ dàng để đưa ra ước tính hợp lý về cỡ mẫu cần thiết. Trong những trường hợp này, cách duy nhất thường là phân tích mô tả thuần túy dữ liệu và hứa sẽ nghiên cứu thêm trong bài báo (không xuất bản thường không phải là một lựa chọn sau khi các bác sĩ đầu tư thời gian quý báu).
  • Việc thực hiện các thí nghiệm được để lại thuận tiện và cơ hội thay vì thiết kế. Một ví dụ tôi hiện đang làm việc có các phép đo được thu thập theo thời gian. Thời gian đo, tần số đo và kết thúc thời gian giám sát đều khác nhau giữa các cá nhân. Việc tăng số lượng phép đo trên mỗi cá nhân và ấn định ngày đo và kết thúc thời gian giám sát sẽ là công việc làm thêm khá ít (trong trường hợp này) và sẽ rất có lợi cho nghiên cứu.
  • Kiểm soát kém các yếu tố phiền toái có thể dễ dàng được kiểm soát. Ví dụ, các phép đo đôi khi được thực hiện vào ngày lấy mẫu và đôi khi muộn hơn, để lại khả năng mẫu bị xuống cấp.
  • Quản lý dữ liệu kém, bao gồm cả mục yêu thích cá nhân của tôi "Tôi đã làm tròn dữ liệu trước khi đưa vào máy tính, vì máy không chính xác trong các phép đo của nó". Thông thường, dữ liệu liên quan chỉ là không được thu thập và không thể có được nó sau khi thực tế.

Thông thường, các vấn đề với một nghiên cứu thậm chí còn quay trở lại, với quan niệm ban đầu của nghiên cứu:

  • Dữ liệu đôi khi được thu thập mà không có mục tiêu rõ ràng và chỉ cần giả định rằng nó sẽ hữu ích bằng cách nào đó. Việc đưa ra các giả thuyết và "kết quả quan trọng" được để lại cho nhà thống kê.
  • Và ngược lại: dữ liệu được quét cùng với mục đích chứng minh một điểm cụ thể mà PI có trong đầu, bất kể dữ liệu và những gì thực sự có thể được chứng minh với nó. Lần này, nhà thống kê chỉ được cho là đặt dấu ấn quan trọng của mình lên các kết luận được viết sẵn mà không có kết luận nào được điều chỉnh khi đối mặt với dữ liệu.

Cho đến nay, điều này chủ yếu nghe giống như thống kê bị ảnh hưởng và có thể tính toàn vẹn khoa học bị ảnh hưởng khi PI cố gắng đưa ra kết luận không được hỗ trợ bởi dữ liệu (luôn luôn là một cuộc thảo luận vui vẻ). Nhưng nhóm thử nghiệm cũng bị như vậy, vì họ làm những công việc phụ không cần thiết (trong khi không làm những công việc cần thiết) trong giai đoạn thử nghiệm và cần dành nhiều thời gian hơn để thảo luận với nhà thống kê của họ sau khi thực tế, vì họ không nhận được lời khuyên trước đó. Và tất nhiên, bài báo cuối cùng sẽ tệ hơn, sẽ có ít kết luận hơn (và nhiều "phỏng đoán" hơn) và có khả năng sẽ không đưa nó vào tạp chí có tác động cao mà PI muốn.


Đối với phần thứ hai trong số các gạch đầu dòng thứ 2 của bạn, tôi nghĩ rằng lý do thông thường của một nghiên cứu là thu thập dữ liệu với mục đích chứng minh các điểm cụ thể.
Robert Jones

1
Bạn là, tất nhiên, hoàn toàn đúng. Tôi đã có một chút quá ngắn ở đó. Điều tôi muốn đề cập là một kịch bản trong đó một PI rất quyết tâm chứng minh một điểm và dữ liệu kém chất lượng không thể chứng minh điểm đó (thường là do các vấn đề thiết kế cơ bản) kết hợp với nhau.
Hội trường Rob

12

Hai từ: Cỡ mẫu ... Một phân tích sức mạnh là phải. Bằng cách bao gồm một nhà thống kê có thẩm quyền trong nhóm của bạn từ việc di chuyển, bạn có thể sẽ tiết kiệm cho mình rất nhiều sự thất vọng khi bạn đang viết kết quả và các phần thảo luận trong bản thảo hoặc báo cáo của bạn.

Điều này là quá phổ biến đối với một nhà điều tra chính để thu thập dữ liệu trước khi tham khảo ý kiến ​​với một nhà thống kê với kỳ vọng về "mô hình dự đoán" hoặc "mối quan hệ nhân quả" từ một mẫu dưới 30 đối tượng. Nếu PI đã tham khảo ý kiến ​​của một nhà thống kê trước khi thu thập dữ liệu, nhà thống kê sẽ có thể thông báo cho PI, sau khi phân tích thích hợp, để thu thập thêm dữ liệu / đối tượng hoặc cơ cấu lại các mục tiêu của kế hoạch / dự án phân tích của họ.


1
Tôi không đồng ý với "Phân tích sức mạnh là phải". Tôi nghĩ rằng rất nhiều người nói quá tầm quan trọng của phân tích quyền lực.
đánh dấu999

3
@ mark999: Có thể, nhưng nó không phủ nhận tầm quan trọng của việc thực hiện một số loại phân tích sức mạnh trước khi thực hiện thí nghiệm, mà tôi hiểu là quan điểm của Matt.
Scortchi - Phục hồi Monica

3
@ mark999: Tất nhiên chúng có thể hữu ích. Nhưng trong những trường hợp nào bạn sẽ không khuyên bạn nên thực hiện bất kỳ loại phân tích công suất nào (tôi bao gồm ước tính độ rộng dự kiến ​​của khoảng tin cậy) trước khi thực hiện một thử nghiệm? Tôi chỉ có thể nghĩ về (1) một nghiên cứu thử nghiệm, trong đó bạn chỉ quan tâm đến việc chạy qua giao thức & ước tính lỗi, và (2) một thử nghiệm mà bạn không thể chọn kích thước mẫu vì một số lý do, thực hiện phân tích công suất dự phòng.
Scortchi - Phục hồi Monica

2
@ mark999: Tôi nghĩ chúng tôi làm. Đối với trường hợp của bạn (B), tôi khuyên bạn nên nghiên cứu thử nghiệm -> phân tích công suất -> thử nghiệm để kiểm tra các giả thuyết hoặc ước tính kích thước hiệu ứng như một kế hoạch không thể tin được.
Scortchi - Phục hồi Monica

3
Ngay cả khi bạn có cỡ mẫu cố định, tôi không thấy bất kỳ lý do nào để vùi đầu vào cát và tránh phân tích sức mạnh (phản ứng hợp lý với các hạn chế tài nguyên và thiếu hiểu biết sang một bên).
Andy W

11

Tôi cho rằng nó phụ thuộc vào mức độ bạn diễn giải từ "thiết kế". Đôi khi nó được hiểu là hoàn toàn ngẫu nhiên so với các khối ngẫu nhiên, v.v. Tôi không nghĩ rằng tôi đã thấy một nghiên cứu đã chết từ đó. Ngoài ra, như những người khác đã đề cập, tôi nghi ngờ "chết" là quá mạnh, nhưng nó phụ thuộc vào cách bạn diễn giải thuật ngữ này. Chắc chắn tôi đã thấy các nghiên cứu "không đáng kể" (và kết quả là các nhà nghiên cứu sau đó đã không cố gắng công bố kết quả); theo giả định rằng những nghiên cứu này có thể là 'đáng kể' nếu được tiến hành khác nhau (theo lời khuyên rõ ràng mà tôi sẽ đưa ra), và do đó được công bố, có thể đủ điều kiện là "đã chết". Theo quan niệm này, vấn đề quyền lực được nêu ra bởi cả @RobHall và @MattReichenbach là khá đơn giản, nhưng có nhiều sức mạnh hơn kích thước mẫu và những thứ đó có thể nằm trong một khái niệm lỏng lẻo hơn về "thiết kế". Dưới đây là một vài ví dụ:

  • Không thu thập / ghi lại / hoặc vứt bỏ thông tin
    tôi đã làm việc trong một nghiên cứu mà các nhà nghiên cứu quan tâm đến việc liệu một đặc điểm cụ thể có liên quan đến ung thư hay không. Họ đã bắt chuột từ hai dòng (tức là dòng di truyền, những con chuột được lai tạo cho một số tính chất nhất định) trong đó một dòng được dự kiến ​​sẽ có nhiều tính trạng hơn dòng kia. Tuy nhiên, đặc điểm trong câu hỏi không thực sự được đo lường, mặc dù nó có thể đã được. Tình huống này tương tự như phân đôi hoặc tạo thành một biến liên tục, làm giảm công suất. Tuy nhiên, ngay cả khi kết quả là 'đáng kể', chúng sẽ ít thông tin hơn so với việc chúng ta biết mức độ của đặc điểm của mỗi con chuột.

    Một trường hợp khác trong cùng tiêu đề này là không suy nghĩ và thu thập các đồng biến rõ ràng.

  • Thiết kế bảng câu hỏi kém
    Tôi gần đây đã thực hiện một nghiên cứu trong đó khảo sát sự hài lòng của bệnh nhân được thực hiện theo hai điều kiện. Tuy nhiên, không có mục nào được ghi ngược lại. Có vẻ như hầu hết các bệnh nhân chỉ đi xuống danh sách và đánh dấu tất cả 5s ( rất đồng ý ), có thể thậm chí không cần đọc các mục. Có một số vấn đề khác, nhưng điều này là khá rõ ràng. Điều kỳ lạ là, người phụ trách thực hiện nghiên cứu nói với tôi rằng cô ấy tham dự rõ ràng đã khuyến khích cô ấy không tham gia nghiên cứu với một nhà thống kê trước, mặc dù chúng tôi có sẵn miễn phí và thuận tiện cho việc tư vấn như vậy.


Whoa ... với người đầu tiên, họ đã đo lường cái gì? Điều đó có vẻ một chút, ừm, rõ ràng. Hay họ đã được đảm bảo trước rằng các đặc điểm là khác nhau trong các dòng khác nhau? Ví dụ thứ hai là tuyệt vời, một loại ngẫu nhiên mà hầu hết mọi người sẽ không nghĩ tới.
ness101

5
Nó chỉ là thử nghiệm 1 chủng so với khác. Đặc điểm trong câu hỏi thực sự có xu hướng cao hơn đối với một trong các dòng, nhưng có một số trùng lặp - các bản phân phối không hoàn toàn tách biệt.
gung - Phục hồi Monica

Tôi đã có một trải nghiệm tương tự với điểm 1: một thiết bị vi lỏng được thiết lập để nhận biết một loại tế bào nhất định. Một hỗn hợp các tế bào được nhận biết và kiểm soát đã được đưa vào và một luồng tín hiệu + luồng video được sử dụng để nhận dạng đã được thu nhận. Thật không may, trong khi luồng video có thể được sử dụng làm tài liệu tham khảo cho việc có một tế bào tại máy dò tại một thời điểm nhất định hay không, không có cách nào để biết loại tế bào thực sự là gì, vì vậy không có cách nào để xác định liệu tín hiệu có thực sự dương hay không âm tính giả hoặc không có tín hiệu là âm tính thật hoặc dương tính giả ...
cbeleites hỗ trợ Monica

8

Tôi đã thấy loại vấn đề này trong các thí nghiệm tâm lý và khảo sát.

Trong một trường hợp, toàn bộ thí nghiệm phải được đưa vào kinh nghiệm học tập. Có nhiều vấn đề ở nhiều cấp độ dẫn đến kết quả lộn xộn, nhưng kết quả dường như cung cấp một số hỗ trợ cho giả thuyết này. Cuối cùng, tôi đã có thể giúp lập kế hoạch cho một thí nghiệm nghiêm ngặt hơn, về cơ bản có đủ sức mạnh để bác bỏ giả thuyết.

Trong trường hợp khác, tôi đã được trao một bản khảo sát đã được thiết kế và thực hiện, và có nhiều vấn đề dẫn đến một số lĩnh vực quan tâm bị ảnh hưởng. Chẳng hạn, trong một lĩnh vực quan trọng, họ đã hỏi khách hàng đã quay lưng lại bao nhiêu lần với một sự kiện do nó đã đầy khi họ đến. Vấn đề là không có khoảng thời gian cho câu hỏi nên bạn không thể biết sự khác biệt giữa người đã cố gắng tham dự 4 lần và bị từ chối 4 lần và người đã cố gắng tham dự 40 lần và chỉ bị từ chối 4 lần .

Tôi không phải là một Nhà thống kê vốn được đào tạo, nhưng nếu họ đến với tôi trước đó, tôi đã có thể giúp họ khắc phục những vấn đề này và có kết quả tốt hơn. Trong trường hợp đầu tiên, nó vẫn sẽ là một điều đáng thất vọng, "Xin lỗi, giả thuyết của bạn dường như cực kỳ khó xảy ra", nhưng nó có thể đã cứu họ một thử nghiệm thứ hai. Trong trường hợp thứ hai, nó sẽ cung cấp cho họ câu trả lời cho một số câu hỏi quan trọng và sẽ làm cho kết quả sắc nét hơn. (Một vấn đề khác họ gặp phải là họ đã khảo sát nhiều địa điểm theo thời gian và ít nhất một số người đã được khảo sát nhiều lần, không có câu hỏi nào như "Bạn đã thực hiện khảo sát này ở nơi khác chưa?")

Có lẽ không phải là vấn đề thống kê, nhưng trong cả hai trường hợp, các chuyên gia tên miền thông minh, được giáo dục tốt đã tạo ra các công cụ thiếu sót, và kết quả là một thử nghiệm chết và một thử nghiệm bị cắt cụt chân tay.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.