Tôi sử dụng một từ khác nhau tùy thuộc vào cách tôi sử dụng dữ liệu. Nếu tôi đã tìm thấy tập dữ liệu tạo thành nằm xung quanh và đã chỉ ra thuật toán của tôi theo cách xác nhận, thì từ "tổng hợp" là ổn.
Tuy nhiên, đôi khi tôi sử dụng loại dữ liệu này, tôi đã phát minh ra dữ liệu với mục đích cụ thể là thể hiện các khả năng của thuật toán của mình. Nói cách khác, tôi đã phát minh ra dữ liệu cho mục đích cụ thể để có được "kết quả tốt". Trong những trường hợp như vậy, tôi thích thuật ngữ "giả tạo" cùng với lời giải thích về những kỳ vọng của tôi đối với dữ liệu. Điều này là do tôi không muốn bất kỳ ai mắc sai lầm khi nghĩ rằng tôi đã chỉ ra thuật toán của mình vào một số dữ liệu tổng hợp tùy ý mà tôi thấy nằm xung quanh và nó thực sự hoạt động tốt. Nếu tôi có dữ liệu được chọn bằng cherry (đến mức thực sự tạo ra nó) để làm cho thuật toán của tôi hoạt động tốt, tôi sẽ nói như vậy. Điều này là do các kết quả như vậy cung cấp bằng chứng rằng thuật toán của tôi có thểlàm việc tốt, nhưng chỉ cung cấp bằng chứng rất yếu rằng người ta có thể mong đợi thuật toán hoạt động tốt nói chung . Từ "giả tạo" thực sự tổng hợp một cách độc đáo thực tế là tôi đã chọn dữ liệu với "kết quả tốt" trong tâm trí, một tiên nghiệm.
"điều đó có mang lại ấn tượng về dữ liệu gian lận không?"
Không, nhưng, điều quan trọng là phải rõ ràng về nguồn gốc của bất kỳ tập dữ liệu nào và kỳ vọng tiên nghiệm của bạn với tư cách là người thử nghiệm khi báo cáo kết quả của bạn về bất kỳ tập dữ liệu nào. Thuật ngữ "gian lận" rõ ràng bao gồm một khía cạnh của việc che đậy điều gì đó hoặc nói dối hoàn toàn. Cách số 1 để tránh hoa hồng gian lận trong khoa học là chỉ cần trung thực và thẳng thắn về bản chất của dữ liệu và kỳ vọng của bạn. Nói cách khác, nếu dữ liệu của bạn bịa đặt và bạn không thể nói nhiều bằng bất kỳ cách nào , và có một số loại kỳ vọng rằng dữ liệu không được chế tạo hoặc tệ hơn, bạn cho rằng dữ liệu được thu thập theo một loại không được chế tạo đường, sau đó là"Lừa đảo". Đừng làm điều đó. Nếu bạn muốn sử dụng một số từ đồng nghĩa với thuật ngữ "bịa đặt" rằng "nghe hay hơn", chẳng hạn như "tổng hợp", sẽ không có ai làm phiền bạn, nhưng đồng thời tôi không nghĩ rằng ai đó sẽ nhận thấy sự khác biệt ngoại trừ bạn.
Một lưu ý phụ:
Ít rõ ràng hơn là những trường hợp mà một người tuyên bố đã có một kỳ vọng tiên nghiệm thực sự là những lời giải thích hoc . Đây cũng là phân tích dữ liệu gian lận.
Có một mối nguy hiểm về điều này khi người ta chọn dữ liệu cụ thể với mục đích "phô trương" các khả năng của thuật toán, thường xảy ra với dữ liệu tổng hợp.
Để rõ ràng về lý do tại sao lại như vậy, hãy xem xét rằng phương pháp khoa học "bình thường" hoạt động giống như vậy: 1) Dân số được chọn 2) Giả thuyết được che giấu 3) được thử nghiệm chống lại (hoặc một số mẫu được chọn từ ). Khoa học không phải làm việc theo định nghĩa hẹp này, nhưng đây là phân tích "xác nhận" và thường được coi là dạng bằng chứng mạnh nhất mà người ta có thể cung cấp. Vì thứ tự của các sự kiện tương quan với sức mạnh của bằng chứng, điều quan trọng là phải ghi chép cụ thể chúng.DHHDD
Đáng chú ý, trong trường hợp dữ liệu "contrived", quá trình này thường hoạt động giống như vậy: 1) Một giả thuyết được thụ thai, 2) Một dân được chọn, 3) được thử nghiệm chống lại . Nếu bạn đang thử nghiệm một thuật toán, ví dụ, thì giả thuyết rằng thuật toán mới lạ mắt của bạn "làm tốt công việc" có thể xảy ra trước khi phát minh ra bộ dữ liệu tổng hợp. Nếu đây là trường hợp, bạn nên đề cập đến nó. Ít nhất bạn không nên cố ý rằng các sự kiện đã diễn ra theo cách "xác nhận", bởi vì điều đó sẽ khiến độc giả kết luận rằng bằng chứng của bạn mạnh hơn thực tế.HDHD
Không có vấn đề gì với việc này, miễn là bạn trung thực và thẳng thắn về những gì bạn đã làm. Nếu bạn đã trải qua khó khăn để tạo ra một bộ dữ liệu cho "kết quả tốt", hãy nói như vậy. Miễn là bạn cho người đọc biết các bước bạn đã thực hiện trong phân tích dữ liệu của mình, họ có thông tin cần thiết để cân nhắc hiệu quả bằng chứng cho hoặc chống lại các giả thuyết của bạn. Khi bạn không trung thực hoặc không thẳng thắn , thì điều này có thể mang lại ấn tượng rằng bằng chứng của bạn mạnh hơn thực tế. Khi bạn BIẾT ít hơn so với trung thực và thẳng thắn vì mục đích làm cho bằng chứng của bạn có vẻ mạnh hơn thực tế, thì đó thực sự là lừa đảo.
Trong mọi trường hợp, đây là lý do tại sao tôi thích thuật ngữ "giả định" cho các bộ dữ liệu đó, cùng với một lời giải thích ngắn gọn rằng chúng thực sự được chọn với một giả thuyết trong đầu. "Có khả năng" truyền đạt ý nghĩa rằng tôi không chỉ tạo ra một bộ dữ liệu tổng hợp, mà tôi còn làm như vậy với ý định đặc biệt phản ánh thực tế rằng giả thuyết của tôi đã được đặt ra trước khi tạo ra bộ dữ liệu của tôi.
Để minh họa bằng một ví dụ: Bạn tạo một thuật toán để phân tích chuỗi thời gian tùy ý. Bạn đưa ra giả thuyết rằng thuật toán này sẽ cho "kết quả tốt" khi được chỉ vào chuỗi thời gian. Bây giờ, hãy xem xét hai khả năng sau: 1) Bạn tạo một số dữ liệu tổng hợp trông giống như thứ mà bạn mong đợi thuật toán của mình sẽ hoạt động tốt. Bạn phân tích dữ liệu này và thuật toán thực hiện tốt. 2) Bạn lấy một số bộ dữ liệu tổng hợp vì chúng có sẵn tại sao không. Bạn phân tích dữ liệu này và thuật toán thực hiện tốt. Điều nào trong hai trường hợp này cung cấp bằng chứng tốt hơn cho thấy thuật toán của bạn hoạt động tốt trên chuỗi thời gian tùy ý? Rõ ràng, đó là tùy chọn 2. Tuy nhiên, có thể dễ dàng báo cáo trong tùy chọn 1 hoặc tùy chọn 2 rằng "chúng tôi đã áp dụng thuật toánAđể tổng hợp dữ liệu . Kết quả được hiển thị trong Hình . "Trong trường hợp không có bất kỳ bối cảnh nào, người đọc có thể giả định một cách hợp lý rằng các kết quả này là xác nhận (tùy chọn 2), khi, trong trường hợp của tùy chọn 1, thì không. 1, đã có ấn tượng rằng bằng chứng mạnh hơn thực tế.Dx.y
tl; dr
Sử dụng bất kỳ thuật ngữ nào bạn thích, "tổng hợp", "giả tạo", "bịa đặt", "hư cấu". Tuy nhiên, thuật ngữ mà bạn sử dụng là không đủ để đảm bảo rằng kết quả của bạn không gây hiểu nhầm . Đảm bảo rằng bạn rõ ràng trong báo cáo của mình về cách dữ liệu xuất hiện, bao gồm cả những kỳ vọng của bạn về dữ liệu và lý do tại sao bạn chọn dữ liệu bạn chọn.