Thuật ngữ tốt nhất cho dữ liệu tạo thành?


23

Tôi đang viết một ví dụ và đã tạo ra một số dữ liệu. Tôi muốn nó rõ ràng với người đọc đây không phải là dữ liệu thực, nhưng tôi cũng không muốn đưa ra ấn tượng về ác ý, vì nó chỉ là một ví dụ.

Không có thành phần ngẫu nhiên (giả) cho dữ liệu cụ thể này, do đó, dường như với tôi rằng 'mô phỏng' là không phù hợp. Nếu tôi gọi nó là hư cấu hoặc bịa đặt, điều đó có mang lại ấn tượng về dữ liệu gian lận không? 'Trang điểm' có phải là một từ phù hợp với bối cảnh khoa học không?

Thuật ngữ trong tài liệu thống kê cho dữ liệu tạo thành không mô phỏng là gì?


9
Chỉ cần thêm một nhận xét lan truyền qua một số câu trả lời: "tổng hợp" là một từ tốt để tạo ra dữ liệu cố gắng trông thật nhất có thể, trong khi "giả lập" gợi ý dữ liệu được tạo ra để chứng minh điều gì đó cụ thể. Ví dụ: dữ liệu "giả lập" có thể chứa các ngoại lệ vô lý, chỉ để chứng minh tầm quan trọng của việc đối phó với các ngoại lệ đúng cách.
Cort Ammon - Tái lập lại

Cá nhân tôi thích thuật ngữ "mô phỏng" và đã gặp nó nhiều nhất trong tài liệu thống kê (nghĩa là "chúng tôi đã tiến hành mô phỏng để so sánh mô hình của chúng tôi với X, Y, Z ...."
Samir Rachid Zaim

Câu trả lời:


45

Tôi có thể gọi đây là dữ liệu "tổng hợp" hoặc "nhân tạo", mặc dù tôi cũng có thể gọi nó là "mô phỏng" (mô phỏng chỉ rất đơn giản).


30
Người ta nghe thấy "dữ liệu đồ chơi", "ví dụ đồ chơi" và "dữ liệu giả". Ngoài ra tôi đồng ý rằng "mô phỏng" có thể phù hợp ngay cả khi không có số ngẫu nhiên.
rolando2

7
"Dữ liệu minh họa" hoặc "dữ liệu mẫu" cũng có thể hoạt động
Henry

8
+1 ' dữ liệu tổng hợp ' và ' ví dụ đồ chơi ' là cả hai thuật ngữ tôi có thể sử dụng, nếu có dịp, như 'ví dụ được xây dựng'. Đôi khi tôi nói "ví dụ minh họa" hoặc một cái gì đó tương tự, đặc biệt khi ví dụ được xây dựng rõ ràng để có các tính năng cụ thể (ví dụ: khi được thiết kế như một ví dụ cho một số khái niệm sai lầm).
Glen_b -Reinstate Monica

1
Tôi có xu hướng sử dụng dữ liệu đồ chơi (không có giả tạo hoặc mô phỏng ) cho các bộ dữ liệu thực (được đo) mà tôi "lạm dụng" để thể hiện điều gì đó.
cbeleites hỗ trợ Monica

1
Nó phụ thuộc một chút vào ứng dụng của bạn những gì sẽ hoạt động tốt nhất. Ví dụ, tôi cũng đang thực hiện một dự án với dữ liệu "giả", nhưng một phần khác của dự án liên quan đến việc sử dụng mô phỏng mô hình máy tính. Vì vậy, nó có thể khiến người đọc nhầm lẫn với tôi khi đề cập đến dữ liệu giả là "mô phỏng", ngụ ý sai lệch dữ liệu đến từ mô phỏng. Vì vậy, tôi đã dựa vào "nhân tạo" và đôi khi tôi mô tả dữ liệu là "được sản xuất". Cá nhân tôi sẽ tránh "tổng hợp" đối với tôi thuật ngữ này có nghĩa là dữ liệu là một sự kết hợp của các nguồn dữ liệu khác (một "tổng hợp" ví dụ dữ liệu A và dữ liệu B).
Ceph

12

Nếu bạn muốn coi dữ liệu của mình là hư cấu, bạn sẽ ở trong một công ty tốt, vì đó là thuật ngữ mà Francis Anscombe dùng để mô tả bộ tứ nổi tiếng hiện nay của mình .

Từ Anscombe, FJ (1973). " Đồ thị trong phân tích thống kê ", Am. Thống kê 27 (1):

Một số điểm này được minh họa bằng bốn bộ dữ liệu hư cấu, mỗi bộ bao gồm mười một (x, y), được hiển thị trong bảng.

Nhưng tôi nghĩ rằng sự thận trọng của bạn được đặt rất tốt, vì OED của tôi (v4) dường như chỉ ra rằng việc sử dụng hư cấu này đã lỗi thời

hư cấu , a.

(fkˈtɪʃəs)

[f. L. fictīci-us (f. Fingerĕre to fashion, fagger) + -ous: see -itious.]

1.1 a.1.a Nhân tạo trái ngược với tự nhiên (obs.). b.1.b Giả, 'giả', giả mạo; không chính hãng.


Về khả năng đọc, đề xuất đầu tiên và các ý kiến ​​là sự thay thế tốt hơn nhiều. Không cần sử dụng những từ không phổ biến, phức tạp.
Tim

1
@Tim: Tôi muốn đồng ý, nhưng tôi không hoàn toàn chắc chắn những gì tôi đồng ý. Bạn đang nói rằng hư cấu sẽ là một lựa chọn tồi, mặc dù đã được sử dụng trong một bối cảnh tương tự trước đây? Bởi vì đó là những gì tôi đang nói.
AkselA

7

Trong CNTT chúng ta thường gọi nó là dữ liệu mockup , có thể được trình bày thông qua một mockup (ứng dụng).

Dữ liệu mockup cũng có thể được trình bày thông qua một ứng dụng đầy đủ chức năng, ví dụ để kiểm tra chức năng của ứng dụng một cách có kiểm soát.


5
Điểm hay, nhưng tôi tin rằng dữ liệu mô phỏng và dữ liệu mô phỏng không hoàn toàn giống nhau. Khi tạo dữ liệu mockup cho các thử nghiệm đơn vị, bạn chỉ cần bảo tồn một số thuộc tính rất cơ bản của dữ liệu thực, trong khi khi sử dụng dữ liệu mô phỏng để phân tích thống kê, bạn thường sử dụng các ví dụ dữ liệu phức tạp hơn.
Tim

2
Tôi vẫn tin rằng ErikE là chính xác, mặc dù khi bạn viết mã phân tích, bạn cần dữ liệu thật hoặc giả. Dữ liệu giả có thể lớn như bạn muốn nó là imo.
Mathijs Segers

1
Thực tiễn có lẽ khác nhau như việc sử dụng thuật ngữ, tôi đoán. Đối với nhiều thử nghiệm và phân tích của chúng tôi, chúng tôi sử dụng dữ liệu trực tiếp đã bị "gỡ rối" vì lý do bảo mật và ẩn danh. Đối với những người khác, chúng tôi tạo dữ liệu xương trần giống như Tim mô tả. Tôi không có ý kiến ​​mạnh mẽ nhưng chúng tôi sử dụng thuật ngữ mockup khá lỏng lẻo.
ErikE

3

Tôi đã thấy các đề xuất lặp đi lặp lại cho thuật ngữ "dữ liệu tổng hợp". Tuy nhiên, thuật ngữ đó được sử dụng rộng rãi và có ý nghĩa rất khác với những gì bạn muốn bày tỏ: https://en.wikipedia.org/wiki/Sy merg_data

Tôi không chắc chắn có một thuật ngữ khoa học thường được chấp nhận, nhưng thuật ngữ "dữ liệu mẫu" có vẻ khó hiểu?


1
Bài báo đó có vẻ hơi bối rối - mối quan hệ với việc ẩn danh là khá khó khăn.
Matt Krause

+1 nhưng tôi đồng ý với nhận xét trước: ngoài các đoạn thứ hai (nói rằng dữ liệu tổng hợp là một loại dữ liệu ẩn danh), phần còn lại của bài viết Wikipedia dường như mô tả những gì người hỏi muốn. Tức là dữ liệu trang điểm thực tế.
Darren Cook

3

Tôi đã gặp thuật ngữ 'dữ liệu giả' một số tiền hợp lý. Tôi đoán nó có thể có một số ý nghĩa tiêu cực nhưng tôi đã nghe nó thường xuyên đến mức nó không đăng ký tiêu cực cho tôi.

FWIW, Andrew Gelman cũng sử dụng nó:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Một tìm kiếm nhanh trên google cho 'dữ liệu giả' cho thấy rất nhiều kết quả dường như đang sử dụng thuật ngữ tương tự:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatologistsworkflow.blogspot.com/2017/04/an-easy-way-to-simulation-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Và thậm chí còn có một fakeRgói, điều này cho thấy rằng điều này tương đối phổ biến: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf


2

Tôi sử dụng một từ khác nhau tùy thuộc vào cách tôi sử dụng dữ liệu. Nếu tôi đã tìm thấy tập dữ liệu tạo thành nằm xung quanh và đã chỉ ra thuật toán của tôi theo cách xác nhận, thì từ "tổng hợp" là ổn.

Tuy nhiên, đôi khi tôi sử dụng loại dữ liệu này, tôi đã phát minh ra dữ liệu với mục đích cụ thể là thể hiện các khả năng của thuật toán của mình. Nói cách khác, tôi đã phát minh ra dữ liệu cho mục đích cụ thể để có được "kết quả tốt". Trong những trường hợp như vậy, tôi thích thuật ngữ "giả tạo" cùng với lời giải thích về những kỳ vọng của tôi đối với dữ liệu. Điều này là do tôi không muốn bất kỳ ai mắc sai lầm khi nghĩ rằng tôi đã chỉ ra thuật toán của mình vào một số dữ liệu tổng hợp tùy ý mà tôi thấy nằm xung quanh và nó thực sự hoạt động tốt. Nếu tôi có dữ liệu được chọn bằng cherry (đến mức thực sự tạo ra nó) để làm cho thuật toán của tôi hoạt động tốt, tôi sẽ nói như vậy. Điều này là do các kết quả như vậy cung cấp bằng chứng rằng thuật toán của tôi có thểlàm việc tốt, nhưng chỉ cung cấp bằng chứng rất yếu rằng người ta có thể mong đợi thuật toán hoạt động tốt nói chung . Từ "giả tạo" thực sự tổng hợp một cách độc đáo thực tế là tôi đã chọn dữ liệu với "kết quả tốt" trong tâm trí, một tiên nghiệm.

"điều đó có mang lại ấn tượng về dữ liệu gian lận không?"

Không, nhưng, điều quan trọng là phải rõ ràng về nguồn gốc của bất kỳ tập dữ liệu nào và kỳ vọng tiên nghiệm của bạn với tư cách là người thử nghiệm khi báo cáo kết quả của bạn về bất kỳ tập dữ liệu nào. Thuật ngữ "gian lận" rõ ràng bao gồm một khía cạnh của việc che đậy điều gì đó hoặc nói dối hoàn toàn. Cách số 1 để tránh hoa hồng gian lận trong khoa học là chỉ cần trung thựcthẳng thắn về bản chất của dữ liệu và kỳ vọng của bạn. Nói cách khác, nếu dữ liệu của bạn bịa đặt và bạn không thể nói nhiều bằng bất kỳ cách nào , và có một số loại kỳ vọng rằng dữ liệu không được chế tạo hoặc tệ hơn, bạn cho rằng dữ liệu được thu thập theo một loại không được chế tạo đường, sau đó "Lừa đảo". Đừng làm điều đó. Nếu bạn muốn sử dụng một số từ đồng nghĩa với thuật ngữ "bịa đặt" rằng "nghe hay hơn", chẳng hạn như "tổng hợp", sẽ không có ai làm phiền bạn, nhưng đồng thời tôi không nghĩ rằng ai đó sẽ nhận thấy sự khác biệt ngoại trừ bạn.

Một lưu ý phụ:

Ít rõ ràng hơn là những trường hợp mà một người tuyên bố đã có một kỳ vọng tiên nghiệm thực sự là những lời giải thích hoc . Đây cũng là phân tích dữ liệu gian lận.

Có một mối nguy hiểm về điều này khi người ta chọn dữ liệu cụ thể với mục đích "phô trương" các khả năng của thuật toán, thường xảy ra với dữ liệu tổng hợp.

Để rõ ràng về lý do tại sao lại như vậy, hãy xem xét rằng phương pháp khoa học "bình thường" hoạt động giống như vậy: 1) Dân số được chọn 2) Giả thuyết được che giấu 3) được thử nghiệm chống lại (hoặc một số mẫu được chọn từ ). Khoa học không phải làm việc theo định nghĩa hẹp này, nhưng đây là phân tích "xác nhận" và thường được coi là dạng bằng chứng mạnh nhất mà người ta có thể cung cấp. Vì thứ tự của các sự kiện tương quan với sức mạnh của bằng chứng, điều quan trọng là phải ghi chép cụ thể chúng.DHHDD

Đáng chú ý, trong trường hợp dữ liệu "contrived", quá trình này thường hoạt động giống như vậy: 1) Một giả thuyết được thụ thai, 2) Một dân được chọn, 3) được thử nghiệm chống lại . Nếu bạn đang thử nghiệm một thuật toán, ví dụ, thì giả thuyết rằng thuật toán mới lạ mắt của bạn "làm tốt công việc" có thể xảy ra trước khi phát minh ra bộ dữ liệu tổng hợp. Nếu đây là trường hợp, bạn nên đề cập đến nó. Ít nhất bạn không nên cố ý rằng các sự kiện đã diễn ra theo cách "xác nhận", bởi vì điều đó sẽ khiến độc giả kết luận rằng bằng chứng của bạn mạnh hơn thực tế.HDHD

Không có vấn đề gì với việc này, miễn là bạn trung thựcthẳng thắn về những gì bạn đã làm. Nếu bạn đã trải qua khó khăn để tạo ra một bộ dữ liệu cho "kết quả tốt", hãy nói như vậy. Miễn là bạn cho người đọc biết các bước bạn đã thực hiện trong phân tích dữ liệu của mình, họ có thông tin cần thiết để cân nhắc hiệu quả bằng chứng cho hoặc chống lại các giả thuyết của bạn. Khi bạn không trung thực hoặc không thẳng thắn , thì điều này có thể mang lại ấn tượng rằng bằng chứng của bạn mạnh hơn thực tế. Khi bạn BIẾT ít hơn so với trung thựcthẳng thắn vì mục đích làm cho bằng chứng của bạn có vẻ mạnh hơn thực tế, thì đó thực sự là lừa đảo.

Trong mọi trường hợp, đây là lý do tại sao tôi thích thuật ngữ "giả định" cho các bộ dữ liệu đó, cùng với một lời giải thích ngắn gọn rằng chúng thực sự được chọn với một giả thuyết trong đầu. "Có khả năng" truyền đạt ý nghĩa rằng tôi không chỉ tạo ra một bộ dữ liệu tổng hợp, mà tôi còn làm như vậy với ý định đặc biệt phản ánh thực tế rằng giả thuyết của tôi đã được đặt ra trước khi tạo ra bộ dữ liệu của tôi.

Để minh họa bằng một ví dụ: Bạn tạo một thuật toán để phân tích chuỗi thời gian tùy ý. Bạn đưa ra giả thuyết rằng thuật toán này sẽ cho "kết quả tốt" khi được chỉ vào chuỗi thời gian. Bây giờ, hãy xem xét hai khả năng sau: 1) Bạn tạo một số dữ liệu tổng hợp trông giống như thứ mà bạn mong đợi thuật toán của mình sẽ hoạt động tốt. Bạn phân tích dữ liệu này và thuật toán thực hiện tốt. 2) Bạn lấy một số bộ dữ liệu tổng hợp vì chúng có sẵn tại sao không. Bạn phân tích dữ liệu này và thuật toán thực hiện tốt. Điều nào trong hai trường hợp này cung cấp bằng chứng tốt hơn cho thấy thuật toán của bạn hoạt động tốt trên chuỗi thời gian tùy ý? Rõ ràng, đó là tùy chọn 2. Tuy nhiên, có thể dễ dàng báo cáo trong tùy chọn 1 hoặc tùy chọn 2 rằng "chúng tôi đã áp dụng thuật toánAđể tổng hợp dữ liệu . Kết quả được hiển thị trong Hình . "Trong trường hợp không có bất kỳ bối cảnh nào, người đọc có thể giả định một cách hợp lý rằng các kết quả này là xác nhận (tùy chọn 2), khi, trong trường hợp của tùy chọn 1, thì không. 1, đã có ấn tượng rằng bằng chứng mạnh hơn thực tế.Dx.y

tl; dr

Sử dụng bất kỳ thuật ngữ nào bạn thích, "tổng hợp", "giả tạo", "bịa đặt", "hư cấu". Tuy nhiên, thuật ngữ mà bạn sử dụng là không đủ để đảm bảo rằng kết quả của bạn không gây hiểu nhầm . Đảm bảo rằng bạn rõ ràng trong báo cáo của mình về cách dữ liệu xuất hiện, bao gồm cả những kỳ vọng của bạn về dữ liệu và lý do tại sao bạn chọn dữ liệu bạn chọn.


Mặc dù các câu trả lời ở đây trùng lặp và hầu như tất cả đều đưa ra những điểm tốt nhưng điều này tôi nghĩ tốt nhất truyền đạt điểm quan trọng mà không một thuật ngữ nào sẽ truyền đạt cho tất cả người đọc ý định đằng sau việc tạo ra dữ liệu. Các reaons có thể từ không chỉ thích hợp mà còn cần thiết cho mục đích thông qua sự lười biếng (văn bản giới thiệu kém) đến gian lận và gian lận. Giải thích lý do tại sao bạn đang làm nó ở một số độ dài có thể là một ý tưởng tốt.
Nick Cox

... lý do ...
Nick Cox

1

Đầu tiên, không có lý do gì để không gọi nó là "bộ dữ liệu". Không có (các) thuật ngữ được thống nhất trên toàn cầu đối với dữ liệu "giả" so với "mô phỏng" so với ... dữ liệu. Nếu mục tiêu là hoàn toàn rõ ràng, tốt nhất là thực sự dành một câu, thay vì một từ, để đủ điều kiện bộ dữ liệu này là gì. Sau đó, bạn có thể thư giãn chỉ định và chỉ xem dữ liệu của bạn là dữ liệu.

"Tổng hợp", "nhân tạo" không phân biệt với các bộ dữ liệu "mô phỏng" được lấy mẫu MCMC khác trong tâm trí của tôi. Sử dụng một trình tạo số gần đúng với một hạt giống cố định (vì việc đào tạo phù hợp sẽ ra lệnh) cũng tạo ra một bộ dữ liệu tổng hợp hoặc nhân tạo.

Nếu quan điểm quản lý một tập dữ liệu cho một minh họa cụ thể, thay vì tạo ra một thể hiện hoặc hiện thực hóa từ một mô hình xác suất, tôi nghĩ tốt hơn là gọi một tập dữ liệu đó là " tập dữ liệu mẫu ". Dữ liệu như thế này gần giống với bộ tứ của Anscombe: hoàn toàn trừu tượng và không hợp lý, nhưng có nghĩa là để minh họa một điểm.


1

Trong sinh học, các phân tích đôi khi được chứng minh bằng cách sử dụng bộ dữ liệu của động vật thần thoại. Việc có hay không tuyên bố rõ ràng rằng dữ liệu được mô phỏng là tùy thuộc vào tác giả / người đánh giá.

Hướng dẫn của nhà sinh thái học về mô hình động vật, 2009

Những hướng dẫn này mô tả một loạt các phân tích di truyền định lượng trên một quần thể gryphon (phản ánh sự thỏa hiệp giữa các thiên kiến ​​gia cầm và động vật có vú của các tác giả). Vì gryphon là một con thú thần thoại, dữ liệu được cung cấp nhất thiết phải được mô phỏng.

Đã sửa lỗi phương sai hiệu ứng và ước tính độ lặp lại và khả năng di truyền: Các vấn đề và giải pháp, 2017

Để minh họa điều này, chúng ta hãy quay trở lại bộ dữ liệu kỳ lân của Wilson (2008). Một thực tế được biết là trong kỳ lân, chiều dài sừng thay đổi tùy theo khối lượng cơ thể cá nhân (độ dốc: = 0,403 cho một mô hình đầy đủ bao gồm tuổi, giới tính và tương tác của chúng).


1
Cách tiếp cận thú vị! Tôi nghĩ rằng điều này có thể là tuyệt vời cho việc giảng dạy sinh viên thống kê sinh học. Khi trình bày trước công chúng, tôi không chắc liệu điều này có mang lại ấn tượng đúng hay không
Frans Rodenburg

0

Theo trực giác tôi sẽ đi đến thuật ngữ 'Dữ liệu giả', theo nghĩa tương tự rằng "Lorem ipsum ..." được gọi là 'Văn bản giả'. Từ 'Dummy' khá chung chung và dễ hiểu đối với những người từ nhiều nguồn gốc khác nhau và do đó ít có khả năng bị hiểu sai bởi những độc giả có nền tảng thống kê ít hơn.


2
Nếu đó là trong một bối cảnh hồi quy, tôi sẽ tránh quá tải "giả", vì sợ rằng bạn có các biến giả mã hóa dữ liệu giả.
Matt Krause

Tôi đồng ý, cá nhân tôi sẽ tránh nó vì "Dummy" đã có một ý nghĩa được thiết lập trong hồi quy. Cho rằng có rất nhiều thuật ngữ có sẵn, có lẽ tốt nhất là tránh những thuật ngữ đó có thể có nghĩa là những điều khác nhau cho những người khác nhau.
Samir Rachid Zaim

0

Dữ liệu là tiếng Latin được đưa ra , được sử dụng trong thời hiện đại như một cách viết tắt cho tập hợp các sự kiện được ghi lại . Vì vậy, theo một cách nào đó đề cập đến các bản ghi bịa đặt vì một số loại sự kiện nhất định sẽ là một mâu thuẫn mở.

Tuy nhiên, do việc sử dụng dữ liệu ngày càng tăng để chỉ đơn giản là ghi âm - bất kể giả định ban đầu của hồ sơ là sự thật - chúng tôi vui vẻ hiểu nhau khi nói về các bản ghi có thể hoặc không đúng sự thật - do đó là dữ liệu thật / giả.

Tôi sẽ tóm tắt kinh nghiệm của tôi về các cách để giải quyết các bản ghi bịa đặt dưới đây. Nhãn được sử dụng tùy thuộc vào việc người ta cho rằng chúng ta đang nói về dữ liệu dưới dạng bản ghi được chế tạo nhằm mục đích trông thực tế hợp lý để cho phép phân tích thêm hoặc dữ liệu dưới dạng tải tính toán.

  • Trong các nhóm phân tích / khoa học dữ liệu / tư vấn chiến lược, mọi người thường xuyên xử lý một tập hợp các bản ghi được tạo ra theo các giả định thực tế dưới dạng dữ liệu tổng hợp - và đôi khi là dữ liệu mô phỏng . Bản ghi bịa đặt được tạo bằng các giả định thô được gọi là bộ dữ liệu đồ chơi .
  • Trong số các kỹ sư phần mềm, dữ liệu giả , dữ liệu giả , làm-up dữ liệudữ liệu bản mock-up là nhãn thường xuyên mà chủ yếu là gợi ý để thu âm không nhất thiết có nghĩa là để có các tính chất thực tế, nhưng chỉ chia sẻ các thuộc tính cơ bản với dữ liệu gốc (dữ liệu tuổi luôn là số , địa chỉ email luôn luôn có chuỗi có chứa @ @).
  • Các nhà nghiên cứu hàn lâm sẽ đề cập đến một tập hợp thực tế các bản ghi bịa đặt là dữ liệu giả hoặc dữ liệu mô phỏng . Trong một số vòng tròn, nếu tập hợp các quan sát bịa đặt là kết quả của mô phỏng Monte Carlo, thì nó có thể được gọi chung là Monte Carlo . Ghi âm bán thực tế thường được sử dụng cho mục đích minh họa hoặc thử nghiệm các giả thuyết thay thế, và được gọi là bộ dữ liệu đồ chơi

2
"Monte Carlo" là tên của phương thức, vì vậy tên "thông tục" sẽ rất sai lệch.
Tim

@Tim thực sự, nó có thể được coi là sai lệch. Tuy nhiên, ngôn ngữ chỉ là một công cụ dựa trên sự đồng thuận trong cộng đồng như một cách để đề cập đến một cái gì đó. Nhiều đến mức chúng tôi đang đề cập đến trang web này các bản ghi và các phép đo như đã cho (tiếng Anh cho dữ liệu Latin ). Nếu tôi chấp nhận quan điểm của bạn, tôi sẽ thấy việc giải quyết các phép đo mô phỏng là giả mạo rất đáng nghi ngờ.
famargar

Tôi hy vọng bạn sẽ thấy bây giờ khi đề cập đến một mô phỏng của Monte Monte Carlo vì đơn giản là Monte Monte Carlo là một phiên bản hiện đại của việc đề cập đến những quan sát được đưa ra trong các mối quan tâm của bạn. Tôi đã chỉnh sửa câu trả lời của mình để kết hợp điều này và cân nhắc nhiều hơn về ý nghĩa so với cách sử dụng thực tế của từ dữ liệu.
famargar

1
"Các nhà nghiên cứu hàn lâm sẽ đề cập đến một tập hợp các bản ghi bịa đặt thực tế thường xuyên nhất là dữ liệu giả": Tôi không nhớ đã từng thấy thuật ngữ này trong hơn 40 năm nghiên cứu học thuật. "Các học giả thường không sử dụng cho các bản ghi không thực tế": xin lỗi, nhưng điều đó là khá sai. Học thuật trong nhiều, nhiều lĩnh vực sử dụng mô phỏng của một số loại khác nhau. Ngay cả các mô phỏng không thực tế cũng có thể hữu ích, ví dụ: sự biến đổi của các mẫu bình thường là bối cảnh quan trọng để đánh giá tính phi chuẩn.
Nick Cox

@NickCox Pseudodata thường được sử dụng trong vật lý, và tôi đã thấy nó trong sinh học và thống kê. Sẽ tò mò muốn biết lĩnh vực của bạn là gì và lĩnh vực của bạn đề cập đến mô phỏng. Đối với dữ liệu không thực tế, tôi đã phân biệt giữa không thực tế và bán thực tế. Tôi đã bỏ lỡ trường hợp sử dụng của bạn?
famargar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.