Tôi đọc Black Swan vài năm trước. Ý tưởng Thiên nga đen là tốt và cuộc tấn công vào ngụy biện ngớ ngẩn (nhìn mọi thứ như thể chúng là trò chơi súc sắc, với xác suất có thể biết được) là tốt nhưng số liệu thống kê bị xuyên tạc, với vấn đề trung tâm là tuyên bố sai lầm rằng tất cả các số liệu thống kê đều sụp đổ nếu các biến thường không được phân phối. Tôi đã đủ khó chịu bởi khía cạnh này để viết Taleb bức thư dưới đây:
Kính gửi Tiến sĩ Taleb
Gần đây tôi đã đọc "Thiên nga đen". Giống như bạn, tôi là một fan hâm mộ của Karl Popper, và tôi thấy mình đồng ý với nhiều điều có trong đó. Tôi nghĩ rằng sự phơi bày của bạn về ngụy biện lố bịch về cơ bản là âm thanh, và thu hút sự chú ý đến một vấn đề thực tế và phổ biến. Tuy nhiên, tôi nghĩ rằng phần lớn Phần III cho phép tranh luận tổng thể của bạn không tốt, thậm chí đến mức có thể làm mất uy tín của phần còn lại của cuốn sách. Đây là một sự xấu hổ, vì tôi nghĩ rằng những tranh luận liên quan đến Thiên nga đen và "những ẩn số chưa biết" đứng trên giá trị của chúng mà không dựa vào một số lỗi trong Phần III.
Vấn đề chính tôi muốn chỉ ra - và tìm kiếm phản hồi của bạn, đặc biệt nếu tôi có vấn đề hiểu sai - là sự trình bày sai của bạn về lĩnh vực thống kê được áp dụng. Theo đánh giá của tôi, các chương 14, 15 và 16 phụ thuộc phần lớn vào lập luận của người rơm, thống kê sai và thống kê kinh tế lượng. Lĩnh vực kinh tế lượng mà bạn mô tả không phải là lĩnh vực mà tôi đã được dạy khi tôi nghiên cứu về thống kê ứng dụng, kinh tế lượng và lý thuyết rủi ro tính toán (tại Đại học Quốc gia Úc, nhưng sử dụng các văn bản có vẻ khá chuẩn). Các vấn đề mà bạn nêu ra (chẳng hạn như các hạn chế của phân phối Gaussian) là rất tốt và thực sự được hiểu và dạy, ngay cả ở cấp đại học.
Ví dụ: bạn đi đến một số độ dài để chỉ ra cách phân phối thu nhập không tuân theo phân phối bình thường và trình bày đây là một lập luận chống lại thực tiễn thống kê nói chung. Không có nhà thống kê có thẩm quyền nào sẽ tuyên bố rằng nó làm như vậy, và cách đối phó với vấn đề này được thiết lập tốt. Chỉ sử dụng các kỹ thuật từ cấp độ "kinh tế lượng năm đầu tiên" cơ bản nhất, ví dụ, biến đổi biến bằng cách lấy logarit của nó sẽ làm cho các ví dụ số của bạn trông kém thuyết phục hơn nhiều. Một phép biến đổi như vậy trong thực tế sẽ làm mất hiệu lực phần lớn những gì bạn nói, bởi vì sau đó phương sai của biến ban đầu không tăng khi giá trị trung bình của nó tăng.
Tôi chắc chắn rằng có một số nhà kinh tế lượng không đủ năng lực thực hiện hồi quy OLS, v.v ... với một biến trả lời chưa được xử lý theo cách bạn nói, nhưng điều đó chỉ khiến họ không đủ năng lực và sử dụng các kỹ thuật được thiết lập tốt là không phù hợp. Họ chắc chắn đã thất bại ngay cả trong các khóa học đại học, họ dành nhiều thời gian để tìm kiếm các cách mô hình hóa các biến thích hợp hơn như thu nhập, phản ánh phân phối quan sát thực tế (không phải Gaussian).
Nhóm mô hình tuyến tính tổng quát là một tập hợp các kỹ thuật được phát triển một phần để khắc phục các vấn đề bạn nêu ra. Nhiều nhóm phân phối theo cấp số nhân (ví dụ phân phối Gamma, Exponential và Poisson) có tính đồng nhất và có phương sai tăng khi trung tâm phân phối tăng, giải quyết vấn đề bạn chỉ ra khi sử dụng phân phối Gaussian. Nếu điều này vẫn còn quá hạn chế, có thể loại bỏ hoàn toàn "hình dạng" đã tồn tại trước đó và chỉ cần chỉ định mối quan hệ giữa giá trị trung bình của phân phối và phương sai của nó (ví dụ: cho phép phương sai tăng tỷ lệ với bình phương trung bình), sử dụng phương pháp ước lượng "gần đúng".
Tất nhiên, bạn có thể lập luận rằng hình thức mô hình hóa này vẫn còn quá đơn giản và một cái bẫy trí tuệ khiến chúng ta nghĩ rằng tương lai sẽ giống như quá khứ. Bạn có thể đúng, và tôi nghĩ rằng sức mạnh của cuốn sách của bạn là làm cho những người như tôi xem xét điều này. Nhưng bạn cần những lập luận khác nhau cho những lập luận mà bạn sử dụng trong chương 14-16. Trọng số lớn mà bạn đặt vào thực tế là phương sai của phân phối Gaussian là không đổi bất kể giá trị trung bình của nó (gây ra vấn đề với khả năng mở rộng), chẳng hạn, là không hợp lệ. Vì vậy, sự nhấn mạnh của bạn về thực tế là các bản phân phối trong đời thực có xu hướng mang tính chất đồng nhất hơn là các đường cong hình chuông.
Về cơ bản, bạn đã thực hiện một cách đơn giản hóa quá mức các cách tiếp cận cơ bản nhất để thống kê (mô hình hóa các biến thô chưa có phân phối Gaussian) và cho thấy, rất dài, (chính xác) những thiếu sót của cách tiếp cận quá đơn giản đó. Sau đó, bạn sử dụng điều này để tạo khoảng cách để làm mất uy tín của toàn bộ lĩnh vực. Đây là một sai sót nghiêm trọng trong logic, hoặc một kỹ thuật tuyên truyền. Thật không may vì nó làm mất đi lập luận tổng thể của bạn, phần lớn trong số đó (như tôi đã nói) tôi thấy hợp lệ và có sức thuyết phục.
Tôi sẽ quan tâm để nghe những gì bạn nói trong phản ứng. Tôi nghi ngờ tôi là người đầu tiên nêu ra vấn đề này.
Trân trọng
PE