Làm thế nào một số lượng nhỏ nên được thêm vào x để tránh lấy nhật ký bằng không?


57

Tôi đã phân tích dữ liệu của tôi như họ đang có. Bây giờ tôi muốn xem xét các phân tích của mình sau khi lấy nhật ký của tất cả các biến. Nhiều biến chứa nhiều số không. Vì vậy, tôi thêm một số lượng nhỏ để tránh lấy nhật ký bằng không.

Cho đến nay tôi đã thêm 10 ^ -10, thực sự không có bất kỳ lý do hợp lý nào, chỉ vì tôi cảm thấy muốn thêm một lượng rất nhỏ sẽ được khuyến khích để giảm thiểu ảnh hưởng của số lượng được chọn tùy ý. Nhưng một số biến chứa chủ yếu là số không, và do đó khi đăng nhập chủ yếu là -23.02. Phạm vi của các biến số của tôi là 1,33-8819,21 và tần số của các số 0 cũng thay đổi đáng kể. Do đó, lựa chọn cá nhân của tôi về "số lượng nhỏ" ảnh hưởng đến các biến số rất khác nhau. Bây giờ rõ ràng 10 ^ -10 là một lựa chọn hoàn toàn không thể chấp nhận được, vì hầu hết các phương sai trong tất cả các biến sau đó đều xuất phát từ "số lượng nhỏ" tùy ý này.

Tôi tự hỏi điều gì sẽ là một cách chính xác hơn để làm điều này.

Có lẽ tốt hơn là lấy số lượng từ mỗi biến phân phối riêng lẻ? Có hướng dẫn nào về "số lượng nhỏ" này lớn như thế nào không?

Các phân tích của tôi chủ yếu là các mô hình cox đơn giản với mỗi biến số và độ tuổi / giới tính là IV. Các biến là nồng độ của các lipit máu khác nhau, với các hệ số biến đổi đáng kể.

Chỉnh sửa : Thêm giá trị khác không nhỏ nhất của biến có vẻ thực tế cho dữ liệu của tôi. Nhưng có lẽ có một giải pháp chung?

Chỉnh sửa 2 : Vì các số 0 chỉ biểu thị nồng độ dưới giới hạn phát hiện, có thể đặt chúng thành (giới hạn phát hiện) / 2 sẽ phù hợp?


4
Tại sao bạn lấy của các quan sát / biến? log

2
Nếu bạn thêm vào các biến của mình, các biến là số 0 trên thang đo ban đầu sẽ là số 0 trên thang đo log. 1
MånsT

5
Bạn có vấn đề này với biến trả lời hay chỉ là các biến giải thích? Nếu chỉ là cái sau, thì tùy thuộc vào cân nhắc kích thước mẫu, một tùy chọn có thể là thêm các biến giả bổ sung cho biết nồng độ của chất phân tích đã cho nằm dưới ngưỡng phát hiện. Điều này làm tăng mức độ tự do, nhưng có lợi thế là không áp đặt một lựa chọn ad hoc tùy ý trên dữ liệu. Nó cũng có thể phát hiện ra các phi tuyến hoặc không liên tục gần ngưỡng phát hiện có thể được tính đến.
Đức hồng y

2
@Procrastinator Thang đo log là tự nhiên đối với nồng độ vì mối quan hệ theo cấp số nhân giữa hằng số cân bằng và năng lượng Gibbs; trong thực tế trong "liên tục" hóa học nồng độ 0 là hơi không thực tế.

2
Một cách khác là lấy phần gốc của dữ liệu - không đưa bạn đến nhật ký, nhưng vẫn giữ nguyên các số 0 không thay đổi kích thước.
jbowman

Câu trả lời:


26

Vì các số 0 chỉ biểu thị nồng độ dưới giới hạn phát hiện, có thể đặt chúng thành (giới hạn phát hiện) / 2 sẽ phù hợp

Tôi chỉ cần gõ rằng điều xuất hiện trong tâm trí của tôi, nơi nhật ký thực hiện (thường xuyên) có ý nghĩa và 0 có thể xảy ra là sự tập trung khi bạn thực hiện chỉnh sửa lần thứ 2. Như bạn nói, đối với nồng độ đo được, 0 chỉ có nghĩa là "Tôi không thể đo được nồng độ thấp đó".

Lưu ý bên lề: bạn có nghĩa là LOQ thay vì LOD?

Việc đặt 0 thành LOQ có phải là một ý tưởng tốt hay không phụ thuộc vào:12

  • từ quan điểm cho rằng là "phỏng đoán" của bạn thể hiện rằng c nằm ở khoảng giữa 0 và LOQ, điều đó thật có ý nghĩa. Nhưng hãy xem xét chức năng hiệu chuẩn tương ứng: Ở bên trái, chức năng hiệu chuẩn mang lại c = 0 dưới LOQ. Ở bên phải, được sử dụng thay vì 0.12LOQ

    nhập mô tả hình ảnh ở đâynhập mô tả hình ảnh ở đây
    12LOQ

  • Tuy nhiên, nếu giá trị đo ban đầu có sẵn, điều đó có thể cung cấp dự đoán tốt hơn. Rốt cuộc, LOQ thường chỉ có nghĩa là sai số tương đối là 10%. Dưới mức đo vẫn mang thông tin, nhưng sai số tương đối trở nên rất lớn.
    nhập mô tả hình ảnh ở đây
    (màu xanh: LOD, màu đỏ: LOQ)

  • Một cách khác là loại trừ các phép đo này. Điều đó có thể hợp lý, quá,
    ví dụ như nghĩ về một đường cong hiệu chuẩn. Trong thực tế, bạn thường quan sát một hình dạng sigmoid: đối với c thấp, tín hiệu ≈ không đổi, hành vi tuyến tính trung gian, sau đó bão hòa máy dò. nhập mô tả hình ảnh ở đây
    Trong tình huống đó, bạn có thể muốn hạn chế bản thân về các tuyên bố về nồng độ rõ ràng trong phạm vi tuyến tính vì cả bên dưới và bên trên các quy trình khác đều ảnh hưởng lớn đến kết quả.
    Hãy chắc chắn rằng bạn giải thích rằng dữ liệu đã được chọn theo cách đó và tại sao.


chỉnh sửa: Điều gì là hợp lý hoặc có thể chấp nhận, tất nhiên phụ thuộc vào vấn đề. Hy vọng rằng, chúng ta đang nói ở đây về một phần nhỏ dữ liệu không ảnh hưởng đến các phân tích.

Có thể kiểm tra nhanh và bẩn là: chạy phân tích dữ liệu của bạn có và không loại trừ dữ liệu (hoặc bất kỳ điều trị nào bạn đề xuất) và xem liệu có bất kỳ thay đổi đáng kể nào không.

Nếu bạn thấy những thay đổi, thì tất nhiên bạn đang gặp rắc rối. Tuy nhiên, từ quan điểm hóa học phân tích, tôi nói rằng rắc rối của bạn không chủ yếu nằm ở phương pháp bạn sử dụng để xử lý dữ liệu, mà vấn đề tiềm ẩn là phương pháp phân tích (hoặc phạm vi hoạt động của nó) không phù hợp với vấn đề trong tầm tay. Tất nhiên có một khu vực nơi phương pháp thống kê tốt hơn có thể tiết kiệm ngày của bạn, nhưng cuối cùng, "rác vào, rác ra" gần đúng cũng thường giữ cho các phương pháp lạ mắt hơn.

Báo giá cho chủ đề:

  • Một nhà thống kê từng nói với tôi:

    Vấn đề với bạn (nhà hóa học / nhà quang phổ học) là vấn đề của bạn khó đến mức không thể giải quyết được hoặc dễ đến mức không có niềm vui nào trong việc giải quyết chúng.

  • Fisher về thống kê sau khi chết của các thí nghiệm


1
Tôi thích đoạn trích ở phía dưới (+1).
Phục hồi

32

Dữ liệu tập trung hóa thường có số không, nhưng những điều này không đại diện cho zero giá trị : họ là mã mà từ khác nhau (và gây nhầm lẫn) đại diện cho cả hai nondetects (đo chỉ ra, với một mức độ cao của khả năng, đó là chất phân tích đã không có mặt) và "unquantified" các giá trị (phép đo đã phát hiện chất phân tích nhưng không thể tạo ra giá trị số đáng tin cậy). Chúng ta hãy mơ hồ gọi những "ND" ở đây.

Thông thường, có một giới hạn liên quan đến ND được gọi là "giới hạn phát hiện", "giới hạn định lượng" hoặc (trung thực hơn nhiều) là "giới hạn báo cáo", vì phòng thí nghiệm chọn không cung cấp giá trị bằng số (thường là hợp pháp lý do). Về tất cả những gì chúng tôi thực sự biết về một ND là giá trị thực có thể thấp hơn giới hạn liên quan: đó gần như (nhưng không hoàn toàn) một hình thức kiểm duyệt trái. (Chà, điều đó cũng không thực sự đúng: đó là một tiểu thuyết thuận tiện. Những giới hạn này được xác định thông qua hiệu chuẩn, trong hầu hết các trường hợp, có các thuộc tính thống kê kém đến khủng khiếp. Chúng có thể được ước tính quá mức hoặc quá thấp. bạn đang xem một tập hợp dữ liệu tập trung dường như có đuôi phải bất thường bị cắt (giả sử) ở mức , cộng với "tăng đột biến" ở đại diện cho tất cả các ND. Điều đó rất khuyến nghị giới hạn báo cáo chỉ là một ít hơn , nhưng dữ liệu phòng thí nghiệm có thể cố gắng cho bạn biết đó là hoặc hoặc đại loại như thế.)1.3301.330.50.1

Nghiên cứu mở rộng đã được thực hiện trong hơn 30 năm qua liên quan đến cách tốt nhất để tóm tắt và đánh giá các bộ dữ liệu đó. Dennis Helsel đã xuất bản một cuốn sách về điều này, Nondetects và Phân tích dữ liệu (Wiley, 2005), dạy một khóa học và phát hành một Rgói dựa trên một số kỹ thuật mà ông ưa thích. Trang web của ông là toàn diện.

Lĩnh vực này đầy lỗi và quan niệm sai lầm. Helsel thẳng thắn về điều này: trên trang đầu tiên của chương 1 của cuốn sách ông viết,

... phương pháp được sử dụng phổ biến nhất trong các nghiên cứu môi trường hiện nay, thay thế một nửa giới hạn phát hiện, KHÔNG phải là phương pháp hợp lý để diễn giải dữ liệu bị kiểm duyệt.

Vậy lam gi? Các tùy chọn bao gồm bỏ qua lời khuyên tốt này, áp dụng một số phương pháp trong cuốn sách của Helsel và sử dụng một số phương pháp thay thế. Đúng vậy, cuốn sách không đầy đủ và các lựa chọn thay thế hợp lệ tồn tại. Thêm một hằng số cho tất cả các giá trị trong tập dữ liệu ("bắt đầu" chúng) là một. Nhưng hãy xem xét:

  • Thêm là không một nơi tốt để bắt đầu, bởi vì công thức này phụ thuộc vào đơn vị đo lường. Thêm microgam trên mỗi decilit sẽ không có kết quả tương tự như thêm millimole mỗi lít.111

  • Sau khi bắt đầu tất cả các giá trị, bạn vẫn sẽ có một đột biến ở giá trị nhỏ nhất, đại diện cho bộ sưu tập ND đó. Hy vọng của bạn là sự tăng đột biến này phù hợp với dữ liệu được định lượng theo nghĩa là tổng khối lượng của nó xấp xỉ bằng khối lượng phân phối hợp lý giữa và giá trị bắt đầu.0

    Một công cụ tuyệt vời để xác định giá trị bắt đầu là một biểu đồ xác suất logic: ngoài các ND, dữ liệu phải xấp xỉ tuyến tính.

  • Bộ sưu tập ND cũng có thể được mô tả với phân phối được gọi là "delta lognatural". Đây là một hỗn hợp của một khối điểm và một logic bất thường.

Như đã thấy rõ trong các biểu đồ sau của các giá trị mô phỏng, các phân phối bị kiểm duyệt và delta không giống nhau. Cách tiếp cận delta hữu ích nhất cho các biến giải thích trong hồi quy: bạn có thể tạo biến "giả" để chỉ ra ND, lấy logarit của các giá trị được phát hiện (hoặc chuyển đổi chúng khi cần) và không lo lắng về các giá trị thay thế cho ND .

Biểu đồ

Trong các biểu đồ này, khoảng 20% ​​giá trị thấp nhất đã được thay thế bằng số không. Để so sánh, tất cả chúng đều dựa trên cùng 1000 giá trị logic bất thường được mô phỏng (phía trên bên trái). Phân phối delta được tạo bằng cách thay thế 200 giá trị bằng các số không một cách ngẫu nhiên . Phân phối bị kiểm duyệt đã được tạo bằng cách thay thế 200 giá trị nhỏ nhất bằng số không. Phân phối "thực tế" phù hợp với kinh nghiệm của tôi, đó là giới hạn báo cáo thực tế khác nhau trong thực tế (ngay cả khi phòng thí nghiệm không được chỉ định!): Tôi đã làm cho chúng thay đổi ngẫu nhiên (chỉ một chút, hiếm khi hơn 30 trong một trong hai hướng) và thay thế tất cả các giá trị mô phỏng nhỏ hơn giới hạn báo cáo của chúng bằng các số không.

Để hiển thị tiện ích của biểu đồ xác suất và để giải thích giải thích của nó , hình tiếp theo hiển thị các sơ đồ xác suất bình thường liên quan đến logarit của dữ liệu trước đó.

Lô xác suất

Phía trên bên trái hiển thị tất cả dữ liệu (trước khi kiểm duyệt hoặc thay thế). Đó là một sự phù hợp tốt với đường chéo lý tưởng (chúng tôi mong đợi một số sai lệch ở đuôi cực). Đây là những gì chúng tôi đang hướng tới để đạt được trong tất cả các lô tiếp theo (nhưng, do ND, chúng tôi chắc chắn sẽ không đạt được lý tưởng này.) Phía trên bên phải là một biểu đồ xác suất cho bộ dữ liệu bị kiểm duyệt, sử dụng giá trị bắt đầu là 1. Đó là một sự phù hợp khủng khiếp, bởi vì tất cả các ND (được vẽ ở 0, vìlog(1+0)=0) được vẽ nhiều quá thấp. Phía dưới bên trái là một biểu đồ xác suất cho bộ dữ liệu bị kiểm duyệt với giá trị bắt đầu là 120, gần với giới hạn báo cáo thông thường. Sự phù hợp ở phía dưới bên trái bây giờ khá ổn - chúng tôi chỉ hy vọng rằng tất cả các giá trị này đến một nơi nào đó gần, nhưng ở bên phải, đường được trang bị - nhưng độ cong ở đuôi trên cho thấy việc thêm 120 đang bắt đầu thay đổi hình dạng của phân phối. Phía dưới bên phải cho thấy những gì xảy ra với dữ liệu log-normal delta: có sự phù hợp tốt với phần đuôi trên, nhưng một số độ cong rõ rệt gần giới hạn báo cáo (ở giữa lô).

Cuối cùng, hãy khám phá một số tình huống thực tế hơn:

Lô xác suất 2

Phía trên bên trái hiển thị tập dữ liệu bị kiểm duyệt với các số không được đặt thành một nửa giới hạn báo cáo. Đó là một phù hợp khá tốt. Ở phía trên bên phải là bộ dữ liệu thực tế hơn (với các giới hạn báo cáo thay đổi ngẫu nhiên). Giá trị bắt đầu là 1 không giúp ích gì, nhưng - ở phía dưới bên trái - với giá trị bắt đầu là 120 (gần phạm vi trên của giới hạn báo cáo) mức độ phù hợp là khá tốt. Điều thú vị là độ cong gần giữa khi các điểm tăng từ ND đến các giá trị được định lượng gợi nhớ đến phân phối lognatural delta (mặc dù những dữ liệu này không được tạo ra từ hỗn hợp như vậy). Ở phía dưới bên phải là biểu đồ xác suất bạn nhận được khi dữ liệu thực tế có ND của chúng được thay thế bằng một nửa giới hạn báo cáo (điển hình). Đây là phù hợp nhất, mặc dù nó cho thấy một số hành vi giống như đồng bằng ở giữa.

Sau đó, những gì bạn nên làm là sử dụng các ô xác suất để khám phá các bản phân phối vì các hằng số khác nhau được sử dụng thay cho các ND. Bắt đầu tìm kiếm với một nửa giới hạn danh nghĩa, trung bình, báo cáo, sau đó thay đổi nó lên và xuống từ đó. Chọn một biểu đồ trông giống như dưới cùng bên phải: đại khái là một đường thẳng chéo cho các giá trị được định lượng, thả nhanh xuống một cao nguyên thấp và một bình nguyên các giá trị (chỉ vừa đủ) đáp ứng phần mở rộng của đường chéo. Tuy nhiên, làm theo lời khuyên của Helsel (được hỗ trợ mạnh mẽ trong tài liệu), đối với các tóm tắt thống kê thực tế, tránh mọi phương pháp thay thế ND bằng bất kỳ hằng số nào. Để hồi quy, hãy xem xét thêm vào một biến giả để chỉ ra ND. Đối với một số màn hình đồ họa, việc thay thế liên tục ND bằng giá trị tìm thấy với bài tập xác suất cốt truyện sẽ hoạt động tốt. Đối với các màn hình đồ họa khác, điều quan trọng là phải mô tả các giới hạn báo cáo thực tế, vì vậy thay thế ND bằng giới hạn báo cáo thay thế. Bạn cần phải linh hoạt!


1
Câu trả lời cực kỳ hay! Tôi hoàn toàn đồng ý. Và tôi quen với cảm giác khi bạn nhìn vào dữ liệu và nhận ra rằng trước khi nó được chuyển đổi "như thường lệ", có một bộ dữ liệu hoàn toàn hữu ích ...
cbeleites hỗ trợ Monica

1
các giới hạn khác nhau : một số cách tiếp cận khác nhau để tính cả LOD (giới hạn phát hiện -> cho câu trả lời định tính) và LOQ (giới hạn định lượng, dành cho các phép đo định lượng) tồn tại. Tôi đoán một phòng thí nghiệm thường sẽ không thay đổi phương pháp tính toán như thế nào (đối với cùng một phương pháp anaytical). Tuy nhiên, các giá trị này được tính toán lại mỗi khi tính toán được thực hiện. Nếu phương pháp cần hiệu chuẩn mỗi ngày làm việc, thì mỗi ngày bạn sẽ có giới hạn (hơi) khác nhau.
cbeleites hỗ trợ Monica

1
giới hạn và lý do pháp lý cho việc không cung cấp số lượng thấp: lý do pháp lý sẽ không cấm cung cấp (bổ sung) thêm thông tin dài dòng như tín hiệu thô, nồng độ tương ứng và khoảng tin cậy / phán đoán của phép đo (ví dụ: "dưới LOQ"). Ngoài ra, bạn có thể yêu cầu phòng thí nghiệm phân tích cho đường cong hiệu chuẩn. Tôi hy vọng rằng bạn phải trả tiền cho việc đó vì đây là công việc làm thêm, nhưng tôi hy vọng điều này là có thể. Sự thỏa hiệp rẻ hơn có thể là họ cung cấp cho bạn tất cả dữ liệu thô và để lại phân tích dữ liệu cho bạn. Nó có thể hữu ích nếu họ biết bạn là nhà thống kê / nhà hóa học / nhà hóa học phân tích / ...
cbeleites hỗ trợ Monica

1
Trong công việc của tôi, chúng tôi thường gặp số không vì dữ liệu được làm tròn. Trong trường hợp như vậy, đây là những dữ liệu được nhóm lại, hãy xem stats.stackexchange.com/questions/26950/iêu
Stéphane Laurent

2
Có toàn bộ lĩnh vực, "hóa học", dành cho chủ đề này và các chủ đề liên quan, và toàn bộ sách đã được viết (và tiếp tục được viết) chỉ liên quan đến "giới hạn phát hiện" là gì. Tôi đã gặp hơn 20 định nghĩa riêng biệt! Vấn đề thể hiện lại một biến (chẳng hạn như lấy logarit của nó) cũng là một vấn đề quan trọng trong phân tích dữ liệu và khám phá dữ liệu; phần lớn của nhiều cuốn sách (đặc biệt là sách về phân tích dữ liệu khám phá) tập trung vào vấn đề đó.
whuber

5

@miura

Tôi đã xem bài viết này của Bill Gould trên blog Stata (tôi nghĩ rằng ông thực sự thành lập Stata) mà tôi nghĩ có thể cung cấp trợ giúp cho phân tích của bạn. Gần cuối bài viết, ông cảnh báo việc sử dụng các số tùy ý gần bằng 0, chẳng hạn như 0,01, 0,0001, 0,0000001 và 0 vì trong nhật ký, chúng là -4,61, -9,21, -16,12 và . Trong tình huống này họ không độc đoán chút nào. Ông khuyên nên sử dụng hồi quy Poisson vì nó nhận ra rằng con số trên thực sự gần nhau.


3

Bạn có thể đặt các số không của biến thành trong đó đủ lớn để phân biệt các trường hợp này với phần còn lại (ví dụ: 6 hoặc 10).ithmean(xi)n×stddev(xi)n

Lưu ý rằng bất kỳ thiết lập nhân tạo nào như vậy sẽ ảnh hưởng đến các phân tích của bạn, vì vậy bạn nên cẩn thận với diễn giải của mình và trong một số trường hợp loại bỏ các trường hợp này để tránh tạo tác.

Sử dụng giới hạn phát hiện cũng là một ý tưởng hợp lý.


3

Để làm rõ cách xử lý nhật ký bằng 0 trong các mô hình hồi quy, chúng tôi đã viết một bài báo sư phạm giải thích giải pháp tốt nhất và những sai lầm phổ biến mà mọi người mắc phải trong thực tế. Chúng tôi cũng đã đưa ra một giải pháp mới để giải quyết vấn đề này.

Bạn có thể tìm thấy bài báo bằng cách nhấn vào đây: https://ssrn.com/abab=3444996

Đầu tiên, chúng tôi nghĩ rằng những người nên tự hỏi tại sao sử dụng một chuyển đổi nhật ký. Trong các mô hình hồi quy, mối quan hệ log-log dẫn đến việc xác định độ co giãn. Thật vậy, nếu , thì tương ứng với độ co giãn của với . Nhật ký cũng có thể tuyến tính hóa một mô hình lý thuyết. Nó cũng có thể được sử dụng để làm giảm tính không đồng nhất. Tuy nhiên, trong thực tế, thường xảy ra biến được lấy trong nhật ký chứa các giá trị không dương.log(y)=βlog(x)+εβyx

Một giải pháp thường được đề xuất bao gồm thêm hằng số dương c vào tất cả các quan sát sao cho . Tuy nhiên, trái với hồi quy tuyến tính, hồi quy log-linear không mạnh mẽ để chuyển đổi tuyến tính của biến phụ thuộc. Điều này là do bản chất phi tuyến tính của hàm log. Chuyển đổi log mở rộng các giá trị thấp và ép các giá trị cao. Do đó, việc thêm một hằng số sẽ làm biến dạng mối quan hệ (tuyến tính) giữa các số 0 và các quan sát khác trong dữ liệu. Độ lớn của sai lệch được tạo bởi hằng số thực sự phụ thuộc vào phạm vi quan sát trong dữ liệu. Vì lý do đó, việc thêm hằng số nhỏ nhất có thể không nhất thiết là giải pháp tồi tệ nhất.YY+c>0

Trong bài viết của chúng tôi, chúng tôi thực sự cung cấp một ví dụ trong đó việc thêm các hằng số rất nhỏ thực sự mang lại độ lệch cao nhất. Chúng tôi cung cấp dẫn xuất một biểu hiện của sự thiên vị.

Trên thực tế, Poisson Pseudo Maximum Likabilities (PPML) có thể được coi là một giải pháp tốt cho vấn đề này. Người ta phải xem xét quá trình sau đây:

yi=aiexp(α+xiβ) vớiE(ai|xi)=1

Quá trình này được thúc đẩy bởi một số tính năng. Đầu tiên, nó cung cấp cách hiểu tương tự cho như một mô hình bán nhật ký. Thứ hai, quá trình tạo dữ liệu này cung cấp hợp lý hóa các giá trị 0 trong biến phụ thuộc. Tình huống này có thể phát sinh khi thuật ngữ lỗi nhân, , bằng 0. Thứ ba, ước tính mô hình này với PPML không gặp phải khó khăn tính toán khi . Theo giả định rằng , chúng ta có . Chúng tôi muốn giảm thiểu lỗi bậc hai của thời điểm này, dẫn đến các điều kiện đặt hàng đầu tiên sau:βaiyi=0E(ai|xi)=1E(yiexp(α+xiβ)|xi)=0

i=1N(yiexp(α+xiβ))xi=0

Những điều kiện này được xác định ngay cả khi . Các điều kiện đặt hàng đầu tiên này tương đương về mặt số lượng với các điều kiện của mô hình Poisson, do đó, nó có thể được ước tính bằng bất kỳ phần mềm thống kê tiêu chuẩn nào.yi=0

Cuối cùng, chúng tôi đề xuất một giải pháp mới cũng dễ thực hiện và cung cấp công cụ ước tính không thiên vị của . Một cách đơn giản chỉ cần ước tính:β

log(yi+exp(α+xiβ))=xiβ+ηi

Chúng tôi cho thấy rằng công cụ ước tính này không thiên vị và nó có thể được ước tính đơn giản bằng GMM với bất kỳ phần mềm thống kê tiêu chuẩn nào. Chẳng hạn, nó có thể được ước tính bằng cách thực thi chỉ một dòng mã với Stata.

Chúng tôi hy vọng rằng bài viết này có thể giúp đỡ và chúng tôi muốn nhận phản hồi từ bạn.

Barshe Bellégo và Louis-Daniel Pape, CREST - Ecole Polytechnique - ENSAE

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.