Làm thống kê chính xác trong một môi trường làm việc?


20

Tôi không chắc câu hỏi này thuộc về đâu: Xác thực chéo hoặc Nơi làm việc. Nhưng câu hỏi của tôi mơ hồ liên quan đến số liệu thống kê.

Câu hỏi này (hoặc tôi đoán câu hỏi) nảy sinh trong quá trình tôi làm "thực tập khoa học dữ liệu". Tôi đã xây dựng mô hình hồi quy tuyến tính này và kiểm tra lô dư. Tôi thấy dấu hiệu rõ ràng của sự không đồng nhất. Tôi nhớ rằng tính không đồng nhất làm biến dạng nhiều thống kê kiểm tra như khoảng tin cậy và kiểm tra t. Vì vậy, tôi đã sử dụng bình phương tối thiểu trọng số, theo những gì tôi đã học được ở trường đại học. Người quản lý của tôi đã nhìn thấy điều đó và khuyên tôi đừng làm điều đó bởi vì "tôi đang làm mọi thứ trở nên phức tạp", đó không phải là một lý do rất thuyết phục đối với tôi.

Một ví dụ khác là "loại bỏ một biến giải thích vì giá trị p của nó là không đáng kể". Để được, lời khuyên này chỉ không có ý nghĩa từ quan điểm logic. Theo những gì tôi đã học được, giá trị p không đáng kể có thể do các lý do khác nhau: cơ hội, sử dụng mô hình sai, vi phạm các giả định, v.v.

Một ví dụ khác là, tôi đã sử dụng xác nhận chéo k-Fold để đánh giá mô hình của mình. Theo kết quả, chỉ tốt hơn . Nhưng chúng tôi có thấp hơn cho mô hình 1 và lý do có liên quan đến việc đánh chặn . Tuy nhiên, người giám sát của tôi dường như thích mô hình 2 hơn vì nó có cao hơn . Lý do của anh ấy (chẳng hạn như là mạnh mẽ, hoặc xác nhận chéo là phương pháp học máy chứ không phải phương pháp thống kê) dường như không đủ sức thuyết phục để thay đổi suy nghĩ của tôi.CVmodel1CVmodel2R2R2R2

Là một người vừa tốt nghiệp đại học, tôi rất bối rối. Tôi rất say mê áp dụng số liệu thống kê chính xác để giải quyết các vấn đề trong thế giới thực, nhưng tôi không biết điều nào sau đây là đúng:

  1. Các số liệu thống kê tôi tự học là sai, vì vậy tôi chỉ đang phạm sai lầm.
  2. Có sự khác biệt rất lớn giữa thống kê lý thuyết và mô hình xây dựng trong các công ty. Và mặc dù lý thuyết thống kê là đúng, mọi người chỉ không tuân theo nó.
  3. Người quản lý không sử dụng số liệu thống kê chính xác.

Cập nhật vào ngày 17 tháng 4 năm 2017: Tôi đã quyết định theo đuổi bằng tiến sĩ. trong thống kê. Cảm ơn tất cả các bạn đã trả lời.


1
Liên quan đến câu hỏi của bạn là các bình luận (đặc biệt là những câu ở cuối) bên dưới câu trả lời này: stats.stackexchange.com/questions/229193/ Kẻ

Thảo luận này cũng có thể có liên quan . Trong thực tế, đôi khi bạn có thể sử dụng các mô hình trong đó dữ liệu của bạn vi phạm một số giả định bắt buộc (ví dụ: Naive Bayes trên các biến phụ thuộc) và vẫn có kết quả thú vị. Nhưng sau đó bạn phải rất cẩn thận về kết luận bạn rút ra và đó là vấn đề chính: hầu hết mọi người không quan tâm đến ý nghĩa của kết quả của bạn miễn là bạn nhận được kết quả. Xuất bản hoặc diệt vong ...
gabious

1
Câu trả lời "bạn đúng và anh ấy sai" có lẽ đúng và áp dụng cho trường hợp của bạn. Dù sao, hãy cẩn thận rằng đôi khi câu trả lời có thể là "anh ta sai nhưng cách làm việc sai trái của anh ta cho mục đích của anh ta - có thể nó hoạt động thậm chí còn tốt hơn cách đúng đắn sẽ làm cho mục đích kinh doanh phi thống kê của anh ta". Tôi nghĩ rằng điều đó xảy ra thường xuyên với tất cả các loại kiến ​​thức khoa học, không chỉ thống kê. Có thể trong SE Workplace họ có thể cung cấp cho bạn các ví dụ không thống kê.
Pere

3
@Aksakal: Từ những gì OP mô tả về mặt thống kê , anh ta có nhiều khả năng đúng. Giai thoại cá nhân của bạn, chỉ là một giai thoại. Tôi có thể chống lại nó bằng cách nói rằng tôi đã chuyển sang một công việc trong đó thử nghiệm A / B sẽ được thực hiện chỉ với 30 mẫu; hiển thị các tính toán sức mạnh cơ bản đã thay đổi toàn bộ suy nghĩ của các đội về kích thước mẫu và ra quyết định. Quay trở lại câu hỏi của OP, tôi đồng ý rằng những gì được mô tả không có nghĩa là người giám sát của OP đã thực hiện một cuộc gọi sai. Quy trình công việc có một quán tính đặc biệt liên quan đến họ và "anh chàng mới" phải chứng tỏ mình là một nhà thuyết giáo trước khi trở thành một nhà tiên tri ...
usεr11852 nói rằng Rebstate Monic

1
@ usεr11852, nhận xét của tôi là một lời ca ngợi :) nhưng nó có một điểm, tôi nghĩ: đối với một người mới tham gia vào lĩnh vực này, sẽ an toàn hơn khi cho rằng ông chủ biết rõ hơn. với kinh nghiệm anh ta có thể nới lỏng giả định này, có thể cân nhắc nhiều hơn với ý kiến ​​của riêng anh ta và ít hơn cho ông chủ '. đối với một thực tập sinh, trọng số theo ý kiến ​​riêng phải gần với số KHÔNG.
Aksakal

Câu trả lời:


12

Tóm lại, bạn đúng và anh ấy sai. Bi kịch của phân tích dữ liệu là rất nhiều người làm điều đó, nhưng chỉ một số ít người làm tốt, một phần do giáo dục yếu về phân tích dữ liệu và một phần do sự thờ ơ. Hãy chú ý đến hầu hết mọi bài báo nghiên cứu đã xuất bản không có chuyên gia thống kê hoặc chuyên gia về máy học trong danh sách tác giả và bạn sẽ nhanh chóng phát hiện ra những sai lầm cơ bản như diễn giải giá trị là xác suất giả thuyết null là đúng .p

Tôi nghĩ rằng điều duy nhất cần làm, khi đối mặt với loại tình huống này, là giải thích cẩn thận những gì sai về thực tiễn sai lầm, với một hoặc hai ví dụ.


3
Cảm ơn vi đa trả lơi. Tôi đoán một "câu hỏi tiếp theo" là, có công việc nào ngoài đó thực sự làm thống kê chính xác không? Tôi hiểu rằng khoa học dữ liệu rất phổ biến hiện nay, nhưng bằng cách nào đó tôi có ấn tượng rằng nhiều "nhà khoa học dữ liệu" không thực sự quan tâm đến việc thống kê chính xác ...
3x89g2

1
@Misakov Tôi nghĩ nó thực sự phụ thuộc vào người hoặc tổ chức. Nhưng những từ thông dụng như "khoa học dữ liệu", "phân tích" và "trí tuệ kinh doanh" là những lá cờ đỏ. Và đừng quên rằng trong một cuộc phỏng vấn xin việc, bạn cũng đang phỏng vấn họ. Nó không chỉ làm cho bạn. Nhìn tốt để đặt câu hỏi chi tiết về cách mọi thứ được thực hiện; nó cho phép bạn thấy họ nghiêm túc như thế nào về phân tích dữ liệu.
Kodiologist

@Misakov Có lẽ bạn cần phải vào học viện nếu bạn thực sự muốn thống kê chính xác. Đại đa số (xem câu trả lời của tôi ở trên) sử dụng công nghiệp sẽ sai.
Mooks

R2

1
@ usεr11852 Một người quản lý tốt (tức là không có đầu óc) sẽ trì hoãn nhân viên khi họ biết rõ hơn anh ta. "Cho rằng doanh nghiệp vẫn tồn tại các quyết định của người quản lý không quá sai lầm " - Cuộc đua không phải là nhanh chóng.
Kodiologist

11

Kodiologist đúng - bạn đúng, anh ấy sai. Tuy nhiên, thật đáng buồn khi đây là một vấn đề thậm chí phổ biến hơn so với những gì bạn gặp phải. Bạn thực sự đang ở trong một ngành công nghiệp đang làm tương đối tốt.

memộtn+3*σ

Bây giờ, ngoài thực tế là khoảng tin cậy này không cho họ biết họ thực sự cần gì (họ cần một khoảng dung sai cho điều đó), điều này được thực hiện một cách mù quáng trên các tham số đang lơ lửng gần một giá trị tối đa hoặc tối thiểu (nhưng trong đó khoảng đó giành được ' t thực sự vượt quá các giá trị đó). Bởi vì Excel sẽ tính toán những gì họ cần (vâng, tôi đã nói Excel), họ đặt thông số kỹ thuật của họ theo đó, mặc dù thực tế là tham số sẽ không được phân phối ở bất cứ đâu gần bình thường. Những người này đã được dạy các số liệu thống kê cơ bản, nhưng không phải là các lô qq hay đại loại như thế. Một trong những vấn đề lớn nhất là số liệu thống kê sẽ cung cấp cho bạn một con số, ngay cả khi được sử dụng không phù hợp - vì vậy hầu hết mọi người không biết khi nào họ đã làm như vậy.

Nói cách khác, các thông số kỹ thuật trên đại đa số các sản phẩm, trong đại đa số các ngành công nghiệp, là vô nghĩa.

Một trong những ví dụ tồi tệ nhất mà tôi có về những người mù quáng theo số liệu thống kê, mà không hiểu gì, là sử dụng Cpk trong ngành công nghiệp ô tô. Một công ty đã dành khoảng một năm để tranh cãi về một sản phẩm với nhà cung cấp của họ, bởi vì họ nghĩ rằng nhà cung cấp có thể kiểm soát sản phẩm của họ đến một mức độ đơn giản là không thể. Họ chỉ đặt một thông số tối đa (không tối thiểu) cho một tham số và đã sử dụng Cpk để biện minh cho yêu cầu của mình - cho đến khi chỉ ra rằng các tính toán của họ (khi được sử dụng để đặt mức tối thiểu theo lý thuyết - họ không muốn điều đó không được kiểm tra ) ngụ ý một giá trị âm lớn. Điều này, trên một tham số không bao giờ có thể đi dưới 0. Cpk giả định bình thường, quá trình không cung cấp bất cứ nơi nào gần dữ liệu bình thường. Phải mất một thời gian dài để có được điều đó để chìm vào. Tất cả những điều đó đã lãng phí thời gian và tiền bạc vì mọi người đã không ' Tôi không hiểu những gì họ đã tính toán - và nó có thể tệ hơn rất nhiều nếu nó không được chú ý. Đây có thể là một yếu tố góp phần vào lý do tại sao có sự thu hồi thường xuyên trong ngành công nghiệp ô tô!

Tôi, bản thân tôi, đến từ một nền tảng khoa học, và, thẳng thắn, việc giảng dạy thống kê trong khoa học và kỹ thuật là không đủ. Tôi chưa bao giờ nghe về hầu hết những gì tôi cần sử dụng bây giờ - tất cả đều được tự học và có những khoảng trống lớn (so với một thống kê đúng) trong kiến ​​thức của tôi ngay cả bây giờ. Vì lý do đó, tôi không bắt bẻ mọi người lạm dụng số liệu thống kê (có lẽ tôi vẫn làm điều đó thường xuyên), đó là nền giáo dục kém.

Vì vậy, quay trở lại câu hỏi ban đầu của bạn, nó thực sự không dễ dàng. Tôi đồng ý với khuyến nghị của Kodiologist cố gắng giải thích nhẹ nhàng những điều này để sử dụng số liệu thống kê phù hợp. Nhưng , tôi sẽ thêm một lời cảnh báo vào đó và cũng khuyên bạn nên chọn những trận đánh của mình một cách khôn ngoan, vì lợi ích của sự nghiệp.

Thật không may, nhưng thực tế là bạn sẽ không thể khiến mọi người thống kê tốt nhất mọi lúc. Chọn sửa chúng khi nó thực sự quan trọng đối với kết luận chung cuối cùng (đôi khi có nghĩa là thực hiện hai cách khác nhau để kiểm tra). Đôi khi (ví dụ mô hình 1,2 của bạn) trong đó sử dụng cách "sai" có thể dẫn đến kết luận tương tự. Tránh sửa quá nhiều người quá thường xuyên.

Tôi biết rằng đó là sự thất vọng về trí tuệ và thế giới sẽ hoạt động khác đi - thật đáng buồn là nó không. Ở một mức độ nào đó, bạn sẽ phải học cách đánh giá các trận đánh của mình dựa trên tính cách cá nhân của đồng nghiệp. Mục tiêu (sự nghiệp) của bạn là trở thành chuyên gia mà họ tìm đến khi họ thực sự cần sự giúp đỡ, chứ không phải người kén chọn luôn cố gắng sửa sai. Và trên thực tế, nếu bạn trở thành người đó, đó có lẽ là nơi bạn sẽ thành công nhất khi khiến mọi người lắng nghe và làm mọi việc đúng cách. Chúc may mắn.


Excel hoàn toàn có thể là phần mềm phân tích dữ liệu được sử dụng rộng rãi nhất. Không cần nhận xét " vâng, tôi đã nói rồi! " Trừ khi ai đó chưa ra khỏi học viện (và có thể là dược sĩ lớn), anh ta sẽ không để mắt đến tuyên bố ban đầu của bạn. (Câu trả lời hay, +1)
usεr11852 nói Phục hồi Monic

1
Nó được sử dụng rộng rãi nhất, và tôi nghĩ rằng nó làm nổi bật điểm ban đầu của tôi. Excel có thiếu sót rất lớn để phân tích dữ liệu. Nếu những gì bạn đang làm đang được thực hiện trên Excel, bạn thực sự không thể gọi đó là phân tích dữ liệu - trừ khi bạn tự nhập tất cả các phép tính. Không có gì chống lại Excel như một bảng tính, nhưng tốt nhất nó là một công cụ phân tích dữ liệu thô sơ. Nhưng mọi người không biết gì hơn, vì họ không được dạy tốt hơn. Tôi không đến từ nền tảng thống kê, nhưng tôi đã may mắn khi ai đó nhắc đến R vì đã tạo ra các biểu đồ tốt hơn - và điều đó, thật trùng hợp, đã đưa tôi vào các số liệu thống kê tốt hơn.
Mooks

"Tôi đồng ý với khuyến nghị của Kodiologist hãy cố gắng giải thích nhẹ nhàng những điều này để sử dụng số liệu thống kê phù hợp." - Tôi muốn trở thành nhân chứng. Một thực tập viên giải thích cho chủ nhân của mình làm thế nào để làm kinh doanh.
Aksakal

1
Điều này sẽ giúp, kiểm tra # 9. Đó là một lời khuyên phổ biến đi kèm trong danh sách này mọi lúc. 100 ngày đầu tiên làm việc: không đề xuất thay đổi mọi thứ, trước tiên hãy tìm hiểu lý do tại sao mọi người đang làm mọi thứ theo cách họ đang làm, thường thì có một lý do hợp lệ. Bạn sẽ tự đánh lừa mình và tôi đã thấy điều này xảy ra với những người mới hết lần này đến lần khác. Chỉ cần im lặng và quan sát trong vài tháng
Aksakal

@Aksakal Những gì bạn nói chắc chắn có ý nghĩa. Tôi hành động hơi "táo bạo" trong tình huống của mình chủ yếu là vì tôi là thực tập sinh và tôi biết dù sao tôi cũng sẽ rời đi khá sớm.
3x89g2

3

Những gì được mô tả xuất hiện như một kinh nghiệm hơi xấu. Tuy nhiên, đó không phải là điều khiến người ta phải đặt câu hỏi ngay lập tức về nền tảng giáo dục cũng như phán đoán thống kê của người giám sát / quản lý của họ.

R2công việc, thay vì hành vi tiệm cận ở đâu đó trong tương lai, không có nhiều ý nghĩa. Mọi người sẽ miễn cưỡng chấp nhận nó; Tại sao phải tiêu tốn năng lượng để thay đổi khi mọi thứ (phần nào) hoạt động? Người quản lý của bạn không nhất thiết sai từ góc độ kinh doanh. Ông chịu trách nhiệm về thống kê cũng như các quyết định kinh doanh của bộ phận của bạn; những quyết định đó không nhất thiết phải luôn luôn trùng khớp và hoàn toàn không trùng khớp với các sản phẩm ngắn hạn (hạn chế về thời gian là một yếu tố rất quan trọng trong phân tích dữ liệu công nghiệp).

Lời khuyên của tôi là hãy bám vào súng (thống kê) của bạn nhưng hãy cởi mở với những gì mọi người làm, kiên nhẫn với những người có thể tách ra khỏi thực tiễn thống kê mới và đưa ra lời khuyên / ý kiến khi được hỏi , phát triển một làn da dày hơn và học hỏi từ môi trường của bạn. Nếu bạn đang làm đúng công cụ, điều này sẽ từ từ hiển thị, mọi người sẽ muốn ý kiến ​​của bạn vì họ sẽ nhận ra bạn có thể đưa ra giải pháp trong đó quy trình làm việc hiện tại của họ không. Cuối cùng, vâng chắc chắn, nếu sau một khoảng thời gian hợp lý (ít nhất là vài tháng) bạn cảm thấy rằng mình bị mất giá và thiếu tôn trọng chỉ cần tiếp tục.

Không cần phải nói rằng bây giờ bạn đang ở trong ngành, bạn không thể ngồi lại và nghĩ rằng bạn không cần phải trau dồi giáo dục Thống kê. Mô hình dự đoán, chiến lược hồi quy, thuật toán phân cụm chỉ tiếp tục phát triển. Ví dụ, sử dụng hồi quy quy trình Gaussian trong môi trường công nghiệp gần với khoa học viễn tưởng 10 năm trước; bây giờ nó có thể thấy gần giống như một thứ ngoài lề để thử.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.