Làm thế nào để mô hình giá?

15

Tôi đã hỏi câu hỏi này trên trang web stackexchange của mHRathics và được đề nghị hỏi ở đây.

Tôi đang làm việc trong một dự án sở thích và sẽ cần một số trợ giúp với vấn đề sau.

Một chút bối cảnh

Giả sử có một bộ sưu tập các mặt hàng với một mô tả về các tính năng và giá cả. Hãy tưởng tượng một danh sách các xe và giá cả. Tất cả các xe ô tô đều có một danh sách các tính năng, ví dụ như kích thước động cơ, màu sắc, sức ngựa, mô hình, năm, v.v ... Đối với mỗi sản phẩm, một cái gì đó như thế này:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

Đi xa hơn nữa, danh sách những chiếc xe có giá được công bố với một khoảng thời gian có nghĩa là chúng ta có quyền truy cập vào dữ liệu giá lịch sử. Có thể không phải luôn luôn bao gồm chính xác những chiếc xe giống nhau.

Vấn đề

Tôi muốn hiểu làm thế nào để mô hình giá cho bất kỳ chiếc xe nào dựa trên thông tin cơ sở này, quan trọng nhất là những chiếc xe không có trong danh sách ban đầu.

Ford, v6, red, automatic, 130hp, 2009

Đối với chiếc xe trên, nó gần giống như một chiếc trong danh sách, chỉ khác một chút về sức ngựa và năm. Để định giá cái này, cái gì là cần thiết?

Những gì tôi đang tìm kiếm là một cái gì đó thiết thực và đơn giản, nhưng tôi cũng muốn nghe về những cách tiếp cận phức tạp hơn làm thế nào để mô hình hóa một cái gì đó như thế này.

Những gì tôi đã thử

Đây là những gì tôi đã thử nghiệm cho đến nay:

1) sử dụng dữ liệu lịch sử để tra cứu xe X. Nếu không tìm thấy, không có giá. Điều này tất nhiên là rất hạn chế và người ta chỉ có thể sử dụng điều này kết hợp với sự phân rã thời gian để thay đổi giá cho những chiếc xe đã biết theo thời gian.

2) sử dụng sơ đồ tính năng cân bằng ô tô cùng với một mẫu xe có giá. Về cơ bản là có một mức giá cơ bản và các tính năng chỉ thay đổi điều đó với một số yếu tố. Dựa trên điều này, bất kỳ giá xe nào cũng được tính.

Điều thứ nhất được chứng minh là không đủ và lần thứ hai chứng tỏ không phải lúc nào cũng đúng và tôi có thể không có cách tiếp cận tốt nhất để sử dụng trọng số. Điều này cũng có vẻ hơi nặng nề trong việc duy trì trọng lượng, vì vậy đó là lý do tại sao tôi nghĩ có thể có một số cách để sử dụng dữ liệu lịch sử làm thống kê theo một cách nào đó để có được trọng lượng hoặc để có được thứ khác. Tôi chỉ không biết bắt đầu từ đâu.

Các khía cạnh quan trọng khác

tích hợp vào một số dự án phần mềm tôi có. Hoặc bằng cách sử dụng các thư viện hiện có hoặc tự viết thuật toán.
tính toán nhanh khi dữ liệu lịch sử mới xuất hiện.

Bất kỳ đề xuất làm thế nào một vấn đề như thế này có thể được tiếp cận? Tất cả các ý tưởng đều được chào đón nhiều hơn.

Cảm ơn rất nhiều trước và mong được đọc những gợi ý của bạn!

regression forecasting econometrics

— murrekatt
nguồn

11

"Thực tế" và "đơn giản" đề xuất hồi quy bình phương tối thiểu . Dễ cài đặt, dễ thực hiện với nhiều phần mềm (R, Excel, Mathicala, bất kỳ gói thống kê nào ), dễ hiểu và có thể được mở rộng theo nhiều cách tùy thuộc vào mức độ chính xác của bạn và mức độ khó của bạn sẵn sàng làm việc

Cách tiếp cận này về cơ bản là "sơ đồ trọng số" của bạn (2), nhưng nó dễ dàng tìm thấy các trọng số, đảm bảo độ chính xác nhất có thể, và dễ dàng và nhanh chóng để cập nhật. Có rất nhiều thư viện để thực hiện các phép tính bình phương tối thiểu.

Nó sẽ giúp bao gồm không chỉ các biến bạn đã liệt kê - loại động cơ, công suất, v.v. - mà còn cả tuổi của xe. Hơn nữa, đảm bảo điều chỉnh giá cho lạm phát.

— whuber
nguồn

Đã bán! Nghe có vẻ chính xác những gì tôi đang tìm kiếm! Vì tôi hoàn toàn mới với điều này nên tôi gặp khó khăn khi so sánh các đề xuất, vì vậy tôi tự hỏi làm thế nào hồi quy bình phương tối thiểu sẽ so với hồi quy bội và "giá hedonic". Đây là những gợi ý tôi nhận được trong trang web toán học nơi tôi ban đầu đăng. Tôi đang sửa cái gì khi sử dụng hồi quy bình phương tối thiểu chẳng hạn? Về cơ bản, có điều gì tôi cần lưu ý khi sử dụng phương pháp này không?

— murrekatt

cũng cảm ơn vì lời đề nghị này. Có vẻ rất tốt. Tôi sẽ phải đọc thêm để có ý tưởng làm thế nào tôi có thể bắt đầu để xem cách sử dụng nó.

— murrekatt

3

Tôi muốn thừa nhận và bày tỏ sự đồng ý của tôi với những cảnh báo được đăng bởi @mpiktas và @dimitrij celov. Các phân tích về giá cả có thể - và trong nhiều trường hợp nên - phức tạp như các hệ thống kinh tế mà chúng là một phần. Tuy nhiên, do ứng dụng dự định (sở thích) và những hạn chế được báo hiệu rõ ràng trong khả năng lập mô hình thống kê của OP, chúng ta nên đặt giá trị lớn vào tính đơn giản, dễ sử dụng và dễ hiểu. Rõ ràng là ai đó chưa trò chuyện với các ô vuông nhỏ nhất sẽ không nhảy vào ngay và bắt đầu tạo các mô hình kinh tế lượng toàn diện.

— whuber

5

Tôi đồng ý với @whuber, rằng hồi quy tuyến tính là một cách để đi, nhưng phải cẩn thận khi diễn giải kết quả. Vấn đề là trong kinh tế, giá cả luôn liên quan đến nhu cầu. Nếu nhu cầu tăng, giá tăng, nếu nhu cầu giảm, giá giảm. Vì vậy, giá được xác định bởi nhu cầu và trong nhu cầu trở lại được xác định bởi giá cả. Vì vậy, nếu chúng ta mô hình hóa giá như một hồi quy từ một số thuộc tính mà không có nhu cầu thì có một mối nguy hiểm thực sự là các ước tính hồi quy sẽ sai do sai lệch biến bị bỏ qua .

— mpiktas
nguồn

@mpiktas: cảm ơn. Tôi hiểu ý của bạn Đây là điều tôi đã suy nghĩ, nhưng không biết chính xác làm thế nào để hỏi hoặc thêm vào câu hỏi. Làm thế nào để một người đối phó với những gì bạn giải thích? Đây có phải là một vấn đề riêng biệt và khi bạn viết sẽ được tính đến khi giải thích kết quả, hay điều này được tích hợp trong một số phương pháp khác và không phải là một phần của hồi quy bình phương tối thiểu? Không chắc chắn làm thế nào để hình thành bản thân mình, nhưng điều tôi muốn nói là có những cách tiếp cận nào có tính đến điều này và những cách khác không? Điều đó có nghĩa là đối với "không" chúng ta phải giải thích kết quả?

— murrekatt

3

@murekatt, nếu bạn không có thêm dữ liệu theo yêu cầu, nhưng bạn cần mô hình về giá cả, bạn giải quyết vấn đề này bằng cách chăm sóc thêm. Điều này có nghĩa là ít chú ý đến ý nghĩa thống kê của các hệ số, nhưng chú ý nhiều hơn đến hiệu suất dự báo. Essentialy điều này có nghĩa là coi hồi quy là hộp đen và sử dụng hiệu suất dự báo mô hình làm thước đo hiệu lực của mô hình. Điều này có nghĩa là sử dụng xác thực chéo, phân chia dữ liệu để đào tạo và kiểm tra các mẫu, v.v.

— mpiktas

@mpiktas: bạn có ý nghĩa gì với "dữ liệu bổ sung"? Bạn có thể vui lòng cho một ví dụ về điều này trong bối cảnh xe hơi?

— murrekatt

1

@murrekatt, hãy xem phần cuối của câu trả lời của Dmitrij. Dữ liệu nhu cầu rất quan trọng, vì vậy nếu bạn có bao nhiêu chiếc xe được bán với mức giá nhất định, điều này sẽ giúp ích rất nhiều. Furthemore nếu bạn có dữ liệu về cách thay đổi giá cho chiếc xe nhất định với các thuộc tính cố định, điều này cũng sẽ được phản ánh trong mô hình của bạn

— mpiktas

1

@murekatt, về nguyên tắc thì có. Tôi nghĩ bạn cần bắt đầu nhỏ và thêm các tính năng bổ sung sau. Các kết quả ban đầu sẽ cho bạn biết hướng nào để đi xa hơn.

— mpiktas

4

Những gì tôi đang tìm kiếm là một cái gì đó thiết thực và đơn giản, nhưng tôi cũng muốn nghe về những cách tiếp cận phức tạp hơn làm thế nào để mô hình hóa một cái gì đó như thế này.

Sau một vài cuộc thảo luận, đây là quan điểm đầy đủ của tôi về những điều

Vấn đề

Mục đích: để hiểu làm thế nào để định giá những chiếc xe một cách tốt hơn

Bối cảnh: trong quá trình quyết định của họ, mọi người giải quyết một số câu hỏi: tôi có cần xe hơi không, nếu tôi làm, tôi thích thuộc tính nào nhất (bao gồm giá cả, bởi vì, hợp lý, tôi muốn có một chiếc xe có tỷ lệ chất lượng / giá tốt nhất) , so sánh số lượng thuộc tính giữa các xe khác nhau và chọn định giá chúng cùng nhau .

Từ vị trí người bán, tôi muốn đặt giá càng cao càng tốt, và bán xe càng nhanh càng tốt. Vì vậy, nếu tôi đặt giá quá cao và chờ đợi trong nhiều tháng, nó có thể được coi là không có nhu cầu trên thị trường và được đánh dấu bằng 0 so với các bộ thuộc tính rất đòi hỏi.

Quan sát: các giao dịch thực sự liên quan đến các thuộc tính của một chiếc xe cụ thể với giá được đặt trong quá trình thương lượng (liên quan đến nhận xét trước đó, điều quan trọng là phải biết mất bao lâu để thiết lập thỏa thuận).

Ưu điểm: bạn quan sát những thứ thực sự được mua trên thị trường, vì vậy bạn không đoán được liệu có tồn tại một người có giá đặt phòng đủ cao muốn mua một chiếc xe cụ thể không

Nhược điểm:

Giả định của bạn là thị trường hiệu quả, có nghĩa là giá bạn quan sát gần với mức cân bằng
bạn bỏ qua các biến thể của các thuộc tính xe hơi không được mua hoặc mất quá nhiều thời gian để đặt thỏa thuận, nghĩa là hiểu biết của bạn bị sai lệch , vì vậy bạn thực sự làm việc với các mô hình biến tiềm ẩn
Quan sát dữ liệu trong một thời gian dài, bạn cần phải xì hơi chúng, mặc dù việc bao gồm tuổi xe hơi phần nào bù đắp điều này.

Phương pháp giải

Cái đầu tiên, như được đề xuất bởi whuber, là mô hình hồi quy bình phương nhỏ nhất cổ điển

Ưu điểm:

thực sự là giải pháp đơn giản nhất vì nó là con ngựa của kinh tế lượng

Nhược điểm:

bỏ qua việc bạn quan sát những thứ không hoàn chỉnh ( các biến tiềm ẩn )
đóng vai trò là các biến hồi quy là độc lập với nhau, vì vậy mô hình cơ bản bỏ qua thực tế là bạn có thể thích Ford màu xanh khác với màu xanh của Mercedes , nhưng nó không phải là tổng ảnh hưởng cận biên đến từ màu xanh và Ford

Trong trường hợp hồi quy cổ điển, vì bạn không bị giới hạn ở mức độ tự do, nên thử các thuật ngữ tương tác khác nhau.

Do đó, giải pháp phức tạp hơn sẽ là mô hình quỹ đạo hoặc mô hình Heckman , bạn có thể muốn tham khảo AC Cameron và PK Trivingi Microeconometrics: phương pháp và ứng dụng để biết thêm chi tiết về các phương pháp cốt lõi.

Ưu điểm:

bạn tách biệt thực tế là mọi người có thể không thích một số bộ thuộc tính hoặc một số bộ thuộc tính có xác suất nhỏ được mua từ cài đặt giá thực tế
kết quả của bạn không bị sai lệch (hoặc ít nhất là ít hơn trong trường hợp đầu tiên)
trong trường hợp của Heckman, bạn tách biệt các lý do thúc đẩy mua chiếc xe cụ thể khỏi quyết định giá của tôi muốn trả bao nhiêu cho chiếc xe này: lý do thứ nhất bị ảnh hưởng bởi sở thích cá nhân, lý do thứ hai do ràng buộc ngân sách

Nhược điểm:

Cả hai mô hình đều tham lam dữ liệu hơn , tức là chúng ta cần quan sát khoảng thời gian giữa câu hỏi và giá thầu để cân bằng (nếu nó khá ngắn đặt 1, khác 0) hoặc để quan sát các bộ bị thị trường bỏ qua

Và cuối cùng, nếu bạn chỉ quan tâm đến việc giá cả ảnh hưởng đến xác suất được mua như thế nào, bạn có thể làm việc với một số loại mô hình logit .

Chúng tôi đồng ý rằng phân tích liên hợp không phù hợp ở đây, vì bạn có bối cảnh và quan sát khác nhau.

Chúc may mắn.

— Dmitrij Celov
nguồn

Chính xác làm thế nào bạn sẽ áp dụng một mô hình logit đa quốc gia, có biến phụ thuộc là phân loại, với giá cả, không phân loại?

— whuber

@Dmitrij Celov: Cảm ơn lời đề nghị của bạn. Tôi sẽ cố gắng trả lời câu hỏi của bạn. 1) Không có giá, đây là điều chưa biết mà tôi muốn trả lời bằng cách nhìn vào những chiếc xe tương tự. 2) Tôi không biết biến nào nặng nhất - điều này tôi hy vọng có được. 3) Tôi muốn dựa trên danh sách những chiếc xe có tính năng và giá cả có thể định giá bất kỳ chiếc xe nào với bất kỳ tính năng nào.

— murrekatt

K_{j} - 1

$K_j - 1$

j

$j$

1

$1$

0

$0$

P (y_{i} = 1 | y_{j} = 0) = \frac{1}{1 + e^{- β^{'} (X_{i} - X_{j})}}

$P(y_i = 1| y_j = 0) = \frac{1}{1 + e^{-\beta^\prime (X_i-X_j)}}$

y_{i}

$y_i$

y_{j}

$y_j$

@murrekatt: 1) Vì vậy, bạn chỉ cần tìm các thuộc tính "có giá trị" nhất? 2) Các tham số ước tính của Logit được diễn giải độc đáo như tỷ lệ cược và tỷ lệ cược, nhưng logit đa phương có một tính năng yếu được gọi là độc lập với các lựa chọn không liên quan 3) Bạn có thể chắc chắn rằng giá niêm yết có liên quan không, tức là những chiếc xe đã được mua? @whuber: hồi quy đơn giản hoạt động tốt ở đây, nếu phụ thuộc là giá, nhưng giá lại thì sao? Xuất bản ở đâu? hoặc đó là giao dịch Actuall?

— Dmitrij Celov

2

@Dimitrij Giá không phải là biến độc lập: đó là biến phụ thuộc : "Tôi muốn hiểu cách mô hình giá cho bất kỳ chiếc xe nào dựa trên thông tin cơ sở này." Tôi sợ rằng với sự hiểu lầm này, bạn có thể đang dùng @murrekatt rất xa.

— whuber

4

Có vẻ như tôi cũng gặp phải vấn đề hồi quy tuyến tính, nhưng với KNN, hàng xóm gần nhất thì sao . Bạn có thể đưa ra một công thức khoảng cách giữa mỗi chiếc xe và tính giá là trung bình giữa K (nói 3) gần nhất. Một công thức khoảng cách có thể là eidianidian giống như sự khác biệt về hình trụ cộng với sự khác biệt về cửa, cộng với sự khác biệt về mã lực và vân vân.

Nếu bạn đi với hồi quy tuyến tính, tôi sẽ đề xuất một vài điều:

Quy mô giá trị đồng đô la cho đến ngày nay để tính đến lạm phát.
Chia dữ liệu của bạn thành các kỷ nguyên. Tôi cá là bạn sẽ thấy bạn sẽ cần một mô hình cho pre ww2 và đăng ww2 chẳng hạn. Đây chỉ là một linh cảm.
Xác nhận chéo mô hình của bạn để tránh phù hợp hơn. Chia dữ liệu của bạn thành 5 khối. Đào tạo trên 4 và lật mô hình trên chunk thứ 5. Tổng hợp các lỗi, rửa sạch, lặp lại cho các khối khác.

Một ý tưởng khác là tạo ra một sự lai tạo giữa các mô hình. Sử dụng regresion và KNN cả dưới dạng datapoint và tạo giá cuối cùng dưới dạng trung bình có trọng số hoặc thứ gì đó.

— người lùn
nguồn

3

Bên cạnh những gì đã được nói, và không thực sự khác biệt với một số gợi ý đã được đưa ra, bạn có thể muốn xem qua tài liệu rộng lớn về các mô hình định giá hedonic . Những gì nó sôi nổi là một mô hình hồi quy cố gắng giải thích giá của hàng hóa tổng hợp là một hàm của các thuộc tính của nó.

Điều này sẽ cho phép bạn định giá một chiếc xe biết các thuộc tính của nó (sức ngựa, kích thước, thương hiệu, v.v.), ngay cả khi một hỗn hợp thuộc tính chính xác tương tự không có trong mẫu của bạn. Đó là một cách tiếp cận rất phổ biến để định giá các tài sản cơ bản không thể sao chép - giống như các tài sản nhà nước thực. Nếu bạn Google cho "mô hình hedonic", bạn sẽ tìm thấy nhiều tài liệu tham khảo và ví dụ.

— F. Tusell
nguồn

@F. Tusell: đó là một mô tả hay. Tôi đã đánh đố điều này với nhau từ các bài viết khác, nhưng điều này tóm tắt những điều tốt cho một người mới bắt đầu như tôi.

— murrekatt