Tôi muốn điều tra hành vi thiết lập giá của các hãng hàng không - cụ thể là cách các hãng hàng không phản ứng với giá của đối thủ cạnh tranh.
Như tôi muốn nói kiến thức của tôi về phân tích phức tạp hơn khá hạn chế, tôi đã thực hiện hầu hết tất cả các phương pháp cơ bản để thu thập một cái nhìn tổng thể về dữ liệu. Điều này bao gồm các biểu đồ đơn giản đã giúp xác định các mẫu tương tự. Tôi cũng đang sử dụng SAS Enterprise 9.4.
Tuy nhiên tôi đang tìm kiếm một cách tiếp cận dựa trên số lượng nhiều hơn.
Tập dữ liệu
Tập dữ liệu (tự) được thu thập tôi đang sử dụng chứa khoảng ~ 54.000 giá vé. Tất cả giá vé được thu thập trong một cửa sổ thời gian 60 ngày, trên cơ sở hàng ngày (mỗi đêm lúc 00:00).
Do đó, mọi giá vé trong cửa sổ thời gian đó xảy ra lần tùy thuộc vào sự sẵn có của giá vé cũng như ngày khởi hành của chuyến bay, khi nó được thông qua ngày thu tiền vé. (Bạn không thể thu tiền vé cho chuyến bay khi ngày khởi hành của chuyến bay đã qua)
Các định dạng không được định dạng trông cơ bản như thế này: (dữ liệu giả)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysB BeforeDeparture" được tính thông qua trong đó
- Tôi & khoảng (ngày trước khi khởi hành)
- s & ngày của giá vé (chuyến bay khởi hành)
- c & ngày mà giá vé được thu thập
Dưới đây là ví dụ về dữ liệu được nhóm bởi I (DaysB BeforeDep.) (Dữ liệu giả mạo!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Những gì tôi đã đưa ra cho đến nay
Nhìn vào biểu đồ đường tôi đã có thể ước tính rằng một số dòng sẽ có hệ số tương quan cao. Do đó, tôi đã cố gắng sử dụng phân tích tương quan trước tiên trên dữ liệu được nhóm. Nhưng đó có phải là cách chính xác? Về cơ bản, tôi cố gắng bây giờ để thực hiện các mối tương quan trên mức trung bình thay vì giá cá nhân? Có cách nào khác không?
Tôi không chắc mô hình hồi quy nào phù hợp ở đây, vì giá không di chuyển ở bất kỳ dạng tuyến tính nào và xuất hiện phi tuyến tính. Tôi có cần phải phù hợp với một mô hình cho từng diễn biến giá của một hãng hàng không
PS: Đây là một bức tường văn bản dài. Nếu tôi cần làm rõ bất cứ điều gì cho tôi biết. Tôi mới đến phụ này.
Có ai là đầu mối không? :-)