Kỹ thuật giảm dữ liệu để xác định loại quốc gia


11

Tôi dạy một khóa học địa lý kinh tế nhập môn. Để giúp học sinh của tôi phát triển sự hiểu biết tốt hơn về các loại quốc gia được tìm thấy trong nền kinh tế thế giới đương đại và sự đánh giá cao các kỹ thuật giảm dữ liệu, tôi muốn xây dựng một bài tập tạo ra một kiểu chữ của các loại quốc gia khác nhau (ví dụ: thu nhập cao- giá trị gia tăng mfg tuổi thọ dài, nhà xuất khẩu tài nguyên thiên nhiên thu nhập cao tuổi thọ trung bình cao, với Đức là một yếu tố của loại thứ nhất, và Yemen là một ví dụ của loại thứ hai). Điều này sẽ sử dụng dữ liệu UNDP có sẵn công khai (nếu tôi nhớ chính xác có chứa dữ liệu kinh tế xã hội trên một chút ít hơn 200 quốc gia; xin lỗi, không có dữ liệu khu vực nào khả dụng).

Trước nhiệm vụ này sẽ là một nhiệm vụ khác yêu cầu họ (sử dụng cùng một dữ liệu --- phần lớn khoảng thời gian hoặc tỷ lệ --- dữ liệu) để kiểm tra mối tương quan giữa các biến này.

Hy vọng của tôi là trước tiên họ sẽ phát triển trực giác về các loại mối quan hệ giữa các biến số khác nhau (ví dụ: mối quan hệ tích cực giữa tuổi thọ và [các chỉ số khác nhau] của cải; mối quan hệ tích cực giữa sự giàu có và sự đa dạng xuất khẩu). Sau đó, khi sử dụng kỹ thuật giảm dữ liệu, các thành phần hoặc yếu tố sẽ có ý nghĩa trực quan (ví dụ: yếu tố / thành phần 1 nắm bắt tầm quan trọng của sự giàu có; yếu tố / thành phần 2 nắm bắt tầm quan trọng của giáo dục).

Cho rằng đây là những sinh viên năm thứ hai đến năm thứ tư, thường bị hạn chế tiếp xúc với tư duy phân tích nói chung, kỹ thuật giảm dữ liệu đơn lẻ nào bạn muốn đề xuất là phù hợp nhất cho bài tập thứ hai? Đây là dữ liệu dân số, vì vậy thống kê suy luận (p-vlaues, v.v.) là không thực sự cần thiết.

Câu trả lời:


10

Là một phương pháp thăm dò, PCA là một lựa chọn đầu tiên tốt cho một nhiệm vụ như IMO này. Nó cũng tốt cho họ tiếp xúc với nó; có vẻ như nhiều người trong số họ sẽ không thấy các thành phần chính trước đây.

Về mặt dữ liệu, tôi cũng chỉ cho bạn các Chỉ số của Ngân hàng Thế giới, đã hoàn thiện đáng kể: http://data.worldbank.org/indicator .


5

Tôi đồng ý với JMS và PCA có vẻ như là một ý tưởng tốt sau khi kiểm tra các mối tương quan và phân tán ban đầu giữa các biến cho mỗi quận. Chủ đề này có một số gợi ý hữu ích để giới thiệu PCA theo thuật ngữ phi toán học.

Tôi cũng sẽ đề nghị sử dụng nhiều bản đồ nhỏ để trực quan hóa các phân bố không gian của từng biến (và có một số ví dụ hay trong câu hỏi này trên trang web gis.se). Tôi nghĩ rằng chúng hoạt động đặc biệt tốt nếu bạn có số lượng đơn vị diện tích hạn chế để so sánh và bạn sử dụng bảng màu tốt (như ví dụ này trên blog của Andrew Gelman).

Thật không may, bản chất của bất kỳ bộ dữ liệu "quốc gia thế giới" nào mà tôi nghi ngờ sẽ thường dẫn đến dữ liệu thưa thớt (tức là rất nhiều quốc gia bị mất tích), khiến việc hình dung địa lý trở nên khó khăn. Nhưng các kỹ thuật trực quan như vậy sẽ hữu ích trong các tình huống khác cũng như cho khóa học của bạn.


+1, tài liệu tham khảo tốt đẹp. So sánh bản đồ của các biến với bản đồ của điểm PCA cũng có thể thú vị.
JMS

Liên kết đến phần giới thiệu PCA bằng thuật ngữ phi toán học rất hữu ích, vì nó giúp tôi cảm nhận được sự khác biệt tinh tế giữa PCA và phân tích nhân tố. Các đề xuất về ánh xạ / ánh xạ cũng khá hữu ích, vì tôi đã không nghĩ đến việc hình dung sự phân bố không gian của các biến. Đối với nhóm sinh viên này, nó sẽ giúp họ nắm bắt các cấu trúc cơ bản cho nền kinh tế thế giới theo cách mà tất cả các blah blah blah của tôi sẽ không làm.
rabidotter

1
Cốt truyện đẹp thường đánh bại blah blah blah :)
JMS

4

Một ghi chú được thêm nhanh: Bất kỳ kỹ thuật nào bạn sử dụng ở trên, trước tiên bạn sẽ muốn kiểm tra phân phối các biến của mình vì nhiều trong số chúng sẽ "yêu cầu" rằng trước tiên bạn phải chuyển đổi chúng bằng logarit. Làm như vậy sẽ tiết lộ một số mối quan hệ tốt hơn nhiều so với việc sử dụng các biến ban đầu.


3
+1 Thông thường một câu trả lời như thế này chỉ nên được đăng dưới dạng bình luận, nhưng lời khuyên rất quan trọng ở đây, nó mang lại lợi ích từ mọi sự nhấn mạnh có thể. Kết quả PCA nói riêng sẽ có khả năng không chính xác cho đến khi các biến được thể hiện lại một cách thích hợp.
whuber

2

Bạn có thể sử dụng phân tách CUR thay thế cho PCA. Để phân tách CUR, bạn có thể tham khảo [1] hoặc [2]. Trong phân tách CUR, C là viết tắt của các cột được chọn, R là viết tắt của các hàng đã chọn và U là ma trận liên kết. Hãy để tôi diễn giải trực giác đằng sau sự phân rã CUR như được đưa ra trong [1];

bạnTôivTôi

[(1/2)age − (1/ √2)height + (1/2)income]

là một trong những yếu tố quan trọng không đáng lo ngại, các tính năng, các tính năng, các tính năng khác nhau, từ các bộ dữ liệu về tính năng của mọi người, không đặc biệt nhiều thông tin hoặc ý nghĩa.

Điều hay ho ở CUR là các cột cơ sở là các cột (hoặc hàng) thực tế và tốt hơn để diễn giải trái ngược với PCA (sử dụng SVD trancated).

Thuật toán được đưa ra trong [1] rất dễ thực hiện và bạn có thể chơi với nó bằng cách thay đổi ngưỡng lỗi và nhận số lượng cơ sở khác nhau.

[1] MW Mahoney và P. Drineas, phân tách ma trận CUR CUR để phân tích dữ liệu được cải thiện., Kỷ yếu của Viện hàn lâm Khoa học Quốc gia Hoa Kỳ, tập. 106, tháng 1 năm 2009, trang 697-702.

[2] J. Sun, Y. Xie, H. Zhang và C. Faloutsos, Ít Ít hơn: Phân rã ma trận nhỏ gọn cho các đồ thị thưa thớt, Kỷ yếu của Hội nghị quốc tế SIAM lần thứ bảy về Khai thác dữ liệu, Citeseer, 2007, p . 366.


2

Tùy thuộc vào mục tiêu của bạn, phân loại đăng ký theo nhóm có thể đạt được tốt nhất bằng một số phương pháp phân cụm. Đối với một số lượng tương đối nhỏ các trường hợp phân cụm phân cấp thường phù hợp nhất, ít nhất là trong giai đoạn thăm dò, trong khi đối với một giải pháp bóng bẩy hơn, bạn có thể tìm đến một quy trình lặp như K-nghĩa. Theo phần mềm nào bạn đang sử dụng, cũng có thể sử dụng một quy trình trong SPSS nhưng tôi không biết nơi nào khác, được gọi là phân cụm hai bước, nhanh, mặc dù mờ và dường như cho kết quả tốt.

Phân tích cụm mang lại một giải pháp phân loại tối đa hóa phương sai giữa các nhóm trong khi giảm thiểu phương sai trong các nhóm nói trên. Nó cũng có khả năng mang lại kết quả dễ giải thích hơn.



1

Một lựa chọn khác là sử dụng Bản đồ tự tổ chức (SOM). Bất kỳ ý tưởng về các phần mềm học sinh sẽ được sử dụng? Tôi biết rằng R, ví dụ, có một vài triển khai SOM. Tuy nhiên, SOM có thể thất bại trong bài kiểm tra "các yếu tố thành phần có ý nghĩa trực quan". (Không nhất thiết đúng với PCA, ...)


Xin lỗi vì sự chậm trễ trong việc đáp ứng. Học sinh sẽ sử dụng Minitab 16, trong đó có một số kỹ thuật giảm dữ liệu truyền thống được đề cập ở trên. Tôi sẽ xem xét các bản đồ tự tổ chức, nhưng tôi nghi ngờ liệu nó có phù hợp với loại sinh viên tôi có trong khóa học đại học năm thứ hai không.
rabidotter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.