Tại sao phải chuyển đổi dữ liệu trước khi thực hiện phân tích thành phần chính?


16

Tôi đang làm theo hướng dẫn tại đây: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ để hiểu rõ hơn về PCA.

Hướng dẫn sử dụng bộ dữ liệu Iris và áp dụng chuyển đổi nhật ký trước PCA:

Lưu ý rằng trong đoạn mã sau, chúng tôi áp dụng chuyển đổi nhật ký cho các biến liên tục theo đề xuất của [1] và đặt centerscalebằng với TRUElệnh gọi prcompđể chuẩn hóa các biến trước khi áp dụng PCA.

Ai đó có thể giải thích cho tôi bằng tiếng Anh đơn giản tại sao trước tiên bạn sử dụng chức năng ghi nhật ký trên bốn cột đầu tiên của bộ dữ liệu Iris. Tôi hiểu rằng nó có liên quan đến việc tạo dữ liệu tương đối nhưng tôi bối rối không biết chính xác chức năng của nhật ký, trung tâm và tỷ lệ.

Tham chiếu [1] ở trên là về Venables và Ripley, Số liệu thống kê được áp dụng hiện đại với S-PLUS , Phần 11.1 nói ngắn gọn:

Dữ liệu là các phép đo vật lý, vì vậy một chiến lược ban đầu hợp lý là làm việc trên quy mô nhật ký. Điều này đã được thực hiện trong suốt.


Câu trả lời:


19

Bộ dữ liệu mống mắt là một ví dụ điển hình để tìm hiểu PCA. Điều đó nói rằng, bốn cột đầu tiên mô tả chiều dài và chiều rộng của cánh hoa và cánh hoa không phải là một ví dụ về dữ liệu bị sai lệch mạnh. Do đó, chuyển đổi log dữ liệu không làm thay đổi kết quả nhiều, vì vòng quay kết quả của các thành phần chính hoàn toàn không thay đổi khi chuyển đổi log.

Trong các tình huống khác, chuyển đổi log là một lựa chọn tốt.

Chúng tôi thực hiện PCA để hiểu rõ hơn về cấu trúc chung của một tập dữ liệu. Chúng tôi tập trung, mở rộng quy mô và đôi khi chuyển đổi log để lọc một số hiệu ứng tầm thường, có thể chi phối PCA của chúng tôi. Thuật toán của PCA sẽ lần lượt tìm ra vòng quay của mỗi PC để giảm thiểu phần dư bình phương, cụ thể là tổng khoảng cách vuông góc bình phương từ bất kỳ mẫu nào đến PC. Giá trị lớn có xu hướng có đòn bẩy cao.

Hãy tưởng tượng tiêm hai mẫu mới vào dữ liệu mống mắt. Một bông hoa có chiều dài cánh hoa 430 cm và một bông hoa có chiều dài cánh hoa là 0,0043 cm. Cả hai bông hoa rất bất thường lớn hơn 100 lần và nhỏ hơn 1000 lần so với các ví dụ trung bình. Đòn bẩy của bông hoa đầu tiên là rất lớn, do đó, các PC đầu tiên sẽ mô tả sự khác biệt giữa bông hoa lớn và bất kỳ bông hoa nào khác. Phân cụm các loài là không thể do một ngoại lệ. Nếu dữ liệu được chuyển đổi log, giá trị tuyệt đối sẽ mô tả biến thể tương đối. Bây giờ bông hoa nhỏ là bất thường nhất. Tuy nhiên, có thể cả hai đều chứa tất cả các mẫu trong một hình ảnh và cung cấp một cụm công bằng của loài. Kiểm tra ví dụ này:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

nhập mô tả hình ảnh ở đây

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

nhập mô tả hình ảnh ở đây


2
Bản demo đẹp và cốt truyện.
Shadowtalker

3

Vâng, câu trả lời khác đưa ra một ví dụ, khi chuyển đổi log được sử dụng để giảm ảnh hưởng của các giá trị cực đoan hoặc ngoại lệ.
Một đối số chung khác xảy ra, khi bạn cố gắng phân tích dữ liệu được tạo thành nhân thay vì cộng gộp - mô hình PCA và FA bằng toán học của chúng các thành phần phụ gia như vậy. Nhâncác thành phần xảy ra trong trường hợp đơn giản nhất trong dữ liệu vật lý như bề mặt và khối lượng của các vật thể (theo chức năng) phụ thuộc vào (ví dụ) ba tham số chiều dài, chiều rộng, chiều sâu. Người ta có thể tái tạo các tác phẩm của một ví dụ lịch sử của PCA thời kỳ đầu, tôi nghĩ nó được gọi là "vấn đề của Thurstone's Ball- (hoặc" Cubes'-) "hoặc tương tự. Khi tôi đã chơi với dữ liệu của ví dụ đó và nhận thấy rằng dữ liệu chuyển đổi nhật ký đã cho một mô hình rõ ràng và đẹp hơn nhiều cho thành phần của khối lượng đo và dữ liệu bề mặt được đo bằng ba phép đo một chiều.

Bên cạnh các ví dụ đơn giản như vậy, nếu chúng ta xem xét trong các tương tác dữ liệu nghiên cứu xã hội , thì chúng ta thường nghĩ rằng chúng cũng như các phép đo được nhân rộng của các mục cơ bản hơn. Vì vậy, nếu chúng ta xem xét cụ thể các tương tác, một biến đổi log có thể là một công cụ hữu ích đặc biệt để có được một mô hình toán học cho thành phần khử.


Bạn có thể vui lòng liệt kê một số tài liệu tham khảo có thể giải thích các tác phẩm "nhân" tốt hơn không? Cảm ơn rất nhiều!
Amatya

1
@Amatya - Tôi không tìm thấy "vấn đề hộp thurstone", nhưng một trang web (tiếng Đức) thảo luận về các hình khối, chứa chiều rộng, chiều dài, chiều cao như các mặt hàng cơ bản và bề mặt và khối lượng như các mặt hàng bổ sung nhân. Có lẽ các công thức bao gồm cho các định nghĩa là đủ. Xem sgipt.org/wism/fa/Quader/q00.htm
Gottfried Helms

1
À, và tôi đã quên - một cuộc thảo luận cũ của tôi về điều này go.helms-net.de/stat/fa/SGIPT_Quader.htmlm
Gottfried Helms

@GottfriedHelms Tôi vẫn chưa thực sự hiểu tại sao nếu chúng ta đang chuẩn hóa các biến, chúng ta cũng cần phải chuyển đổi chúng. Tôi hiểu nguyên tắc chung là giảm ảnh hưởng không mong muốn của các ngoại lệ cực đoan, nhưng nếu chúng ta đã chuẩn hóa (định tâm, chia tỷ lệ) cho chúng, thì có vẻ như nhật ký chuyển đổi nó ngoài ra thực sự làm biến dạng dữ liệu.
Yu Chen

@YuChen - mọi chuyển đổi log đều chuyển đổi thành phần nhân thành thành phần phụ gia và thành phần phụ gia là giả định cơ bản (bên cạnh tính tuyến tính, v.v.) của tất cả các loại thành phần và phân tích nhân tố. Vì vậy, nếu dữ liệu của bạn có thành phần nhân trong đó, một biến đổi log sẽ là một lựa chọn đáng để xem xét.
Gottfried Helms
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.