Một cách tốt để hiển thị nhiều dữ liệu đồ họa


15

Tôi đang làm việc trong một dự án bao gồm 14 biến và 345.000 quan sát cho dữ liệu nhà ở (những thứ như năm xây dựng, cảnh vuông, giá bán, quận cư trú, v.v.). Tôi quan tâm đến việc cố gắng tìm các kỹ thuật đồ họa và thư viện R có chứa các kỹ thuật vẽ đồ họa đẹp.

Tôi đã thấy những gì trong ggplot và mạng sẽ hoạt động tốt, và tôi đang nghĩ đến việc thực hiện các âm mưu cho một số biến số của mình.

Những gói nào khác mà mọi người sẽ đề xuất để hiển thị một lượng lớn các biến số hoặc kiểu nhân tố theo cách rõ ràng, bóng bẩy và quan trọng nhất là cô đọng?


"Rõ ràng, lịch sự và quan trọng nhất là cách cô đọng" Nghe có vẻ như ggplot2 với tôi.
Brandon Bertelsen

1
Tôi đang tìm kiếm không chỉ các thư viện R, mà còn bất kỳ loại biểu đồ cụ thể nào. Kiến thức về đồ thị của tôi chỉ giới hạn ở sự phân tán, hộp, qq, biểu đồ, violon, ước tính mật độ hạt nhân, v.v ... Bất kỳ đồ thị khó hiểu hơn một chút có thể tiết lộ nhiều hơn về dữ liệu so với những thứ đó sẽ là tuyệt vời.
Christopher Aden

2
tọa độ song song âm thanh như một cái khác để đề cập. Ngoài ra các phương pháp giảm kích thước có thể hữu ích.
Tal Galili

Câu trả lời:


13

"Đồ thị" tốt nhất rõ ràng là chưa có ai đề cập đến nó: tạo bản đồ. Dữ liệu nhà ở về cơ bản phụ thuộc vào vị trí không gian (theo cách nhìn cũ về bất động sản), vì vậy điều đầu tiên cần làm là lập bản đồ chi tiết rõ ràng về từng biến. Để làm tốt điều này với một phần ba triệu điểm thực sự cần một hệ thống GIS có sức mạnh công nghiệp, có thể thực hiện quá trình ngắn. Sau đó, thật hợp lý để tiếp tục và đưa ra các sơ đồ xác suất và các ô vuông để khám phá các phân phối đơn biến, và để vẽ các ma trận phân tán và các sơ đồ di chuyển, v.v., để khám phá các phụ thuộc - nhưng các bản đồ sẽ ngay lập tức gợi ý những gì cần khám phá, làm thế nào để mô hình hóa mối quan hệ dữ liệu và cách chia nhỏ dữ liệu theo địa lý thành các tập hợp con có ý nghĩa.


Ý tưởng tuyệt vời! Tôi đã có vĩ độ và kinh độ của tất cả các điểm dữ liệu, vì vậy một nhiệm vụ như vậy sẽ tương đối cơ bản. Tôi đã nghĩ rằng thư viện bản đồ sẽ là một cách tốt để đi, trừ khi có một cái gì đó tốt hơn.
Christopher Aden

2
@Christopher Bạn cũng có thể làm điều này với ggplot2(đặc biệt nếu bạn không cần vẽ ranh giới quốc gia), had.co.nz/ggplot2/coord_map.html . Nếu không, maps, gmapslà tốt hơn. Ngoài ra còn GeoXpcó giao diện R cho GRASS. BTW, Mondrian có một plugin cho dữ liệu địa lý :)
chl

Việc chỉ định một câu trả lời tốt nhất có thể khó khăn khi có một vài gợi ý tuyệt vời, nhưng tôi cảm thấy đây là hướng đi đúng đắn, giữ cho "cô đọng" trong tâm trí. Tôi sẽ thử ggplot2 và xem bản đồ, GeoXp và Mondrian. Cảm ơn ý tưởng của đồ thị không gian!
Christopher Aden


Tôi đã thành công tốt đẹp với lattice's levelplotcontourplot. Gói fieldscó một số tính năng hay, bao gồm cả tính năng quiltplottốt nếu dữ liệu của bạn không nghiêm ngặt trên lưới. Nó cũng có một chức năng spline tấm mỏng đẹp Tpsđể làm mịn dữ liệu không lưới vào lưới. Đối với phần mềm GIS chuyên dụng, GRASS bằng cách nào đó không bao giờ có ý nghĩa đối với tôi, tôi thích QGIS.
Wayne

6

Tôi khuyên bạn nên xem GGobi , cũng có giao diện R, ít nhất là cho mục đích khám phá. Nó có một số màn hình đồ họa đặc biệt hữu ích để xử lý một số lượng lớn các quan sát và biến số và để liên kết chúng với nhau. Bạn có thể muốn bắt đầu bằng cách xem một số video trong phần "Xem bản demo" trên trang Tìm hiểu GGobi .

Cập nhật

Liên kết đến các công cụ của Hadley Wickham cho GGobi, như được đề xuất bởi chl trong các bình luận:

  • DescribeDisplay "Gói R cung cấp cách tái tạo đồ họa ggobi trong R"
  • clusoston "Khám phá kết quả phân cụm trong kích thước cao"
  • rggobi "Gói R cung cấp giao diện dễ dàng với GGobi"

1
@ars Hãy thêm các công cụ R của Hadley để nâng cao trải nghiệm GGobi, ví dụ DescribeDisplayclusterfly.
chl

Xin chào ars, như tôi đã viết trên câu trả lời của mình - kinh nghiệm của tôi với ggobi là nó không xử lý tốt các bộ dữ liệu lớn. Bạn có kinh nghiệm khác với điều đó?
Tal Galili

@Tal Vấn đề xuất phát từ việc không dựa vào glyph để hiển thị / hiển thị màn hình, điều phổ biến đối với đồ họa cơ sở R. Điều này đã được thảo luận tại hội nghị mới nhất của DSC ( j.mp/bpOhBH ). Trên thực tế, có một dự án đang diễn ra với Qt là phần phụ trợ và một cổng GGobi mới, để tăng cường hiển thị tương tác của các tập dữ liệu lớn.
chl

1
@Tal: Kinh nghiệm của tôi là khá chậm khi làm mới / sơn lại các khung nhìn, ví dụ như khi thêm một biến hoặc kéo để sắp xếp lại màn hình trong PCP. Tuy nhiên, nó vẫn có thể sử dụng được mặc dù không tương tác như quảng cáo với dữ liệu lớn. @chl: Điều đó thực sự tốt để biết, cảm ơn!
ars

1
@ars @Tal Đây là các liên kết trên giao diện Qt cho R ( j.mp/d1AJp7 ) và GGobi ( j.mp/cUOvfp ). Xem thêm kho lưu trữ Github của Hadley!
chl

6

Tôi cảm thấy bạn thực sự đang hỏi hai câu hỏi: 1) nên sử dụng loại trực quan nào và 2) gói R nào có thể tạo ra chúng.

Trong trường hợp sử dụng loại biểu đồ nào, có rất nhiều và tùy thuộc vào nhu cầu của bạn (ví dụ: các loại biến - số, hệ số, địa lý, v.v. và loại kết nối bạn muốn hiển thị):

  • Nếu bạn có nhiều biến số, bạn có thể muốn sử dụng ma trận biểu đồ phân tán (xem tại đây )
  • Nếu bạn có nhiều biến nhân tố, bạn có thể muốn sử dụng ma trận biểu đồ phân tán cho các yếu tố (xem tại đây )
  • Bạn cũng có thể thực hiện một số tọa độ Song song đó một vài cách để làm điều đó trong R.
  • Để có phạm vi rộng hơn của các phương tiện đồ họa trong R, hãy xem chế độ xem tác vụ đồ họa .

Bây giờ liên quan đến làm thế nào để làm điều đó. Một vấn đề với nhiều điểm dữ liệu là thời gian cho đến khi cốt truyện được tạo. ggplot2, iplots, ggobi không tốt lắm cho quá nhiều điểm dữ liệu (ít nhất là từ kinh nghiệm của tôi). Trong trường hợp đó, bạn có thể muốn tập trung vào các phương tiện đồ họa cơ sở R hoặc lấy mẫu dữ liệu của mình và sử dụng tất cả các công cụ khác. Hoặc bạn có thể hy vọng rằng những người phát triển iplots cực đoan (hoặc Acinonyx ) sẽ đến giai đoạn phát hành trước.


Cảm ơn các liên kết về rflowcytvà Acinonyx.
chl

BTW, rflowcytđã không được chấp nhận với các bản phát hành Bioconductor gần đây, hiện được khuyến nghị sử dụng flowViz. Dù sao, cả hai đều dựa vào lattice.
chl

Câu trả lời rất kỹ lưỡng, Tal! Thời gian tạo ra âm mưu không phải là một vấn đề lớn. Tôi đã thực hiện hầu hết các biểu đồ của mình với gói cơ sở và vấn đề làm cho các biểu đồ trông đẹp hơn là khi tôi quyết định sử dụng biểu đồ cho bài báo. Tôi đã cân nhắc sử dụng ma trận phân tán cho các biến số, nhưng vì nhiều trong số chúng là các đơn vị khác nhau (một số bằng đô la, một số khác bằng sqft), thông tin có giá trị duy nhất tôi nhận được sẽ là xu hướng chung, nhưng với ~ 8 số các biến, một SPM 8x8 là một chút lộn xộn.
Christopher Aden

3

Mondrian cung cấp các tính năng tương tác và xử lý các tập dữ liệu khá lớn (mặc dù trong Java).

Paraview bao gồm viz 2D / 3D. đặc trưng.


Cảm ơn hai thư viện tiểu thuyết. Xung đột chính của tôi với hai điều này là tôi đang gửi báo cáo của mình qua bản sao giấy, vì vậy đồ họa tương tác có thể không được sử dụng đầy đủ. Đồ họa của Mondrian trông khá phức tạp. Tôi sẽ cho nó một cái nhìn
Christopher Aden

@Christopher Đối với Mondrian, bạn có phiên bản R "tương đương" thông qua iplotstrích dẫn bởi @Tal. Về Paraview, bạn có tùy chọn lưu ảnh chụp màn hình của viz. DescribeDisplaylà cách để xuất khẩu trực quan động từ GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .
chl

-3

Tôi muốn làm bạn chú ý, Tọa độ song song: Hình học đa chiều trực quan và các ứng dụng của nó , chứa các đột phá và ứng dụng mới nhất trong lĩnh vực này.

Cuốn sách được Stephen Hawking khen ngợi trong số những người khác. Các bề mặt được mô tả (sử dụng tính đối ngẫu) bởi các vectơ bình thường của chúng tại các điểm của nó. Nó chứa các ứng dụng cho Kiểm soát không lưu (Tránh va chạm tự động - 3 bằng sáng chế của Hoa Kỳ), Khai thác dữ liệu đa biến (trên bộ dữ liệu thực với một số biến số), Tối ưu hóa đa mục tiêu, Kiểm soát quy trình, Hiển thị thông minh chăm sóc chuyên sâu, Bảo mật, Trực quan hóa mạng và gần đây Dữ liệu.


5
Xin chào Alfred, cảm ơn bạn đã tham gia trang web, điều này được đưa ra như một nhà quảng cáo một chút mặc dù. Có lẽ bạn có một ví dụ tương tự như tập dữ liệu của OP (14 biến và 345.000 quan sát) mà bạn có thể cung cấp một hình ảnh và mô tả / chứng minh các tọa độ song song có thể hữu ích như thế nào? Nhiều biểu đồ tọa độ song song tĩnh mà tôi đã thấy với rất nhiều quan sát có xu hướng trông giống như spaghetti trên đĩa, tôi nghi ngờ bạn có cái nhìn sâu sắc hơn về cách hiểu ý nghĩa của dữ liệu N lớn như vậy.
Andy W

Xin chào Andy, tôi không có ví dụ với nhiều quan sát đó. Trong
Alfred Inselberg

Xin chào Andy, tôi không có ví dụ với nhiều quan sát đó. Tính tương tác là rất cần thiết để khám phá dữ liệu. Tôi đã làm việc trên một tập dữ liệu với khoảng 800 biến và 10.000 quan sát trong mạng điện thoại di động để phát hiện ra những thất bại "bí ẩn". Sử dụng các trình phân loại theo giai đoạn và với tương tác, 11 biến chịu trách nhiệm đã được tìm thấy và truy tìm chúng ngược thời gian trong hoạt động không mong muốn trong mạng được phát hiện 3-4 trước khi nhận thấy lỗi.
Alfred Inselberg
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.