Nhận dạng hoạt động của con người sử dụng vấn đề thiết lập dữ liệu điện thoại thông minh


9

Tôi mới tham gia cộng đồng này và hy vọng câu hỏi của tôi sẽ phù hợp ở đây. Là một phần của khóa học phân tích dữ liệu đại học của tôi, tôi đã chọn thực hiện dự án về nhận dạng hoạt động của con người bằng cách sử dụng bộ dữ liệu điện thoại thông minh. Theo như tôi quan tâm thì chủ đề này liên quan đến Machine Learning và Support Vector Machines. Tôi chưa quen thuộc với các công nghệ này vì vậy tôi sẽ cần một số trợ giúp.

Tôi đã quyết định làm theo ý tưởng dự án này http://www.inf.ed.ac.uk/teaching/cifts/dme/2014/datasets.html (dự án đầu tiên trên đầu trang) Mục tiêu của dự án là xác định hoạt động của một người là gì tham gia (ví dụ: WALKING, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, SITTING, STANDING, LAYING) từ dữ liệu được ghi lại bởi điện thoại thông minh (Samsung Galaxy S II) trên thắt lưng của đối tượng. Sử dụng gia tốc kế và con quay hồi chuyển của nó, dữ liệu bao gồm gia tốc tuyến tính 3 trục và tốc độ góc 3 trục với tốc độ không đổi 50Hz.

Tất cả các tập dữ liệu được đưa ra trong một thư mục với một số nhãn mô tả và tính năng. Dữ liệu được chia cho các tệp 'thử nghiệm' và 'đào tạo' trong đó dữ liệu được thể hiện theo định dạng này:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

Và đó chỉ là một mẫu rất nhỏ về những gì tập tin chứa.

Tôi thực sự không biết những gì dữ liệu này đại diện và làm thế nào có thể được giải thích. Ngoài ra để phân tích, phân loại và phân cụm dữ liệu, tôi sẽ cần sử dụng công cụ nào? Có cách nào tôi có thể đưa dữ liệu này vào excel với các nhãn đi kèm và ví dụ sử dụng R hoặc python để trích xuất dữ liệu mẫu và làm việc với điều này không?

Bất kỳ gợi ý / lời khuyên sẽ được nhiều đánh giá cao.

Câu trả lời:


8

Các định nghĩa tập dữ liệu nằm trên trang ở đây:

Thông tin thuộc tính ở phía dưới

hoặc bạn có thể thấy bên trong thư mục ZIP tệp có tên Activity_labels, có tiêu đề cột của bạn bên trong nó, hãy đảm bảo bạn đọc README cẩn thận, nó có một số thông tin tốt trong đó. Bạn có thể dễ dàng đưa vào một .csvtệp trong R bằng read.csvlệnh.

Ví dụ: nếu bạn đặt tên cho tệp của samsungdatamình, bạn có thể mở R và chạy lệnh này:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

Hoặc nếu bạn đã ở trong thư mục làm việc trong R, bạn có thể chạy như sau

data <- read.csv("samsungdata.csv", header = TRUE)

Nơi tên datacó thể được thay đổi thành bất cứ điều gì bạn muốn gọi tập dữ liệu của bạn.


Tôi hiểu rồi. Tôi đã nghiên cứu tệp README, tuy nhiên tôi vẫn không thể hiểu được dữ liệu nó có thể được đọc như thế nào. Ví dụ: train / X_train.txt'file đại diện cho tập huấn luyện (dữ liệu mẫu mà tôi đã hiển thị trong bài đăng đến từ tệp này).
Jakubee

Dường như với tôi rằng tập dữ liệu khá rộng, có 561 biến trên mỗi hàng được liệt kê bên trong tệp Feature.txt. Tôi tin rằng đó là những gì bạn đang đề cập đến.
MCP_infiltrator

Vì vậy, mỗi biến trong tệp 'tính năng' tương ứng với từng cột trong tệp 'x-test.txt', hoặc tôi sai?
Jakubee

Đó là cách tôi đang dùng nó. Từ những gì tôi có thể thu thập từ README, đó là những gì tập tin chứa.
MCP_infiltrator

@Jakubee Vâng. Có 561 hàng / tên biến trong features.txttệp và 561 cột trong X_train.txttệp, mỗi cột cho mỗi biến.
Marco13

5

Dường như điều này (hoặc tập dữ liệu rất giống nhau) được sử dụng cho các khóa học Coursera. Làm sạch bộ dữ liệu này là nhiệm vụ để Lấy và Làm sạch Dữ liệu , nhưng nó cũng được sử dụng để nghiên cứu trường hợp để phân tích Dữ liệu Khám phá . Video từ nghiên cứu trường hợp này có sẵn trong các video cho tuần 4 của khóa học EDA. Nó có thể giúp bạn bắt đầu với dữ liệu này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.