Làm thế nào để tự động xử lý dữ liệu đo năng lượng xem xét các ngoại lệ và thiết lập lại đồng hồ?


3

Tôi muốn xử lý thuật toán dữ liệu đo năng lượng . Đồng hồ đo năng lượng đo một nhà sản xuất nhiệt hoặc năng lượng hoặc người tiêu dùng nhiệt hoặc năng lượng (nhưng không phải cả hai, vì vậy năng lượng đo được sẽ luôn có dấu hiệu tích cực). Không có thông tin bổ sung nào được biết về hệ thống năng lượng (như tải tối đa) cũng không phải về loại máy đo năng lượng - chỉ có thể truy cập dữ liệu được lưu trữ trong cơ sở dữ liệu. Việc xử lý sẽ được thực hiện bằng thuật toán xem dữ liệu trong một khoảng thời gian nhất định (không xử lý trực tiếp).

Thông thường, dữ liệu là đơn điệu yếu của mẫu

2015-04-01 00:00 20,78 Kwh

2015-04-01 00:05 30,80 kWh

2015-04-01 00:10 73,99 Kwh

2015-04-01 00:20 82.30 kwh

2015-04-01 00:25 82.30 kwh

2015-04-01 00:30 83,44 kWh

...

Năng lượng được sản xuất hoặc tiêu thụ trong một thời gian nhất định chỉ đơn giản là sự khác biệt của đồng hồ đo năng lượng. Càng xa càng tốt. Tuy nhiên, thuật toán phải giải quyết ba vấn đề sau:

1. Các ngoại lệ "ở trên" phải được phát hiện là dữ liệu không hợp lệ.

2015-04-01 00:00 20,78 Kwh

2015-04-01 00:05 30,80 kWh

2015-04-01 00:10 500 kWh

2015-04-01 00:20 82.30 kwh

2015-04-01 00:25 82.30 kwh

2015-04-01 00:30 83,44 kWh

....

2. Các ngoại lệ "bên dưới" phải được phát hiện là dữ liệu không hợp lệ.

2015-04-01 00:00 20,78 Kwh

2015-04-01 00:05 30,80 kWh

2015-04-01 00:10 20 kWh

2015-04-01 00:20 82.30 kwh

2015-04-01 00:25 82.30 kwh

2015-04-01 00:30 83,44 kWh

....

Trong các trường hợp không thể, có thể có một số ngoại lệ liên tiếp ở trên hoặc bên dưới hoặc kết hợp cả hai.

3. Một thiết lập lại của đồng hồ năng lượng phải được phát hiện tự động.

2015-04-01 00:00 20,78 Kwh

2015-04-01 00:05 30,80 kWh

2015-04-01 00:10 3,99 kWh

2015-04-01 00:20 12.30 kWh

2015-04-01 00:25 12.30 kWh

2015-04-01 00:30 13,44 kWh

...

Sau khi thiết lập lại, việc đếm bắt đầu lại từ cấp độ khác (thiết lập lại chỉ đơn giản là thay đổi cấp độ). Mức đếm bắt đầu từ sau khi thiết lập lại thường bằng 0, nhưng cũng có thể là bất kỳ số dương nào khác. Một thiết lập lại có thể xảy ra tại một thời điểm tùy ý (thường không quá thường xuyên).

Trước mắt tôi, các vấn đề 1. - 3. có vẻ phổ biến trong kỹ thuật đo lường và phải được giải quyết. Tuy nhiên, tôi không thể tìm thấy bất kỳ tài liệu về chủ đề này. Có ai biết về các giải pháp hiện có cho vấn đề này? Tất cả sự giúp đỡ sẽ được đánh giá cao.


mà không thực hiện phân tích nguyên nhân gốc rễ, nó tìm ra gốc rễ của vấn đề. Vấn đề này trở thành chi phí / lợi ích. Nếu vấn đề là thường xuyên và gây ra đủ đau đầu thì sẽ có nhiều áp lực hơn để giải quyết vấn đề. Nếu vấn đề là một lần hoặc thỉnh thoảng thì các ngoại lệ sẽ bị loại bỏ. Dựa trên dữ liệu được trình bày, nó trông giống như một đồng hồ bị lỗi.
Mahendra Gunawardena

Một phần thiết yếu của câu hỏi này là cách bạn dự định thực hiện việc xử lý này. Bạn có muốn đẩy dữ liệu thô vào máy tính có một phần mềm (ví dụ như "sản xuất tại nhà" hoặc, ví dụ như Excel) để thực hiện phân tích dữ liệu hoặc bạn muốn chính máy đo năng lượng thực hiện phân tích này?
Wasabi

Cùng dòng với nhận xét của Wasabi; Bạn có muốn xử lý hậu kỳ dữ liệu hay việc xử lý dữ liệu cần phải được thực hiện trực tiếp? Xử lý bằng tay (không thể thực hiện trực tiếp) sẽ dễ dàng hơn nhiều.
Chris Mueller

Vì vậy, câu hỏi của bạn là về việc xử lý dữ liệu chứ không phải về việc lấy dữ liệu phải không? Vì vậy, đây có phải là một câu hỏi lập trình máy tính? Bạn đã biết logic mà bạn muốn sử dụng, bây giờ bạn cần đưa nó vào một chương trình sắp xếp nào đó.
hazzey

Nói chung, bạn không nên loại bỏ dữ liệu nằm ngoài phạm vi dự kiến ​​của mình mà không cần giải thích. Nếu bạn quyết định rằng bạn có thể tiếp tục, tất cả những gì bạn cần là một chương trình đơn giản để phát hiện và xóa các điểm dữ liệu đó.
DLS3141

Câu trả lời:


2

Có hai cách để làm điều đó.

Cách cũ

Cách truyền thống là phát triển một tập hợp các quy tắc có phần tùy ý dựa trên các lỗi bạn tự phân loại. Bạn lọc ra tính không đơn điệu (dễ), xác định các bộ đặt lại (dễ) và cố gắng phát hiện các giá trị xấu khác (khó hơn). Điều đó cung cấp cho bạn một tập hợp các giá trị để đánh dấu là bị thiếu và sau đó bạn phân tích phần còn lại của dữ liệu. Phương pháp này không có căn cứ trên lý thuyết, nhưng bạn sẽ có biện pháp bảo vệ (hơi không đạt yêu cầu) rằng: "đó là cách nhiều người khác làm điều đó".

Thực hành tốt nhất

Cách thực hành tốt nhất để làm điều đó là viết ra xác suất của mọi thứ có liên quan, và sau đó áp dụng Định lý Bayes để tìm ra chuỗi thời gian thực có khả năng nhất là gì, dựa trên các quan sát được ghi lại của bạn.

Bạn bắt đầu với một phân phối trước cho tỷ lệ sử dụng năng lượng, dựa trên công việc trước đó.

Và sau đó tạo phân phối xác suất cho các cách mà lỗi có thể xảy ra: thiết lập lại mét, dấu thập phân giảm trong ghi âm; một chữ số bị rơi; một cách đọc hoàn toàn rác. Thêm vào một bản phân phối cho lỗi đo của chính đồng hồ đo: họ thường có một biểu dữ liệu hoặc một tiêu chuẩn được công nhận có phạm vi lỗi được xác định.

Các số liệu thống kê nên tính đến những thứ như tăng đột biến sử dụng thực tế và thiết lập lại trùng khớp. Bạn có thể cần chỉ định phân phối chung nếu chúng được liên kết: ví dụ, việc cắt điện có thể dẫn đến việc thiết lập lại đồng hồ tăng điện, vì những thứ như lò sưởi, tủ lạnh và tủ đông sẽ hoạt động trở lại khi hết điện khôi phục.

Và sau đó, bạn tính toán phân phối sau để sử dụng năng lượng thực tế, đó là điều bạn quan tâm.

Ưu và nhược điểm

Phương pháp thứ hai có lợi thế là bắt nguồn từ lý thuyết đá rắn. Tuy nhiên, đó là khá nhiều công việc để thiết lập các bản phân phối; và trong hầu hết mọi trường hợp trong thế giới thực, không có giải pháp phân tích, vì vậy bạn phải tìm giải pháp số (ví dụ: sử dụng monte-carlo chuỗi markov). Các gói phần mềm như STAN của Andrew Gelman sẽ thực hiện phần việc đó cho bạn.

Trước khi bạn bắt đầu, biểu đồ

Dù bằng cách nào, hãy bắt đầu bằng cách lập biểu đồ dữ liệu thô của bạn. Mắt sẽ nhận các mẫu thông tin.


Bạn có thể giải thích làm thế nào để xác định các thiết lập lại và phân biệt chúng với các ngoại lệ "bên dưới" theo sau là mức tăng tiêu thụ sao cho phép đo thứ hai sau khi đặt lại lớn hơn số đo trước khi đặt lại không? Làm thế nào bạn có thể biết trong trường hợp số 2 được đưa ra trong OP rằng ngoại lệ thực sự không phải là thiết lập lại, sau đó là một sự tăng vọt trong khoảng thời gian từ 00: 11-00: 20? Điều này có phải được thực hiện thông qua các số liệu thống kê không (giả sử mức tăng tiêu thụ và đặt lại là không thường xuyên đến mức cả hai xảy ra gần như đồng thời là hiếm khi bị xem xét)?
Wasabi

1
@Wasabi đã chỉnh sửa để cố gắng bao gồm điều này
EnergyNumbers

Tôi nghĩ rằng, tôi sẽ phải làm theo "cách cũ", vì "cách tiếp cận thực tiễn tốt nhất" dường như không thể áp dụng đúng cách, và kiên quyết lọc ra sự không đơn điệu và xác định các thiết lập lại bằng cách sử dụng một số điều kiện biên (tùy ý) như @ Wasabi đề nghị. Hơn nữa, tôi nghĩ rằng các giá trị xấu khác không vi phạm tính không đơn điệu không phải là vấn đề quá nghiêm trọng, vì chúng không thay đổi tổng năng lượng tiêu thụ "trong thời gian dài", nhưng chỉ dẫn đến phân phối năng lượng tiêu thụ sai trong một khoảng nhất định (với điều kiện là các giá trị ở đầu và cuối của khoảng là chính xác)
Daniel

0

Loại bỏ các ngoại lệ là dễ dàng, bạn chỉ cần loại bỏ (hoặc bỏ qua) chúng. Phần khó là quyết định đâu là ngoại lệ và đâu là dữ liệu hợp lệ. Điều này đi xuống để xác định những gì có thể và có khả năng.

Một kiểm tra rõ ràng trong trường hợp của bạn là chống lại công suất tối đa mà hệ thống có thể tiêu thụ hoặc sản xuất. Nếu đồng bằng giữa hai lần đọc vượt quá điều đó, thì có gì đó không đúng ở đâu đó. Ví dụ: nếu hệ thống được đo không thể tiêu thụ nhiều hơn 200 kW, thì đồng hồ không thể tăng hơn 17 kWh trong khoảng thời gian 5 phút.

Lưu ý rằng việc sản xuất năng lượng tối đa có thể khác với mức tiêu thụ năng lượng tối đa. Có thể hệ thống của bạn có thể tiêu thụ tới 200 kW, nhưng không thể sản xuất hơn 50 kW. Điều đó có nghĩa là trong 5 phút, phạm vi hợp lệ có thể là +16,7 kWh đến -4,2 kWh.

Bạn có thể biết những điều khác về hệ thống của bạn, mà bạn có thể sử dụng để phát hiện các bài đọc không hợp lệ. Ví dụ, mặc dù mức tiêu thụ năng lượng của nó bị giới hạn bởi -50 đến +200 kW, có thể nó không thể thay đổi nhanh hơn 10 kW mỗi 5 phút. Hoặc, nếu năng lượng được sản xuất bởi pin mặt trời, thì việc sản xuất năng lượng vào ban đêm phải là sai. Chắc chắn có những điều bạn biết hệ thống của bạn không thể làm được.

Một lần nữa, tất cả đi xuống để xác định những gì là hợp lệ. Chẳng hạn, bạn nói cách đọc thứ ba trong trường hợp 2 là sai? Làm sao bạn biết điều đó? Nếu hệ thống có thể tạo ra 10,8 kWh trong khoảng thời gian 5 phút, thì tiêu thụ 62,3 kWh trong 5 phút tiếp theo, sau đó, trường hợp 2 có thể là tất cả các bài đọc chính xác. Bạn đã không nói bất cứ điều gì về hệ thống của bạn để nói rằng đây không phải là trường hợp.


Bài viết của tôi đã gây hiểu nhầm, tôi muốn nói rằng máy đo năng lượng đo lường NIỀM TIN năng lượng được sản xuất hoặc tiêu thụ (nhưng không phải cả hai). Bạn có ý tưởng sử dụng tốc độ thay đổi tối đa là rất tốt, nhưng thật không may, thông tin bổ sung cần thiết không phải là (luôn luôn) được đưa ra - thuật toán sẽ hoạt động cho tất cả các loại nguồn năng lượng và chìm. Tiêu chí duy nhất là (yếu) đơn điệu. Tôi nghĩ sẽ sử dụng một số loại tương quan thứ tự xếp hạng để phát hiện 'phá vỡ cấu trúc' của thiết lập lại đồng hồ và xử lý riêng các ngoại lệ. Những gì phân tách dữ liệu hợp lệ và không hợp lệ dường như về cơ bản là tần suất xuất hiện.
Daniel
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.