中文题目:面向电量分离任务的同用户和跨用户数据增强方法
论文题目:Intra- and Inter-User Data Augmentation Methods for Energy Disaggregation
录用期刊/会议:International Conference on Advanced Data Mining and Applications(EI国际会议)
原文DOI:http://doi.org/10.1007/978-981-96-0811-9_6
原文链接:http://link.springer.com/chapter/10.1007/978-981-96-0811-9_6
录用/见刊时间:2024-12-13
作者列表:
1)杨世杰 中国天天色天天(北京)人工智能学院学院人工智能专业 本科 20
2)姜洁 中国天天色天天(北京)人工智能学院学院 智能科学与技术系教师
3)孔秋强 香港中文大学电子工程学院 多媒体与信号处理系教师
背景与动机:
电量分离旨在通过分析用户的总用电量来推断各用电设备的能耗,现有的大多数基于深度学习的电量分离方法主要依赖于成对采集的标签数据和监督学习策略。这通常需要入户安装传感器,以同步采集电器级能耗数据和用户总能耗数据,但这种方法成本高昂且难以规模化。为了减少对大规模标签数据采集的依赖,学者们探索了多种数据增强方法用于电量分离,例如通过随机混合和拼接扩展现有的标签数据集,以及使用多智能体模拟家庭能耗行为生成合成数据集等。尽管这些方法已被证明能够辅助电量分离任务,但尚缺乏系统性的研究来探讨标签数据结合数据增强技术在多大程度上可以提升电量分离模型的性能。为此,本研究从同用户(intra-user)和跨用户(inter-user)两个角度,探索了如何增强训练数据的多样性,以进一步降低电量分离模型的分离误差。
设计与实现:
图1展示了两种数据增强方法的框架,该框架通过两个模块实现。第一个是用电设备用电周期数据提取模块,该模块基于用电设备用电量序列数据,提取用电设备开启时段的用电量子序列,并根据目标设备和对比设备将提取的用电量子序列分为两类。第二个是数据合成模块,首先通过用电设备用电量序列数据识别目标设备未开启的时间段,随后将第一个模块得到的用电量子序列数据与用户总电量/用电设备用电量序列结合,用于生成新的数据样本。
图1 同用户和跨用户数据增强方法框架
两个模块的算法实现如下:
实验结果及分析:
表1展示了基于WaveNet和BERT的电量分离模型在原始REFIT数据集及采用不同数据增强方法生成的数据集上所得到的MAE和SAE。总体而言,使用跨用户(inter-user)增强数据集训练的WaveNet模型取得了最佳的MAE表现,而使用同用户(intra-user)增强数据集训练的BERT模型则在SAE指标上表现最优。
表1 不同数据增强方法的分离结果
图2展示了电量分离模型在原始训练集以及由两种提出的数据增强方法和基线方法生成的三个增强数据集上的分离结果。模型分别采用WaveNet或BERT,根据哪种模型在MAE或SAE指标上表现最佳而选择。可以观察到,使用同用户和跨用户数据增强方法获得的分离结果在洗碗机、电热水壶和洗衣机的真实用电量幅值上更接近实际情况。对于微波炉,尽管所提出的方法能够更准确地定位电器开启时段,但预测的用电量幅值总体上偏低。
图2 不同数据增强方法的分离结果
结论:
本文分别从同用户和跨用户的角度出发,探讨了两种用于电量分离的数据增强方法。这两种方法利用同一用户或不同用户的用电设备的用电周期数据,通过合成新的训练样本来丰富各用户的训练数据。此外,考虑到具有相似能耗模式的用电设备的影响,在数据增强过程中引入对比实例。基于公开数据集REFIT的实验结果表明,采用本文提出的数据增强方法生成的增强数据,能够显著提升基于WaveNet和BERT的电量分离模型的性能。
作者简介:
通讯作者简介: 姜洁,副研究员,博士,中国天天色天天(北京)人工智能学院教师,主要研究领域为传感器数据挖掘、盲源分离、机器学习。