(12)发明专利申请
(10)申请公布号 CN 112116265 A(43)申请公布日 2020.12.22
(21)申请号 202011019707.9(22)申请日 2020.09.25
(71)申请人 国网上海市电力公司
地址 200122 上海市浦东新区自由贸易试
验区源深路1122号
申请人 华东电力试验研究院有限公司(72)发明人 吴裔 阮静娴 张蕾 田英杰 (74)专利代理机构 上海科盛知识产权代理有限
公司 31225
代理人 杨宏泰(51)Int.Cl.
G06Q 10/06(2012.01)G06Q 50/06(2012.01)
权利要求书2页 说明书5页 附图1页
(54)发明名称
一种电力数据驱动的行业景气指数构建方法
(57)摘要
本发明涉及一种电力数据驱动的行业景气指数构建方法,包括以下步骤:1)将隶属于同一行业的企业作为企业集合V,获取包括企业集合V中各企业日用电量时序数据的日用电量集合S;2)对日用电量集合S进行数据预处理,并通过聚类分析法进行分类;3)利用相关性分析法获取影响因素对各分类下企业日用电量的影响权重;4)利用预测模型获取次日用电量预测值;5)分别构建行业景气指标体系H、行业景气综合指数CI和行业景气扩散指数DI,与现有技术相比,本发明具有高频度、细粒度、强预测等优点。CN 112116265 ACN 112116265 A
权 利 要 求 书
1/2页
1.一种电力数据驱动的行业景气指数构建方法,其特征在于,包括以下步骤:1)将隶属于同一行业的企业作为企业集合V,获取包括企业集合V中各企业日用电量时序数据的日用电量集合S;
2)对日用电量集合S进行数据预处理,并通过聚类分析法进行分类;
3)利用相关性分析法获取影响因素对各分类下企业日用电量的影响权重;4)利用预测模型获取次日用电量预测值;5)分别构建行业景气指标体系H、行业景气综合指数CI和行业景气扩散指数DI。2.根据权利要求1所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的数据预处理具体包括:
21)采用四分位法,剔除日用电量集合S中每条日用电量时序数据的离群点;22)采用移动平均法,填充日用电量集合S中每条日用电量时序数据的缺失点;23)采用K-Shape曲线聚类分析法,利用日用电量曲线,对日用电量集合S进行分类;24)修正各类别中企业日用电量时序数据的异常点。
3.根据权利要求2所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的步骤23)具体包括:
231)构建每一类别对应的用电量矩阵U,用电量矩阵U中第i行向量为对应类别中的第i条用电量时序数据;
232)获取聚类数k,初始化每一类别的聚类中心Ck,其中聚类中心Ck为零向量;233)计算用电量矩阵U中每一向量到各聚类中心Ck的形状相似距离,将各向量归入与其形状相似距离最小的类别;
234)根据聚类结果更新每一类别的聚类中心Ck,使得聚类中心Ck与该类别中所有向量的形状相似距离之和最短;
235)重复步骤233)和234),直至达到预设的最大迭代次数或聚类结果不再发生变化。4.根据权利要求2所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的步骤24)仅对步骤22)填充的日用电量时序数据的缺失点中的异常点进行修正,其具体包括:
241)获取日用电量集合S中任一类别G对应的用电量矩阵U;242)遍历该用电量矩阵U的各行,搜寻缺失点和离群点最少的行,作为标准行;243)从左向右遍历用电量矩阵U,计算标准行与其他各行的余弦相似度;244)若某一行与标准行的余弦相似度低于设定阈值,则修改该行中的部分点值,使得该行与标准行的余弦相似度高于设定阈值,完成异常点修正。
5.根据权利要求2所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的日用电量曲线为各企业日用电量时序数据在“日期-用电量”的二维坐标系中的曲线。
6.根据权利要求1所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的影响因素包括气象信息和节假日信息,所述的气象信息包括温度、湿度、风速和雨量,所述的节假日信息包括法定节假日和周末的时序数据,所述的影响因素对企业日用电量的影响权重通过皮尔森相关系数计算得到。
7.根据权利要求6所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的预测模型采用Seq2Seq预测模型,其输入包括日用电量时序数据、节假日时序数据和气
2
CN 112116265 A
权 利 要 求 书
2/2页
象信息。
8.根据权利要求6所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的企业集合V中的每一个企业为行业景气指标体系H中的一个指标,所述的行业景气指标体系H的每个指标的当期值为对应企业的次日用电量预测值与当日实际用电量之比,每个指标的权值为对应企业的运行容量或合同容量。
9.根据权利要求8所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的行业景气综合指数CI的当期值为行业景气指标体系H中所有指标的当期值与对应权值的乘积之和的归一化值,其计算式为:
其中,pi为行业景气指标体系H中第i个指标的权值,qi为行业景气指标体系H中第i个指标的当期值。
10.根据权利要求8所述的一种电力数据驱动的行业景气指数构建方法,其特征在于,所述的行业景气扩散指数DI的当期值为行业景气指标体系H中所有指标的当期值与上期值的比较结果之和的归一化值,其计算式为:
其中,xi为行业景气指标体系H中第i个指标的上期值,qi为行业景气指标体系H中第i个指标的当期值,I(xi,qi)为分段连续二元函数,其将第i个指标的上期值与当期值的比较结果映射到[0,1]区间。
3
CN 112116265 A
说 明 书
一种电力数据驱动的行业景气指数构建方法
1/5页
技术领域
[0001]本发明涉及电力信息大数据领域,尤其是涉及一种电力数据驱动的行业景气 指数构建方法。
背景技术
[0002]企业产能过剩、产品结构单一、技术水平不高、配套本土化率低等问题制约 着本土造船业的可持续发展,亟需大数据驱动下的数字经济加速行业转型升级。[0003]在经济学领域,用电量客观反映造船业等工业制造业的景气状况及其变化趋 势。借助企业用电量、业扩数据、运行容量、合同容量等电力大数据,可从电力视 角分析预测行业的景气波动情况,有助于政府、企业及银行等行业参与主体制定调 整相关政策规划。目前,中国出口集装箱运价指数、中国沿海(散货)运价指数、 中国航运景气指数等国内权威指数将用电量作为指标体系的重要组成部分。然而, 包括前述在内的现有景气指数难以发挥电力数据的高频、多维、海量优势,主要体 现在以下几个方面:[0004]一是频度小。现有景气指数的频度多为月度、季度、年度,而用电量的采集 频度为日级、小时级、分钟级。为将用电量纳入指标体系,现有景气指数将用电量 按月、季、年等时间单位聚合,丧失了用电量数据的日级变化特征。[0005]二是粒度粗。现有景气指数的粒度多为行业级、产业级,而用电量的采集粒 度为企业级、楼宇级。为将用电量纳入指标体系,现有景气指数将用电量按行业、 产业等分类聚合,丧失了用电量数据的企业级变化特征。[0006]三是预测弱。在现有景气指数的指标体系中,用电量通常扮演先行指标的角 色。由于景气指数是基于各指标的真实数据编制而成,导致其对景气未来变化的预 测能力有限。
发明内容
[0007]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种高频度、细粒 度、强预测的电力数据驱动的行业景气指数构建方法。[0008]本发明的目的可以通过以下技术方案来实现:[0009]一种电力数据驱动的行业景气指数构建方法,包括以下步骤:[0010]1)将隶属于同一行业的企业作为企业集合V,获取包括企业集合V中各企业 日用电量时序数据的日用电量集合S;
[0011]2)对日用电量集合S进行数据预处理,并通过聚类分析法进行分类;
[0012]3)利用相关性分析法获取影响因素对各分类下企业日用电量的影响权重;[0013]4)利用预测模型获取次日用电量预测值;[0014]5)分别构建行业景气指标体系H、行业景气综合指数CI和行业景气扩散指数 DI。[0015]进一步地,所述的数据预处理具体包括:[0016]21)采用四分位法,剔除日用电量集合S中每条日用电量时序数据的离群点;
4
CN 112116265 A[0017][0018]
说 明 书
2/5页
22)采用移动平均法,填充日用电量集合S中每条日用电量时序数据的缺失 点;23)采用K-Shape曲线聚类分析法,利用日用电量曲线,对日用电量集合S 进行分
类;
24)修正各类别中企业日用电量时序数据的异常点。
[0020]更进一步地,所述的步骤23)具体包括:[0021]231)构建每一类别对应的用电量矩阵U,用电量矩阵U中第i行向量为对应 类别中的第i条用电量时序数据;[0022]232)获取聚类数k,初始化每一类别的聚类中心Ck,其中聚类中心Ck为零向 量;[0023]233)计算用电量矩阵U中每一向量到各聚类中心Ck的形状相似距离,将各 向量归入与其形状相似距离最小的类别;
[0024]234)根据聚类结果更新每一类别的聚类中心Ck,使得聚类中心Ck与该类别 中所有向量的形状相似距离之和最短;
[0025]235)重复步骤233)和234),直至达到预设的最大迭代次数或聚类结果不再 发生变化。
[0026]更进一步地,所述的步骤24)仅对步骤22)填充的日用电量时序数据的缺失 点中的异常点进行修正,其具体包括:
[0027]241)获取日用电量集合S中任一类别G对应的用电量矩阵U;[0028]242)遍历该用电量矩阵U的各行,搜寻缺失点和离群点最少的行,作为标准 行;[0029]243)从左向右遍历用电量矩阵U,计算标准行与其他各行的余弦相似度;[0030]244)若某一行与标准行的余弦相似度低于设定阈值,则修改该行中的部分点 值,使得该行与标准行的余弦相似度高于设定阈值,完成异常点修正。[0031]更进一步地,所述的日用电量曲线为各企业日用电量时序数据在“日期-用电 量”的二维坐标系中的曲线。[0032]进一步地,所述的影响因素包括气象信息和节假日信息,所述的气象信息包括 温度、湿度、风速和雨量,所述的节假日信息包括法定节假日和周末的时序数据, 所述的影响因素对企业日用电量的影响权重通过皮尔森相关系数计算得到。[0033]进一步地,所述的预测模型采用Seq2Seq预测模型,其输入包括日用电量时序 数据、节假日时序数据和气象信息。[0034]进一步地,所述的企业集合V中的每一个企业为行业景气指标体系H中的一 个指标,所述的行业景气指标体系H的每个指标的当期值为对应企业的次日用电 量预测值与当日实际用电量之比,每个指标的权值为对应企业的运行容量或合同容 量。[0035]更进一步地,所述的行业景气综合指数CI的当期值为行业景气指标体系H中 所有指标的当期值与对应权值的乘积之和的归一化值,其计算式为:
[0019][0036][0037]
其中,pi为行业景气指标体系H中第i个指标的权值,qi为行业景气指标体系 H中第i个指标的当期值。[0038]更进一步地,所述的行业景气扩散指数DI的当期值为行业景气指标体系H中 所有
5
CN 112116265 A
说 明 书
3/5页
指标的当期值与上期值的比较结果之和的归一化值,其计算式为:
[0039]
[0040]
其中,xi为行业景气指标体系H中第i个指标的上期值,qi为行业景气指标体 系H中第i个指标的当期值,I(xi,qi)为分段连续二元函数,其将第i个指标的上 期值与当期值的比较结果映射到[0,1]区间。[0042]与现有技术相比,本发明具有以下优点:[0043]1)高频度:本发明构建的每日综合指数CI和每日扩散指数DI利用用电量的 采集频度,进行日级频度的更新和预测,能够获得行业景气指数的日级变化特征, 有助于政府、企业、金融机构等行业主体开展日常化决策分析工作;[0044]2)细粒度:本发明构建的行业景气指标体系H为企业级指标体系,其中的各 指标与各企业一一对应,从微观层面刻画行业景气状况,有助于结合业内上下游关 系,分析行业细分类之间的景气协变情况;[0045]3)强预测:本发明构建的次日用电量预测模型综合运用聚类分析技术、数据 清洗技术、时序预测技术等,对输入数据进行有效预处理,预测精准度高,使得在 其基础上构建的每日综合指数CI和每日扩散指数DI能够更为真实地体现行业景 气的短期未来变化。附图说明
[0046]图1为本发明流程示意图。
具体实施方式
[0047]下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是 本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发 明保护的范围。[0048]实施例
[0049]如图1所示,本发明提供一种电力数据驱动的行业景气指数构建方法,其首先 建立三个集合,分别为企业集合V、日用电量集合S和用电量时序曲线集合C,其 中,企业集合V={V1,V2,...,Vm}是隶属于某一行业的企业的集合,日用电量集合 S={S1,S2,...,Sm}是企业集合V中各企业的日用电量时序数据,用电量时序曲线集 合C={C1,C2,...,Cm}是日用电量集合S中各日用电量时序数据在“日期-用电量” 二维坐标系中的对应曲线。本发明的构建方法依次执行以下步骤:[0050]S1:采用四分位法剔除日用电量集合S中每条日用电量时序数据的离群点。[0051]具体为:对于日用电量集合S中的任意一条时序数据Si,计算其第一四分位数 P、
[0041]
6
CN 112116265 A
说 明 书
4/5页
中位数Q和第三四分位数R。令IQR=R-P,将时序数据Si中取值在[P-1.5*IQR, R+1.5*IQR]之外的点设置为缺失点。[0052]S2:采用移动平均法填充日用电量集合S中每条日用电量时序数据的缺失点。[0053]具体为:对于日用电量集合S中的任意一条时序数据Si,从左向右遍历时序数 据Si中的元素,并计算窗口为w的移动平均数,若Si[j]是缺失值,则将Si[j]赋 值为窗口Si[j-w,j-w+1,...,j-1]中元素的平均数。[0054]S3:采用K-Shape曲线聚类分析法对日用电量集合S进行分类,使得属于同 一分类的日用电量时序数据在电量时序曲线集合C中的对应曲线具有相似形态特 征。[0055]具体为:[0056]S301:构建每一类别对应的用电量矩阵U,用电量矩阵U中第i行向量为对应 类别中的第i条用电量时序数据;[0057]S302:指定聚类数k,初始化每一类别的聚类中心Ck,其中聚类中心Ck为零 向量;[0058]S303:计算用电量矩阵U中每一向量到各聚类中心Ck的形状相似距离,将各 向量归入与其形状相似距离最小的类,其中,用电量矩阵U中的两个向量Si和Sj之间的形状相似距离的计算公式为:
[0059]
其中,Si和Sj分别为用电量矩阵U中的两个向量,ED、MD、DSD分别是两 个向量的欧
几里得距离、曼哈顿距离以及两者差向量的元素和的绝对值;[0061]S304:根据聚类结果更新每一类别的聚类中心Ck,使得聚类中心Ck与该类别 中所有向量的形状相似距离之和最短;[0062]S305:重复步骤S303-S304,直至达到预设的最大迭代次数或聚类结果不再发 生变化。
[0063]S4:针对日用电量集合S中的每个类别,采用余弦相似法修正该分类中各企 业日用电量时序数据的异常点,其中,可修改的点必须为步骤S2中填补的缺失点。[0064]具体包括:[0065]S401:获取日用电量集合S中任一类别G对应的用电量矩阵U;[0066]S402:遍历用电量矩阵U的各行,寻找未清洗前缺失点和离群点最少的行, 作为标准行。
[0067]S403:从左向右遍历用电量矩阵U,并计算标准行与其他行的余弦相似度,若 某行与标准行的余弦相似度低于阈值,则修改该行中的部分点值,使得该行与标准 行的余弦相似度高于预设阈值,其中,可修改的点必须为步骤S2中填补的缺失点。[0068]S5:针对日用电量集合S的每个类别,采用相关性分析法计算影响因素对该 类别下各企业日用电量的影响权重。
[0069]影响因素包括气象信息和节假日信息,气象信息包括温度、湿度、风速和雨量, 所述的节假日信息包括法定节假日和周末的时序数据,影响因素对企业日用电量的 影响权重通过皮尔森相关系数计算得到,其计算公式为:
[0060]
7
CN 112116265 A
说 明 书
5/5页
[0070]
[0071]其中,X和是日用电量时序数据及其均值,Y和是某一影响因素的时序数 据及
其均值。
[0072]S6:针对日用电量集合S的每条日用电量时序数据,采用一种Seq2Seq预测 模型计算次日用电量的预测值,预测模型的输入包括日用电量时序数据,气象、节 假日等因素的时序数据及影响权重,具体包括:(1)用电量时序数据;(2)春节、 周末等节假日时序数据,用1和0分别表示某日是否为该节假日;(3)温度、湿度、 风速、雨量等气象因素的时序数据,以步骤S5计算的相关系数初始化预测模型的 各因素对电量的影响权重。[0073]S7:构建行业景气指标体系H,企业集合V中的每个企业是行业景气指标体 系H中的一个指标,每个指标的当期值是对应企业的次日预测用电量与当日实际 用电量之比,每个指标的权是对应企业的运行容量或合同容量。[0074]S8:构建行业景气综合指数CI,行业景气综合指数CI的当期值是H中所有指 标的当期值与对应权的乘积之和的归一化值,其计算式为:
[0075]
其中,pi为行业景气指标体系H中第i个指标的权值,qi为行业景气指标体系 H中第i个指标的当期值。[0077]S9:构建行业景气扩散指数DI,行业景气扩散指数DI的当期值是H中所有 指标的当期值与上期值的比较结果之和的归一化值,其计算式为:
[0078]
[0076]
[0079]
其中,xi为行业景气指标体系H中第i个指标的上期值,qi为行业景气指标体 系H中第i个指标的当期值,分段连续二元函数I(xi,qi)将第i个指标的上期值与 当期值的比较结果映射到[0,1]区间。[0081]以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效 的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应以权利要求的保护范围为准。
[0080]
8
CN 112116265 A
说 明 书 附 图
1/1页
图1
9
因篇幅问题不能全部显示,请点此查看更多更全内容