面向宏观经济风险的监测预警指标体系构建与建模

1星价 ¥66.9 (7.6折)

2星价￥66.9 定价￥88.0

作者：杨周旺等

出版社：科学出版社

本类榜单：经济

分类：经济 > 经济理论

暂无评论

图文详情

ISBN：9787030712363
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：B5
页数：124
出版时间：2023-02-01
条形码：9787030712363 ; 978-7-03-071236-3

本书特色

助力客观真实地反映经济运行状况和风险情况，实现全方位、动态的监测效果，强化审计部门对经济运行的监测、预警、预测能力，提升宏观管理效能。

内容简介

宏观经济风险监测预警是国家审计工作的重点内容之一。本书旨在将大数据时代下新的数据和分析方法与宏观经济风险研究相结合，建立面向宏观经济风险的监测预警指标体系，并开展基于经济大数据的方法体系与案例研究。本书中的成果有重要的科学意义和实践指导价值。一方面，基于自然语言处理和机器学习的方法论及实践研究将推动大数据技术方法在经济研究中的应用。另一方面，项目组建设的宏观经济指数体系未来将成为宏观经济风险监管与防控的重要工具，助力客观真实地反映经济运行状况和风险情况，实现全方位、动态的监测效果，强化审计部门对经济运行的监测、预警、预测能力，提升宏观管理效能。

目录
第1章　绪论　1
第2章　宏观经济指标库的构建及应用　3
2.1　宏观经济指标库的数据来源　3
2.1.1　政府维度　3
2.1.2　市场维度　3
2.1.3　民众生活维度　4
2.1.4　规范化文本维度　4
2.2　宏观经济指标库的构建流程　4
2.2.1　基于国家统计局的宏观经济指标　6
2.2.2　基于文本数据加工的宏观经济指标　6
2.2.3　基于教科书及中文文献库的宏观经济指标　7
2.2.4　多数据源宏观经济指标合并及经济分类　8
2.3　宏观经济指标库的验证及结构分析　8
2.3.1　宏观经济指标库的验证　8
2.3.2　宏观经济指标库的结构分析　9
2.4　宏观经济指标库的应用分析　11
2.4.1　应用实例一：多源文本的经济主题分析　11
2.4.2　应用案例二：省区市政府工作报告的主题时间序列分析　15
第3章　经济指标建模的一般性方法（一）：混频指标短期预测　27
3.1　引言　27
3.2　混频LSTM模型　28
3.2.1　问题定义　28
3.2.2　整体模型架构　29
3.2.3　分离特征模型　29
3.2.4　组合特征模型　30
3.2.5　稀疏正则化　31
3.2.6　数据增强　31
3.3　数据实验　32
3.3.1　数据集　32
3.3.2　结果对比　33
3.3.3　旁证数据的影响　34
3.3.4　变量贡献度　34
3.4　结论和讨论　36
第4章　经济指标建模的一般性方法（二）：不均衡样本的学习方法　37
4.1　引言　37
4.2　文献综述　38
4.2.1　样本选择偏差与迁移学习　38
4.2.2　基于倾向分数的加权　38
4.2.3　基于特征匹配的加权　39
4.2.4　基于整体分布的加权　39
4.3　算法设计　40
4.4　实验过程及结果　43
4.4.1　实验数据　43
4.4.2　实验算法　44
4.4.3　实验结果　44
4.5　结论　46
第5章　增长指标建模案例：GDP预测建模　47
5.1　引言　47
5.2　研究概况　47
5.3　数据　48
5.3.1　GDP　48
5.3.2　解释变量　49
5.3.3　样本构造　50
5.4　模型简介　52
5.4.1　LASSO回归模型　52
5.4.2　SVR模型　52
5.4.3　RNN系列模型　53
5.5　实验　54
5.6　结论　56
第6章　稳定指标建模案例：就业与失业指标预测建模　57
6.1　引言　57
6.2　数据与描述性统计　59
6.2.1　个人层面的全样本行政数据　59
6.2.2　数据的预处理　60
6.3　模型构建　61
6.3.1　模型算法　61
6.3.2　样本构建　62
6.3.3　特征分析与特征工程　63
6.3.4　基于个人层面预测的失业率计算　67
6.4　模型结果与分析　68
6.4.1　个人就业状态预测结果　68
6.4.2　特征重要性与模型解释　70
6.4.3　基于行政大数据的失业率预测　72
6.4.4　就业失业动态　72
6.4.5　性别与结构性失业　73
6.4.6　就业/失业人口文化程度结构　74
6.5　结论　74
第7章　民生指标建模方法研究一：人口迁入与新增确诊人数趋势关系分析　76
7.1　疫情数据初步分析　76
7.1.1　一代与非一代病例情况对比　76
7.1.2　深圳市病例数分析　78
7.2　人口迁入与新增确诊人数的趋势关系及因果量化分析　79
7.2.1　格兰杰因果关系检验简介　79
7.2.2　疫情建模方法　81
7.2.3　量化分析结果　82
7.3　研究结论与方法总结　83
第8章　民生指标建模方法研究二：新增确诊人数估计的概率模型　84
8.1　引言　84
8.2　疫情数据初步分析　85
8.3　每日新增感染人数　86
8.3.1　符号说明　86
8.3.2　基本假设　87
8.3.3　似然函数　87
8.3.4　EM算法　88
8.3.5　每日新增感染人数的分析与讨论　88
8.4　基于参数Bootstrap方法的每日新增感染人数的区间估计　89
8.4.1　参数Bootstrap方法　89
8.4.2　数值分析结果　89
8.5　研究结论与方法总结　92
第9章　民生指标建模方法研究三：动态传播率模型及其在疫情分析中的应用　93
9.1　引言　93
9.2　动态传播率模型　94
9.3　动态传播率的函数拟合　96
9.4　动态传播率的疫情变化估计　99
9.4.1　疫情变化估计的方法介绍　99
9.4.2　疫情变化估计的滑窗期选择　99
9.5　研究结论与方法总结　100
第10章　民生指标建模方法研究四：基于动态增长率模型的疫情分析　102
10.1　引言　102
10.2　动态增长率模型　102
10.2.1　动态增长率模型的提出　102
10.2.2　动态增长率模型的计算　103
10.2.3　动态增长率模型与疫情变化估计　104
10.2.4　动态增长率模型拟合函数选择　104
10.3　研究结论与方法总结　106
参考文献　107

展开全部

节选

第1章绪论面向宏观经济风险的监测预警是审计工作的重点内容之一。宏观经济风险复杂性的增加，要求审计工作能够提前识别和评估各类风险，提早采取措施防范和化解风险。大数据的发展对宏观经济风险的审计监测和分析技术都产生了影响，传统的方法难以满足审计工作在准确性、时效性、系统性等方面的要求。首先，数据量、数据颗粒度、数据频率发生了极大改变。大数据技术能够收集包罗万象、实时更新的海量数据，数据量和数据更新频率都有提高，这为宏观经济分析提供了新的“弹药”。过去主要依靠统计学方法发挥数据的作用，然而数据量不够充足、数据更新不及时、样本数据存在偏差等问题难以解决。随着全球数字化、网络宽带化、互联网等应用于各行各业，数据来源和承载方式迅速扩大，数据量呈现爆发性增长的态势。数据存储单位从*初的MB到现在的GB、TB，甚至PB、EB级别，结构化数据和文字、图像、音视频等非结构化数据大量涌现。基于大数据的经济学实证研究大量涌现。例如，Bok等（2018）利用海量银行交易数据，对 GDP 增长做出早期估计。Baker（2015）通过约400万家庭的全面板财务信息，分析大衰退期间家庭资产负债表、收入和消费之间的相互作用，结果表明高负债群体的消费弹性显著高于其他群体。Askitas和Zimmermann（2013）利用重型载具每月的越境数据构建了新的经济周期预测指标—通行费指数（toll index）。实证证明，通行费指数是生产类指标［如GNP（gross national product，国民生产总值）］良好的先行指标。越来越多的经济学家意识到，随着数据的爆炸式增长，当前主流经济学所采用的模型驱动研究范式已难以满足经济学研究的需要，大数据环境下数据驱动的研究范式将革新未来的经济学研究。其次，宏观经济指标的构建更加多源，经济指标建模维度更加丰富。传统的经济统计指标不再是唯一来源。在数据库技术、网络爬虫技术、索引器等大数据技术与工具的赋能下，基于互联网基础产生的搜索数据、社交媒体数据等各类数据都可以被收集，并用于经济指标的提取与预测。互联网已经从传统的信息传播媒介升华为虚拟的社会空间。越来越多有关人类经济、社会运行的数据被投射到云上。因此，在实时、交互、离散化、非结构化的海量数据中，蕴含着经济社会运行的各种先行指标信号。在国际上，Thorsrud（2016）通过分析挪威的报纸Dagens Naringsliv，预测了经济走势，更全面地捕捉了经济衰退信号。Jean等（2016）通过分析卫星夜晚灯光图像数据，发现夜晚灯光强度与经济发展之间有强相关性，能够在一定程度上预测经济收入水平。Blumenstock等（2015）利用个人手机历史数据，预测个体的社会经济地位，进而反映国家的资产分配与贫富差距状况。 *后，大数据技术和分析方法的出现赋能传统经济学研究，推动经济学研究方法创新变革。Hadoop、Nosql、Spark、Flink等大数据技术为海量数据存储和计算提供场景。机器学习、深度学习、统计学习等大数据分析方法与传统经济分析相结合，可以减少经济预测误差，提升经济预测精度。Psimopoulos（2020）使用机器学习与传统经济学方法对比，预测了经济衰退。通过比较预测性能发现，支持向量机（support vector machine，SVM）模型的预测效果要优于其他方法。陈梦根和任桃萍（2020）研究了消费价格指数（consumer price index，CPI）的预测模型，并采用传统的方法和机器学习方法进行预测和对比分析。结果表明，神经网络模型的预测效果明显优于传统的回归方法和时间序列预测方法。倪宙和芮凯（2019）通过机器学习集成模型对人民币汇率进行预测，发现机器学习集成模型较传统的时间序列模型和非线性模型具有更高的预测精度。大数据分析方法的应用提升了传统经济学研究的效能，为经济研究开拓了新的视野与思路。新时代下，全球风云际会，经济全球化遭遇逆流，经济发展的不确定性明显增加。大数据以其丰富的信息价值，成为快速、准确监测预警宏观经济风险的重要保障。本书利用大数据技术优势，科学合理地构建了基于大数据技术的宏观经济指标体系，并针对指标体系开展探索性分析，旨在为宏观经济风险监测预警提供助力。本书在第2章介绍大数据环境下宏观经济指标体系的构建。第3章和第4章深入探讨研究两种宏观经济指标建模的一般性方法。第5章至第10章分别介绍增长类风险指标、稳定类风险指标与民生类风险指标的建模预测。第2章宏观经济指标库的构建及应用宏观经济指标库的建立对监测宏观经济运行状况，预判宏观经济运行中的各种风险有着重要的作用。本章首先介绍构建宏观经济指标库的数据来源；其次，对基于自然语言处理等技术对宏观指标提取的方法流程进行详细说明；再次，对宏观经济指标库中的宏观经济指标进行验证和结构分析；*后，通过应用实例，介绍宏观经济指标库的社会应用价值。 2.1　宏观经济指标库的数据来源在宏观经济指标库构建前，需要评估选取合适的数据来源，确保宏观经济指标库内所包含的宏观经济指标的科学性与全面性。因此，在选取用于提取宏观经济指标的文本时，本书从政府维度、市场维度、民众生活维度以及规范化文本维度出发，搜集多维度的文本数据，旨在*大化宏观经济指标库的覆盖面。下面对构建宏观经济指标库所使用到的数据进行详细说明。 2.1.1　政府维度本书收集了地方政府工作报告和中央工作会议数据。**部分是地方政府工作报告，包含中国31个省区市2000～2020年的政府工作报告数据，数据中部分省份，如河南、贵州、福建、甘肃等早期的政府工作报告数据存在缺失，数据总量为603篇。第二部分是中央工作会议数据，包含：2019年1月至2019年5月的国务院常务会议内容；1994～2019年中央经济工作会议内容；1954～2019年全国人民代表大会会议内容；2013～2019年中共中央政治局会议内容。 2.1.2　市场维度本书收集了2014年至2018年期间各金融机构研报，总计数量为846篇。 2.1.3　民众生活维度本书收集了2015年12月24日至2019年7月13日期间，每日播报的《新闻联播》节目的文字稿内容，总计1269篇。 2.1.4　规范化文本维度本书收集了具有规范化宏观经济指标格式的文本数据。其中，**部分为国家统计局统计数据库中，月度数据库、季度数据库和年度数据库所包含的宏观经济指标数据；第二部分为根据某些经济指标，从中国知网中检索并下载的文献数据；第三部分为教科书数据，包含12本经济学教科书，具体书名如表2-1所示。 2.2　宏观经济指标库的构建流程本节将对宏观经济指标库构建中的流程步骤进行详细说明。其中，**部分对基于国家统计局的宏观经济指标提取流程进行说明；第二部分介绍基于金融机构研报、《新闻联播》文字稿和中央工作会议内容的宏观经济指标提取流程；第三部分对教科书及中文文献库提取宏观经济指标的方法进行介绍；第四部分对多数据来源提取的宏观经济指标的合并和分类标注过程进行说明介绍。宏观经济指标库的构建流程如图2-1所示。 2.2.1　基于国家统计局的宏观经济指标本节通过jieba分词工具包对国家统计局数据库中的每个标准宏观经济指标进行分词处理，提取分词后的宏观经济指标的*后一个词袋，形成尾词数据集。而后，对尾词数据集中相同的尾词进行去重。同时，去掉数据集中不可量化的尾词，如“工程”“机构”等。根据生成的尾词数据集，对国家统计局宏观经济指标做筛选，选出经过分词处理后，尾词部分在尾词数据集中的宏观经济指标。*终，形成基于国家统计局的宏观经济指标，其中包含7718个宏观经济指标。 2.2.2　基于文本数据加工的宏观经济指标本节通过jieba分词工具包，分别对金融机构研报、《新闻联播》文字稿、中央政府工作会议内容进行分词处理，去除文本数据中多余的停用词，如“因此”“以及”“导致”等。将分词后的单词按照不同的取值进行滑动组合，将单词组合成不同的词组，形成词组集合。具体方法如图2-2所示。本节通过对生成的词组数据集进行分析，发现词组数据集中存在两个问题。**，词组数据集中存在较多和宏观经济指标无关的词组，如“相对缓慢”“压力导致”“已经逐步”等。第二，词组数据集中词组的频率呈现右偏分布，出现频率较低的词组大多不符合宏观经济指标的判定。为解决以上问题，保证宏观经济指标提取的准确性，本节根据自然语言处理技术中的BoW模型（bag-of-words model，词袋模型）原理，通过Doc2Bow方法，对生成的词组创建索引，并计算每个词组在文本数据中的词频。选取5%作为高频词阈值，对所有词组的词频统计结果进行汇总，形成词频统计列表，保留词频排名前5%的词组。

本类五星书