真的只需要关心PM2.5?广州空气质量分析报告

1560
发表时间:2017-10-26 15:14作者:探数寻理

1. 背景介绍

本篇报告所采用的广州市空气质量历史数据来自:

(1)中国环境?;げ渴葜行?/span>

(http://datacenter.mep.gov.cn/index)

(2)中国空气质量在线监测分析平台(https://www.aqistudy.cn/historydata/index.php)

包含了AQI指数(空气质量指数)、空气质量等级、主要污染物,以及六项污染物质的浓度:其中PM2.5(粒径小于等于2.5μm的颗粒物,也称细颗粒物),PM10(粒径小于等于10μm的颗粒物,也称可吸入颗粒物),SO2(二氧化硫),NO2(二氧化氮)以及CO(一氧化碳)的浓度全部为24小时平均值,O3浓度值为8小时的滑动平均值。除CO的浓度单位为(mg/m3)外其他污染物的浓度单位均为(μg/m3)。不同来源的数据会存在少许出入,但是差别不大。

本篇报告所采用的广州气象数据来自:

(1)天气后报网站数据(http://www.tianqihoubao.com/),包含广州市每日的天气状况与气温信息。

本报告使用的数据的时间跨度为2015年1月1日至2017年6月30日,共有912条记录。

根据我国于2012年2月29日发布并于2016年1月1日实施的《环境空气质量标准》(GB3095-2012)(http://www.cshbj.gov.cn/upfiles/2013-3/2013327153015207.pdf),AQI指数取代了原有的API指数进行使用。

AQI的指数的取值范围为0~500,其中0~50、51~100、101~200、201~300和大于300,分别对应国家空气质量标准中日均值的I级、II级、III级、IV级和V级标准的污染物浓度限定数值。

·        I级:空气质量评估为优,对人体健康无影响;

·        II级:空气质量评估为良,对人体健康无显著影响;

·        III级:为轻度污染,健康人群出现刺激症状;

·        IV级:中度污染,健康人群普遍出现刺激症状;

·        V级:严重污染,健康人群出现严重刺激症状。

AQI指数的计算是取六中污染物的分指数(IAQI)最高值,因此具体计算方法为根据分指数对应各污染物的浓度限值计算各污染物的IAQI然后再取最大值作为当期的AQI值,而对应的该污染物也是当天的主要污染物。

二、探索性分析

首先对空气质量的历史数据进行探索性分析,了解2015年以来广州市空气质量的大致状况,并挖掘空气质量的各因素之间是否存在相互影响的潜在关系。

表1 空气质量等级频数及频率统计表


图1 各空气质量等级所占比例

从空气质量等级的基本统计信息来看,广州市的空气质量级别大多数为良,其次为优。而轻、中、重度污染的天数在源数据的时间范围内所占比重不超过15%。从下图AQI指数分布上来看情况也基本与上述图表吻合,两年半的时间内超过600天的AQI指数值在40~80的范围内。


图2 AQI指数的频数直方图

根据广东省环保厅公布的信息,2016年广东省各地级市环境空气综合质量指数排名中,广州在21个城市中排名倒数第一,然而相比于北京、上海,广州市的空气质量水平仍然要更好。


图3 AQI指数密度曲线(分年度)

从三年的AQI指数的密度曲线来看,虽然2017年的密度曲线由于只有半年数据所以参考性不强,然而从2015年至2016年来看广州的空气质量似乎没有在这段时间内有明显的改善,可见空气污染的治理仍需努力,空气质量仍需进一步提高。

表2 主要污染物类别频数统计表*


*注:部分记录会出现多种污染物质同为该日的主要污染物,该情况在频数统计上均予以记录,同时也因此不再进行频率统计。

**注:原则上当空气质量级别为优时不计算出主要污染物类别,然而由于不同来源数据出入有部分级别为优的记录记载了主要污染物类别,此类记录共27条,其中的1条主要污染物为O3其他均为NO2。由于该类记录数量较少因此将其保留,该现象对结论影响不大。

对每日的主要污染物进行频数统计,可见出现次数最多的前三种污染物质类别依次为NO2,O3,PM2.5;CO和SO2基本上都不是主要污染物(日报次数为零)。

表4 不同空气质量等级下主要污染物类别频数统计***

***注:此处不统计空气质量记录为优时的主要污染物。

从下图来看,若按照不同空气质量等级来看,当空气质量较好时主要污染物多为NO2,然而当空气污染情况较为严重时主要污染物多为O3,其次为PM2.5。由此可见相比于群众更为关注的PM2.5,广州市主要面临的空气污染问题更多是来自O3的污染,因此有必要重视O3污染的治理。


图5 不同空气质量等级下主要污染物类别统计条形图

从下方的矩阵散点图可见,与AQI指数相关关系最为显著的污染物质是PM2.5和PM10。由于PM10中已包含PM2.5所以两者也呈现高度相关,O3与其他污染物之间基本上不存在显著的相关关系。

图6 各污染物质与AQI指数的矩阵散点图


图7 空气质量等级分组复合条形图(分是否下雨)


图8 AQI密度曲线(分是否下雨)

结合天气状况来看,下雨天的AQI指数有的更多比例集中在100以下,相比没有下雨的时候总体水平明显更低,从空气质量等级的分组统计来看也可以看出下雨天的空气污染程度更低??杉菀仓С至巳褐诙钥掌柿砍<囊恢种鞴鄹惺埽合掠晖钥掌柿坑懈纳频淖饔?。


图9 AQI指数关于日平均温度的散点图


图10 日平均温度的分组箱线图

相比之下,温度的高低对空气质量的好坏并没有显著影响。散点图(图9)显示AQI指数关于平均温度的点是分散的,趋势线也没有明显的增长或降低趋势。虽然在高温情况下出现了少量AQI值较高的点,但是根据箱线图(图10)显示下雨天也更多集中在高温时间,而下雨又有改善空气质量的作用。再加上绝大多数的点仍集中在AQI值小于100的范围内,所以认为温度的高低对空气质量的好坏没有显著影响。


图11 各污染物质浓度关于日平均温度的散点图

虽然气温对整体空气质量的影响较小,但细化到各类污染物质时,我们发现O3浓度在高温天气下会上升到较高水平,尤其是在温度达到30℃以上的时候。而其他五种污染物质浓度不太受气温高低的影响。因此在高温天气下应特别注意高浓度的臭氧污染问题。


图12 各污染物质浓度分组箱线图(分是否下雨)

如图12所示,每一种污染物质的浓度在下雨天都将有所降低,其中O3,PM2.5,PM10与SO2的降低更为显著。

三、预测模型

空气质量预测模型的建立使用了AQI值所为因变量,该变量为连续型??悸堑礁迷げ馊挝裣碌氖奔湟蛩?,即不可能提前知道准确的未来空气质量与污染物质浓度的相关信息,但是未来的天气信息往往可以通过天气预报提前得知,且大多数情况下准确度也较高。因此自变量的选取上包含了空气质量信息的前1天滞后值和气象信息的当天与前1天的滞后值,一共16个自变量进行预测模型的训练与测试。具体的变量选取信息如下表所示:

表5 预测模型的所有变量说明表

使用IBMSPSS Modeler预处理数据并分区后进行多模型自动训练与测试并以相对误差为标准选取最优模型(单模型),训练集与测试集样本比为3:2。训练的预测模型种类包括:线性回归、广义线性回归、线性SVM、随机森林、CART决策树、CHAID决策树、神经网络等。最后选出的最优模型为线性回归模型,模型的运行报告如下表6所示。

表6 回归模型运行报告


图13 模型拟合曲线与真实AQI曲线比较图

可以看出相对于蓝色的真实AQI历史数据,预测模型的AQI预测值所形成的红色曲线对其拟合效果较好,能够大致预测出AQI值的每日波动。然而当AQI值在部分时间出现“尖峰”,即污染较为严重的日子里,模型估计值都会乐观很多,无法预测到很高的AQI值,预测误差会较大。

表7 空气质量等级的预测值与实际值交叉表(训练集)


表8 空气质量等级的预测值与实际值交叉表(测试集)


将预测出的AQI值换算成空气质量等级后与真实空气质量等级进行比较得到以上两表,同样可见严重污染的情况下模型的预测能力仍有欠缺,需要后续探索如何提高精度。