中国交通部科学研究院信息中心副主任叶劲松:交通大数据助力政府决策和产业革新!【数据宝数博会连载五】
2018年5月25日下午,数据宝国有数据资产运营增值高峰论坛在贵州贵安新区成功举办。本届高峰论坛是由2018中国国际大数据产业博览会(数博会)组委会指导、贵州贵安新区管理委员会主办、贵州数据宝网络科技有限公司承办的数博会系列活动之一,围绕如何推进国有数据开放共享、国有数据的应用场景、国有数据将带来怎样的变革等展开讨论,寻求国有数据运营增值之道,勾勒产业新蓝图。
中国交通部科学研究院信息中心副主任 叶劲松
上台演讲
会上,中国交通部科学研究院信息中心副主任叶劲松发表《交通大数据增值畅想》主题演讲。以下是演讲内容:
尊敬的各位领导、各位嘉宾,大家下午好,很高兴在数博会的前期,在贵安新区跟这么多来自各行各业、全国各地的专家来共同讨论大数据增值的话题。我今天演讲的题目叫交通大数据增值畅想,主要是谈我个人对大数据增值的想法。我第一个演讲也是抛砖引玉,供大家共同来讨论。
主要谈三个方面,第一是交通大数据资源现状,第二是交通大数据增值典型应用场景,第三是我自己对大数据增值的的思考。我本人来自交通运输部科学研究院,我们院2016年开始受交通运输部的委托,承担交通运输部综合交通大数据应用中心相关的一些职能。具体来讲,我们中心主要有六项职能,第一要承担综合交通大数据政策标准的研究,其他的五项涉及到我们大数据资源目录的整理、维护,数据交换共享开放平台的建设管理,交通行业数据资源的汇聚,基于这个数据开展的大数据研发和模式创新,另外为行业管理决策提供支持服务。都跟数据的增值有一定的关系,有一些是直接相关,有一些是提供相应的基础。
根据交通运输部赋予我们的职责,目前我们以数据增值为基础开展了一系列的工作。我们首先是编制了交通行业的政务信息的资源目录,在2017年时正式在行业内发布。这个目录包含行业内的信息资源523项,信息项6934项,包括公路交通、道路运输城市交通、水陆运输、综合管理等五个大的方面,形成了交通行业的数据资源的账本。形成这个目录之后,我们正在开展部一级数据资源的共享还有开放平台的建设。应该说,这个平台建设完成之后,将会形成交通运输行业数据资源中心,建成不少数据交换共享的通道,以及部级数据开放共享的主要枢纽。在推进部级数据开放共享平台建设的同时,我们的信息资源接入工作也在同步开展中,目前已经完成了行业内大概30多个司局相关的信息系统涉及到的数据对接的工作,同时完成了219项整个行业数据资源,其中170项资源140多万条的数据进行了统一的整合入库的管理。涉及到行业的综合执法信息、交通运输统计信息、公路养护信息、道路运输许可信息、船舶营运从业资格、交通科技相关的信息资源等。
刚才讲的是我们行业信息资源交换共享的基本情况。实际上我们最终数据资源的交换共享,我们预计还会经过一个很漫长的过程。而且,我自己觉得也是比较艰难的过程。因为里面涉及到数据的持续利用、数据的质量、数据更新、数据安全的相关问题。不管怎么讲,数据资源汇聚之后将会为后续的数据利用奠定比较坚实的基础,数据最终还是要结合今天的主题,为增值来进行服务。
最近这几年也有比较形象的比喻,把大数据比喻为金矿、石油,是一种战略性的资源。还有这么一种说法,一类公司做标准,二类公司做技术,三类公司做产品。这种说法在这里很多嘉宾不陌生。类比为资源的话,我们的产品基本上可以类比成物质资源,我们的技术可以类比成人力资源,我们的标准就是指我们的数据资源。这几年大力推进大数据的发展,最终看重的不是数据,而是看重数据背后的价值,挖掘它本身的价值,它是标准型的东西,把它发掘出来,实现增值,才具备重要的意义。
数据增值,具体是什么?我个人做了一个定义。我认为数据增值是对数据本身进行加工和开发,使原有的数据增加价值,用多种的方式,包括数据产品、数据服务的方式,满足用户的特定的需求,在特定的领域进行应用,对数据的管理者或用户带来直接的附加价值。按照这样的过程,对交通大数据而言,数据的增值包括三方面的类型,第一,进行数据开发用于管理部门,辅助他们在管理决策中使用;第二,对数据的拥有者而言,我们通过对数据的开发拓展衍生我们新的业务链条出来,这种第二种方式,在目前互联网的企业里很常见,经常基于互联网企业原有的基础,利用所汇聚出来的互联网的入口衍生出新的业务。第三形成数据的产品,把我们的数据产品进行加工,挖掘出它更进一步的价值,形成数据产品对外销售。我们经常讲第一类增值是辅助决策让数据发挥它的社会价值,第二、三类增值是让数据发挥经济价值。
不管哪种数据类型的增值,都必须依托于具体的应用,在应用中才能释放出它的价值。我们现在梳理了一下,有价值的交通大数据很多,比如说下面的公路网基础GIS地图数据、行业内的一些重点的营运车辆GPS监控、公路的路况、干线公路关键点的交通量观测,还有道路运输,包括网约车的一些驾驶员、运单信息,都是属于交通行业内的信息资源。
下面,按照我自己的理解,简单的介绍两类典型的大数据资源的应用场景。第一类是高速公路车辆的通行数据,包括所有的车辆进入还有驶出高速公路的时候,记录的具体的时间、具体的位置、车牌号、行驶里程;还有一类是水上的船舶的数据,如在船舶航行和进出港的过程中,船只的GPS的位置、航向、货物、航线。对这两类的数据有几个比较典型的应用场景。
第一类,高速公路车辆的通行数据,能够为政府管理提供参考。基于我们的高速公路通行数据,可以提供经济运行方面的研究。目前主要为交通运输部、各个省提供服务。为什么能够做这个研究?因为高速公路的运行情况,可以直接反映出整个国家的宏观经济的走势。对高速公路车辆通行的数据进行提取分析,我们发现高速公路的货运量跟国家宏观经济指标“克强指数”波动关系非常密切,因此可以说是公认的反映经济发展情况的晴雨表。这就可以为交通运输部提供直接管理和决策的支持。可以说这是一个传统的应用场景。相当于是我们的数据在管理决策中发挥了更进一步的价值。
另外对省级而言,这些数据可以为各个省制订相应的经济发展方向和目标提供分析和支持。比如各个省、地市和周边地区经济交互的情况,包括客流、货物运输的交互情况,对于政府管理部门在管理过程中调整政策能够起到比较大的作用。
下一个是我刚才讲到的第二类数据,就是船舶的航行数据。首先,船有船东,就是船的所有者或者企业。从我们的数据里面可以掌握每一艘船的基本情况,航行的实时位置、航向、到哪里停靠都可以掌握,就可以辅助用来供船东选择热门的船型和经营的区域。实际上,我们这一类应用比较类似于城市里商户的选址,为企业提供一个相应的支撑服务。
第二, 也是同样为企业,供它测算自己旗下的船只的航程和行驶的路径,并据此进行一个提前的规划。我们可以预计不同的港口船只流量的大小,根据流量大小可以建议船只在哪个港口停靠、在哪个港口加油,按照什么样的航线进行行驶。
回到刚才讲到的高速公路的通行数据,其实它还有很多的应用场景。第一,我们可以开展逃费车辆的稽查。高速公路一般采用刷卡的模式,入口领卡出口刷卡来收费,现在存在利用这种系统的漏洞在中途换卡,偷逃费的情况。我们可以利用高速公路上的通行数据,分析车辆的行驶规律,包括行驶时间、出入位置、缴费的情况,对偷逃费进行稽查。为高速公路运营企业提供相应的数据支撑,弥补他的经济损失。另外,还涉及到套牌车在高速公路上行驶的情况,可以通过大数据挖掘哪些是套牌车,为高速公路的运营部门和公安部门提供这些信息。
第二还可以分析车辆的行驶轨迹,找到规律,供运输企业应用,产生数据的增值。可以分析运输企业名下的所有的车辆具体的行程跟他所预期的偏差有多大、是不是按照企业预期的行驶的路线进行行驶,以此分析行驶风险,避免不合理、不合法行驶的情况。
第三类我们可以对车辆的车主或者车辆本身进行一个画像。我们可以分析车辆在高速公路上经常在哪些区域行驶,哪些车辆经常在夜间行驶,哪些车辆在高速公路上疲劳驾驶,或者存在超载的现象。把所有的信息打上标签,形成车辆和车主的画像。这可以对保险公司提供保险、金融机构对车辆进行贷款时的评估提供支持。像刚才讲到的一些超载、超速、疲劳驾驶等特征,应该是有高风险的,这些分析出来之后,能够为企业的风险评估提供依据。
另外,画像还可以进一步的分析每一辆车在高速公路行驶的里程,比如货车,可以知道在每次行驶的过程中拉了多少货。行驶的里程越长、拉货拉的越多,对车辆的损耗就越大,在车辆的价值评估过程中、二手车交易过程中,就可以提供一个相应的评分,作为估值的重要依据。
第四类还可以和道路运输相结合。只要是运营的车辆都有运营的许可,包括人员、车辆等许可。结合道路运输的资格信息,类似于货车帮这样物流的平台,对这些平台上的车辆的资质可以提供验证。对人员和车辆的资格信息进行验证,可以降低平台运输的风险;对货物的实际运单进行验证,可以利用高速公路的数据,客观的反映出什么时候车在哪里,可以验证运单的真实性。另外我们还可以分析出高速公路上哪一段车流量比较大、哪一个类型的车比较多,用于辅助高速公路上广告的投放,可以针对性地调整广告投放的策略,对车流量比较大的路段可以针对性地投放一些广告的信息。
交通行业的大数据的应用场景很多,刚才仅仅讲了两个数据源一些典型的应用。实际上我们作为数据的采集、管理者,从我们的角度来讲,能够提炼出的数据需求是有限的。在后续的数据的增值应用中,需要更多的以需求方的角度提出需求,来推动数据的实际的增值,在实际的需求过程中,把价值充分的挖掘出来。
最后,我想谈一下个人对数据增值的思考。
第一、数据的标准化是一个很重要的问题,无论什么样的产品,要把它的价值充分的挖掘出来,需要标准化。比如到超市买东西,无论什么产品,都有标准的定价、规格。一盒牛奶200毫升,这是形成标准的东西。刚才也讲了,最顶级的企业应该形成相应的标准,对于数据也一样,也应该形成标准的数据产品。我们目前面临着不论是数据增值应用场景,还是企业对数据提出的需求,经常是变化的,这种变化的需求对数据的开发者是一个很累的事情。做好数据的增值,需要形成数据的标准化,比如定义好数据的分类、形成产品的标准内容、确定数据的质量评价体系、数据的传输格式、传输协议、访问的形式等,形成标准化的产品,这样就使产品增值的过程更加便利,降低增值过程的成本。
第二、数据增值要有高质量的数据作为支撑。应该说,数据质量是进行数据增值的基本保证。现在不管干什么事情都会利用公安的数据验证身份的信息,因为可以保证公安的身份证信息是比较准确的数据。刚才我也提到了,我们利用交通行业的大数据,如在高速公路行驶的习惯,比如夜间行驶的情况、超速超载的情况,形成标签,这必须要求行业内的数据资源能够准确、真实、客观的反映数据的规律。在真实的情况下,才能保证在后续推广的过程中,把数据的价值发掘出来。否则,数据质量不行,验证的过程中发现数据是错误的,有可能让数据的价值大大折扣。另外,从理论的角度讲,数据本身有放大的效应,像我们传话一样,人传人,一个两个之后意思就不一样了。当原始数据的质量本身存在比较严重的问题时,形成的数据产品错误的幅度就会越来越大,对我们的管理决策的意义、作用就更小了。高质量的数据对我们数据产品本身的价值具有非常关键的影响。
第三、我想做好国有数据的增值,需要我们数据的拥有方、管理者要形成大数据分析挖掘的能力,形成大数据的产品。应该说,我们刚才讲三类数据增值的类型,第一类是为管理决策提供支持,第二、第三类为企业提供相应的增值的服务。这些都是在数据产品形成之后,不是原始数据,我们对原始数据本身的交易是比较规避的。我们应该积极形成面向政府治理的大数据增值产品,同时创新面向个人和企业的大数据产品。因为面向政府是国有数据天然的职能,但是从发挥更大价值的角度讲,面向企业、个人能够让数据发挥更大的价值,毕竟面向的受众更大。
第四、正确对待数据确权的问题。从数据权限来讲,有数据本身的拥有者、数据的采集者、数据中介、数据的使用者四类角色。不管从哪个角度讲,这四类角色都可以从一定程度上要求他本人对数据的所有权或者对数据的应用的权利。对于数据的本身拥有者来说,比如说个人信息,个人的信息本来是属于个人的。但是采集之后,数据的采集者也付出了相应的劳动,数据的采集者肯定要求对这个数据拥有一定的开发的权限。因此大家都对数据的拥有有一个诉求。我个人认为,对于个体本身的数据,拥有数据的拥有权,而且国家也出台了相应的法律法规来认可这个问题。但是如果对这个数据进行了匿名化的处理之后,相应形成了数据产品,对于数据的采集者、管理者而言,它拥有数据的所有权是没有什么问题的。目前国家的政策法规方面,没有做出明确的界定,但是在数据增值的过程中,很多都在按照这样的模式在运作。数据的确权也需要谨慎来对待,因为涉及到个人隐私的问题,今天早上,我看到央视播了一个欧盟对于个人隐私保护的一个最严厉的法规。我想,不管是在数据的管理还是在使用中,安全都是第一位的,尤其是国有数据。国有数据占所有数据资源的80%,在使用的过程中,必须要保证个人隐私的红线是坚决不能触碰的。一旦触碰,可能导致整个生态链的崩塌。
这是我对国有数据增值,对交通行业数据增值的个人的一些想法,不一定成熟,我是抛砖引玉,希望后面的专家也能够根据他们的经验提出更好的想法。我们的国有数据就在那里,需要数据的拥有者、运营者去“撩”一下,把它的价值充分的发挥出来。我想这也是本届论坛最终的一个目的,也是我们今天主要讨论的一个焦点话题。我今天主要就介绍这么多内容,谢谢大家!
会后热度不减,媒体竞相报道
贵安新区政府官方网站:《2018数据宝国有数据资产运营增值高峰论坛——专家“解码”国有数据运营增值之道》
贵安广播电视台:《【壮阔东方潮 奋进新时代】大数据时代,国有数据将带来怎样的变革?来听听专家怎么说》
贵安新区报20180605期A1版:牢记嘱托感恩奋进苦干实干锐意进取把殷切期望转化为腾云而起的澎湃动力(片段)
中国商业新闻网:助力数据强国丨数据宝惊艳亮相数博会,打造国有数据资产运营权威平台
赛迪网:政企共建数字中国:2018数据宝国有数据资产运营增值高峰论坛成功举办