社科网首页| 客户端| 官方微博| 报刊投稿| 邮箱 中国社会科学网
188体育网址

大数据技术及其行业应用:基于铁路领域的概念框架研究

2019年07月26日来源:《北京交通大学学报(社会科学版)》2019年03期作者:马丽梅 史丹 高志远 李华杰

摘要在对大数据关键技术架构进行总结对数据获取、数据处理、数据分析模型和数据应用进行描述的基础上利用大数据关键技术平台构建铁路大数据应用的体系架构该体系框架包括铁路数据获取层、平台层和应用层并刻画铁路大数据的处理流程。铁路大数据体系结构的建立将促进大数据技术在我国铁路行业的落地生效全面提升铁路数据资源的经营开发水平为铁路提高运输安全水平、实现客货运精准营销、提高运输效率提供参考。应结合铁路发展的需求强化顶层设计充分借鉴其他行业大数据应用经验分阶段分步骤实施铁路大数据策略。

关键词工业大数据Spark框架大数据产业铁路大数据

基金项目国家自然科学基金重大应急项目“我国经济高质量发展与产业结构调整升级研究”71841015);188体育网址 京津冀智库课题“大数据应用及实验室建设”GJSZK201905

一、引言

近年来随着经济社会的发展和信息技术的进步大数据作为一门新的行业其热度不断提高2011年开始进入人们的视野之后飞速发展。我国政府高度重视大数据行业的发展国务院等部门先后印发《促进大数据发展行动纲要》《大数据产业发展规划2016—2020年》等指导性文件20多个省份出台了本地区大数据产业发展规划我国大数据产业已进入快速发展的轨道。国务院在《促进大数据发展行动纲要》中提出了大数据的概念其特征包括类型多、容量大、存取速度快、应用价值高等这样一系列的集合即为大数据大数据产业是指对大数据开展采集、存储数据的分析并且创造价值和提升能力的产业。在维克托和库克耶编写的《大数据时代》中指出大数据是不采用抽样调查等传统分析法进行处理而采用计算机信息技术进行分析处理的数据。麦肯锡[1]2016指出大数据是一种数据集合即在数据采集、存储和分析方面大大超过传统数据工具处理的能力具有海量数据规模、多种数据类型、数据快速流转和价值密度低等特征。从一般意义上讲普遍认为大数据具有4V特征即体量大Volume、种类多Variety、速度快Velocity和真实性Veracity

当前大数据在经济领域的应用研究可大致将其归纳为两类一是对宏观经济的预测优化传统指标或构建新的预测指标二是建立经济变量的联系以期进行关联挖掘用户特征达到优化改善企业经营及销售的目的这里主要涉及大数据在不同行业的应用。在第一类预测问题研究上主要是通过搜索引擎GoogleTrends、百度指数等和数据抓取也称为网络爬虫来获取数据进行预测分析这些预测指标主要包括GDP、失业率、房地产、通货膨胀等等。Askitas和Zimmermann[2]2009McLaren和Shanbhogue[3]2011Vicente等[4]2015分别运用搜索引擎得到的数据对德国、英国、西班牙的失业率进行预测预测结果与真实值较为接近、效果良好。Cavallo和Rigobon[5]2016主要阐述了麻省理工学院2008年启动的“十亿价格计划”通过抓取网络上公布的多种商品价格数据构建指数来研究美国、阿根廷等20多个国家的通货膨胀指数对比研究结果发现这种大数据研究方法更为接近真实水平。国内学者的研究起步较晚姜文杰等[6]2016运用百度指数通过构建系列模型预测了上海的房价走势李凤岐等[7]2017通过百度搜索查询指数对中国的宏观经济指标进行了预测研究结果虽然存在偏差但仍与真实值接近。

在第二类关联问题及涉及行业的研究上这类问题研究的数据获取不仅仅局限于网络还包括来自于行业及企业积累的大容量数据。Antweiler和Frank[8]2004Gilbert和Karahalios[9]2010Moat等[10]2014通过Twitter、Google、Wikipedia以及财经网站收集的数据研究投资者情绪、搜索频次对股市的影响。Li等[11]2015TripAdvisor.com的上万条评论中总结用户的潜在旅游偏好进而进一步优化酒店服务。在行业研究上电力、互联网、零售、电信等行业积累了大量的消费者及自身运行的数据信息通过这些数据在内部可以实现优化自身管理模式的需要从外部应用上可以丰富自身的增值服务。Chittaranjan等[12]2013运用智能手机数据来研究五大人格维度的关系进而探寻用户个性改善企业经营销售业绩。李杰[13]2016从工业4.0视角进一步解读了工业大数据对大数据的行业应用从价值理念到实践案例进行了系统阐述他提出大数据的行业应用不仅仅是用于企业系统维护和自身功能提升的信息服务而是以自身核心功能为基础利用大数据挖掘新知识并创造竞争力与社会价值。吴力波等[14]2016、郭雷风[15]2016、田歆等[16]2017、周辉宇[17]2017、谢康等[18]2018分别对大数据技术在电力、农业、零售业、交通部门以及产品研发领域的应用特别是在中国的应用进行了详细的探讨。

在国内大数据行业研究领域现有研究主要集中于现代服务业以及互联网相关行业大数据在传统行业的应用并未得到足够的重视和充分探讨本文在对大数据的技术架构进行整体描述的基础上根据我国铁路大数据的发展现状尝试探索铁路大数据技术框架的构建这将进一步促进大数据技术在我国铁路行业的落地生效为铁路提高运输安全水平、实现客货运精准营销、提高运输效率提供参考。主要创新点在于在解析“大数据+铁路”的基础上阐述大数据之于传统行业升级的重要意义基于产业链构建铁路大数据系统架构尝试对铁路大数据的规划设计、落地实施和其他行业大数据产业示范等提供一定的借鉴意义。

二、大数据的技术架构

如果将大数据处理按处理时间的跨度要求从长到短可分为三类一是流处理即基于实时数据流的数据处理StreamingDataProcessing),通常的时间跨度在数百毫秒到数秒之间二是交互式分析即基于历史数据的交互式查询InteractiveQuery),通常的时间跨度在数十秒到数分钟之间三是批处理即复杂的批量数据处理BatchDataProcessing),通常的时间跨度在几分钟到数小时之间[19]。当然这三类数据处理流程并不一定能完全分开它们的处理一般情况下要涉及两类组件Hadoop和Spark这两个组件也是大数据技术两个重要的核心部分。图1展示了大数据的核心架构主要包括4个层级即数据获取层、数据处理层、模型层和应用层。

1大数据技术架构

1.数据获取

常见的数据获取方法主要包括两类①系统日志采集方法。许多互联网企业形成了自身的数据采集方法可以用在系统日志的采集过程中Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等这些工具都是使用的分布式结构可以满足每秒数百MB的采集及传输需要。②网络数据采集方法。网络数据采集就是通过网络爬虫以及网络公开API的方法在网上获得数据这种方法将非结构的数据在网页中提取然后存储在本地的数据文件中并且通过结构化的存储模式存储起来可以进行图片、音视频等文件的采集操作附件可以和正文进行关联不仅包括网络的相关内容还包括网络流量的采集可以使用DPI或者是DFI等管理技术进行处理[20]。

2.数据处理

数据处理层包括两个重要架构Hadoop架构和Spark架构。Hadoop为开源软件框架对数据采取分布式处理方式其主要特征体现为高可靠性、高扩展性、高容错性、低成本及高效性。Hadoop能够实现一个名为MapReduce的简单编程模型[21]。MapReduce是由Google提出来的一种新的数据处理编程模型可以处理TB级以及TB级以上的数据工作。MapReduce主要的优势就是隐藏了编程系统的细节开发者能够集中全力地解决核心问题并不是关注计算机执行的细节。它继承了函数式以及矢量语言的优点该编程语言不仅可以用在非结构化中而且能够用在结构化的数据上实现查找、知识挖掘、机器语言智能学习等功能。Spark是现在大数据领域最热门、高效的数据快速分析解决框架。它立足于内存计算从多迭代批量处理出发将流计算Streaming、图计算GraphProcessing等不同的模型能够在一个平台中统一起来通过一致的接口促进各个框架在内存中进行集成有利于系统任务得到更好的实现[1921]。

3.数据模型

数据挖掘与机器学习。数据挖掘和机器学习是大数据技术架构中模型层的重要组成部分。数据挖掘是通过算法搜索来获取大量数据中潜在有用的、有效的、最终可理解的信息的过程。机器学习是数据挖掘中的一种重要工具目前已经成为计算机数据分析技术的创新源头之一。数据模型常用的大数据分析软件包括统计分析软件R软件、SAS软件、SPSS软件等、数据库软件Oracle软件、SQL Server软件等以及计算机编程软件Java软件、C语言等软件。大数据的分析方法包括统计分析如聚类、关联规则等、在线分析处理、情报检索、机器学习等等。

4.数据应用

大数据技术怎样服务化是一个值得研究的领域。云计算是大数据应用中不可避免的问题。目前大数据云服务有两种经典模式一是托管模式这种模式的核心是通过云的能力简化了集群的创建、运维等二是服务化模式用户不用关心集群、资源等问题只需将大数据任务交给大数据云即可享受相应服务。大数据应用主要在智慧城市、城市交通、医疗、金融、城市规划等各领域中应用媒介主要是门户网站、个人事务、邮件系统等。

三、案例研究铁路大数据的应用框架探索

我国铁路部门非常重视数据的积累工作当前的铁路数据已经达到了一定的规模数据的存储格式以结构化的数据为主视频以及图片等非结构化数据量也在不断增加。我国铁路实行模块化管理主要包括机务、车务、工务、电务和车辆等模块具有跨区域网络、技术构成复杂、部门繁多、业务应用广泛等特点因此铁路是一项全流程、全业务、全数据的复杂系统工程构建铁路大数据必须考虑铁路自身专业的特点加强顶层设计、跨部门协作、跨业务管理和跨技术耦合。

铁路大数据及其内涵

1.铁路大数据内涵

铁路大数据是指大数据技术在铁路行业中的应用不仅包括大数据的数据采集技术、分析技术和统计预测技术[22]还包括大数据的思维和理念在铁路行业中的应用。从更深层次考虑将铁路数据从传统的报表分析、数据统计向智能化、精准化、网络化、协作化方向转变从结构化数据的传统方法分析向非结构化数据的智能方法转变从有限数据向多维度、多粒度、多模型、多形态的海量铁路数据转变铁路大数据是铁路技术、铁路科研、生产管理等全产业链的跨业务、跨部门、跨区域、跨专业的有效工具是汲取铁路数据价值、促进铁路发展、加快铁路企业转型升级的重要手段是加快铁路现代化、实现铁路走向更高级阶段的一个必经过程。

铁路大数据包含了以下层面的含义一是我国铁路信息化经过近40年建设12.4万公里铁路轨道6000多个车站、近4万多台机车和动车组上安装大量感知器在铁路工程建设、联调联试、客货运输等领域通过软硬件接入、数据共享等方式产生了海量的结构、半结构化和非结构化的数据。二是铁路数据的获取方式、获取范围和获取时间产生了很大变化随着各类信息系统建设包括铁路建设BIM平台、12306客运服务系统、95306铁路物资采购与招商平台、机车远程诊断和监测CMD系统、机车车载安全防护6A系统等可以实现对数据的实时采集、全面分析和动态管理数据集成平台在铁路领域获得了更大范围的利用。三是铁路大数据理念被广泛接受海量铁路数据提供的有价值决策被用于进行设备状态管理、客货流量预测、故障预测和健康管理、工程建设、安全保障等等。四是增值服务。这是铁路行业转型升级的关键要素利用铁路数据可以给用户提供更加丰富的增值服务内容同时也可作为城市发展以及投资决策的重要参考。通过完善“出行地图”能够更精准地反映地区经济状况及各群体的出行习惯可以为城市和基础设施建设规划提供基础依据。

2.铁路大数据特征

铁路大数据是由结构化数据和非结构化的数据组成的。随着各种智能设备在铁路中不断的推广应用非结构化数据也在快速发展其数量将大大超过结构化的数据铁路大数据不仅能够满足4V特点它还包括以下三个明显的特征①泛在性。铁路大数据覆盖了铁路运输生产各个环节包括机、车、工、电、辆实现了业务链条全覆盖。②地域性。由于我国铁路分布较广全路18个路局集团公司所管辖的机车、动车组、车辆、轨道、信号等都会产生各类数据具有较强的时空特征。③交叉性。铁路大数据不仅仅涉及铁路企业自身管理而且还涉及军事输送、资源调配、社会安全、公共管理等多个方面。交通出行将成为未来国家经济发展的重要组成部分铁路大数据的应用前景会随着与不同行业的交叉关联变得更为广阔。

铁路大数据概念框架设计

1.铁路大数据产业链分析

铁路运输行业的应用系统包括铁路组织结构总公司、路局、站段等中涉及到的业务系统根据“铁路信息化总体规划”铁路信息系统涵盖铁路业务层面的多个系统包括运输生产组织、运输调度指挥、运输安全管理、客运营销、货运营销、人力资源管理、党建管理等1展示了部分铁路相关业务系统。

1部分铁路相关业务系统

资料来源铁路总公司《铁路信息化总体规划》。

2.铁路大数据系统架构

根据图1的大数据技术架构以及铁路大数据产业链及其本身的特性本文构建了铁路大数据的系统架构并将其分为五个层级来满足大数据技术从数据采集到最后应用端的全部过程见图2。

2铁路大数据系统架构

1数据获取层。主要包括数据的采集及初步分析涉及图2的第一、二、三层。各类感知设备、信息系统等是数据采集的来源主要是安装在机车和动车组上的各类元件、工务上的轨道检测设备、车辆上的测量仪器等信息系统主要包括铁路运输生产的客货运系统、安全管理系统等。除此之外还包括服务器设备、网络设备服务器设备主要满足大数据的云环境网络设备主要是指数据的传输设备。数据的获取可以通过互联网技术应用智能设备对数据进行集中和统一操作并且形成数据中心促进了数据的链接以及共享和使用这一应用主要集中于图2的第三层。通过无线网络获取地面综合应用子系统的远程数据实现全路客运、货运、工务、供电、电务、安全管理、人才培养、协同办公等业务数据采集构建清晰、完整、高质量、高可靠的数据资产体系。以6A系统、CMD系统为例。

3机车车载安全防护系统

安全管理系统6A

3为机车上的6A系统即机车车载安全防护系统[23]主要通过机车上的各类传感器实时采集制动监测、防火监控、高压绝缘检测、列车供电监测、走行部监测和视频监控六项数据视频监控为视频数据其他为文本和图像数据并利用三次样条插值法对时间不同步的数据进行处理最后通过交换单元传输到外部接口。

机车信息化系统CMD

CMD系统即机车远程监测与诊断系统主要集成了智能设备、大数据和互联网的理念通过车载LDP设备实时采集机车的各类信息包括机车安全信息、机车状态信息和机车监测信息数据包括了文本数据、图像数据和视频数据通过我国自主的北斗卫星导航系统进行数据传输最后通过铁路内网实现机务段、路局机关和总公司三层信息共享。

2平台层。主要包括铁路大数据的处理及初步应用涉及图2的第四层。平台层通过批量计算、内存计算等多种计算方式满足铁路不同业务类型数据的计算需求[24]。铁路安全监控系统包括大量非结构化的数据并且进行在线实时处理实现在线的人机交互和在线分析。铁路客运大数据分析提供批量查询技术实现海量客运数据特征分析。此外还有大批量的离线数据可以利用批量化的处理技术进行离线处理包括各类报表、历史记录等在以上数据计算的基础上开展更高层次的数据分析进行数据建模、数据预测、数据分类和聚类等支持在线算法处理应用为铁路分析决策提供平台支撑。以客运数据、基础设施数据为例。

客运大数据

客运大数据处理主要包括对数据的清洗、聚类、预测等客运大数据属性达60多个包括列车车次、乘车日期、乘车时间、列车类型、速度等级等因此针对特定数据需求需进行数据清洗进行维度归约处理进行特定属性的选择。然后对特定属性的数据进行聚类如把旅客出行距离进行聚类可以划分为短途、中途和长途旅行。在此基础上根据聚类数据对不同旅行距离的客流量进行预测。

基础设施大数据

铁路基础设施主要包括轨道、接触网、信号机、桥梁、隧道等通过大数据中的数据挖掘、预测分析等对工务进行故障发现、故障预测通过大数据中的关联分析、数据挖掘等对接触网运行质量进行评价通过大数据中的聚类分析、判别分析等对通信设施故障进行归类对不同路局的通信故障进行判别分析。

3应用层。主要包括铁路大数据的深度应用涉及图2的第五层针对各个业务领域的数据分析和决策支持的需求能够实现多业务的数据系统支撑面向多层次多用户的分析应用包括战略决策、经营管理、现场管理等。在经营效益层面重点对客货运开展营销分析、行业竞争分析、价格管理、成本分析等在运输安全方面进行运营安全隐患预测、行车安全分析、事故调查等在运输效率方面进行物资供应分析、运力的调配和优化、运输组织优化等在客户服务方面进行客货运客户精准营销、扩展服务和产品质量提升等。

铁路大数据处理流程

铁路是一个庞大的体系针对各个领域的数据采集、处理、分析等都有相应研究通过CMD系统对机车数据的采集与处理通过6A系统对机车安全数据的采集与处理通过TMIS系统对铁路运输管理数据的采集与处理通过12306系统针对客运数据的采集与处理通过95306平台针对货运数据的采集与处理等。随着信息技术的发展铁路数据采集的频率、精度不断提高基于各种数据融合的数据分析方法越来越多。然而如果从大数据流程的角度来考虑大部分研究仅仅侧重于数据流程的几个环节还很难有能够全部覆盖整个链条的应用。通过对比其他领域的相关研究铁路大数据流程应该包括铁路数据的采集、预处理、管理、处理、分析等不同阶段的支撑有所不同。在数据采集阶段主要是各种硬件设备传感器、应答器、摄像仪等对数据的采集和信息系统的数据交换在数据预处理阶段主要是数据筛选、数据清洗、数据整理、数据标准化等工作通过制定标准或设计算法能解决大部分的问题在数据管理阶段更多的是依托于现有的一些大数据软件、系统等在数据处理阶段针对具体的应用场景需要不同的处理平台或技术支撑比如分布式处理等数据分析阶段是与应用或需求息息相关的通过设计不同的模型可以获得不同的分析结果。

1.铁路大数据获取

严格意义上讲数据采集包括“采”和“集”两个内容“采”是指对物体的数字化表达、形成数据的过程主要是各类硬件设备、信息系统“集”是指将数据汇聚的过程主要是传输网络包括铁路内网、北斗导航、GPRS、WLAN等技术。当前电子技术、信息技术快速发展面向铁路领域的数据感知设备越来越多传感器、移动终端等快速推广和应用结构化、弱结构化、半结构化及非结构化的铁路数据源源不断地产生。现有研究展示了数据的多种方式包括基于硬件设备的机车、车辆、线路等数据采集、基于信息系统的运输生产数据采集数据采集的频率越来越高、精度越来越高、质量越来越高图片、视频、音频等非格式化的数据也越来越多。例如机车CMD系统不仅要通过传感器、摄像仪等采集机车运行数据还要通过数据交换的方式采集6A系统中的机车安全数据集成了所有机车数据。

2.铁路大数据预处理

铁路很多数据是实时采集硬件设备的损坏、人工处理的纰漏、传感器等时间不一致等都会使采集的数据中存在大量杂乱、重复、不完整的数据严重影响后期的数据处理分析进而导致决策偏差、失误等。数据预处理非常重要比如在一个完整的数据挖掘过程中数据预处理所花费时间比例能约达60%。数据预处理主要包括对已采集数据的清理、抽取、集成、变换、数据质量评估等铁路数据预处理过程需要注意以下问题①数据清理重点针对数据源中的噪声数据、无关数据等②通过数据抽取技术进行数据的归一化表达和一致性处理③通过集成实现模式层的数据一致④数据变换主要是通过规格化、旋转、投影等操作对数据进行简化找到数据特征表示⑤对数据质量进行有效评估一致性、正确性、完整性和最小性是数据质量评价的基本指标。例如对机车能耗数据的处理首先要对重复、无效的数据进行筛选、清洗对来源于不同数据库的信息进行集成以时间为标准进行统一对不同区段的能耗数据按照公里标进行判别、提取最后得到完整的机车能耗数据库。

3.铁路大数据管理

大数据管理是指利用数据库技术、分布式文件系统技术等实现对各种数据的有效组织达到快速索引、高效查询等目的。传统的数据库技术以关系型数据管理为主数据量级相对小在面对半结构化、非结构化数据洪流时其扩展性存在障碍难以满足需要。面对类型多样、形态各异、数量庞大的铁路大数据需要根据具体需求选择合适的数据库。图存数据库以及文档数据库等非关系型数据库、传统关系数据库系统以及NewSQL数据库等都将在铁路大数据的管理中起到重要作用。例如对客运大数据进行管理全路每天上千辆列车运行产生海量数据在进行数据预处理后按照特定需求对数据进行判别建立数据仓库进而形成不同类别的数据库。

4.铁路大数据建模

大数据的研究最主要的功能在于利用数据分析技术获取未知潜在关联、隐藏范式、市场及社会规律和附加价值等。传统的数据分析技术如数据挖掘中的关联、聚类、分类、预测、时序模式、偏差分析等技术将仍然可用。一些新兴的数据分析技术也将不断涌现并将在铁路大数据领域占据重要位置。例如通过先进的人脸识别技术将旅客头像与海量的治安大数据进行匹配实现刷脸进站简化了安检流程也在一定程度上打击在逃人员。

5.铁路大数据应用

现有的铁路数据的应用大多还集中于行业内部用于安全运营以及相应的服务功能。实际上铁路行业的泛在特性决定了铁路行业的多维应用基于数据挖掘得到的附加价值使铁路行业的大数据应用外延可以拓展更广。在旅游行业高铁作为交通出行的重要选择可以为旅游行业提供旅客流动数据及其呈现的特征便于行业利润的提升。在国家层面基于铁路大数据的地域性特征根据旅客出行的目的及地区旅客流动量可以作为地区经济发展的重要评估指标。交通出行将成为未来国家经济发展的重要组成部分铁路大数据的应用前景会随着与不同行业的交叉关联变得更为广阔。

四、总结及政策建议

在大数据时代数据成为基础战略性资源本文对大数据关键技术架构进行总结并以铁路行业为例构建了大数据技术在铁路行业的应用概念框架主要总结如下

1.从数据来源、数据获取和数据服务等方面对铁路大数据的内涵和特征进行了阐述。铁路大数据是指大数据技术在铁路行业中的应用不仅包括大数据的数据采集技术、分析技术和统计预测技术还包括大数据的思维和理念在铁路行业中的应用。铁路大数据不仅具有大数据的一般特性还具有自身行业的独特特点泛在性、地域性和交叉性。这为更清晰的认识铁路大数据和应用铁路大数据奠定了基础。

2.从铁路数据获取层、平台层和应用层提出了铁路大数据的平台架构。首先铁路大数据的获取层主要包括数据的采集及初步分析通过采集各类铁路信息系统、传感器、生产报表等类型的数据实现铁路海量数据的集成。其次平台层主要包括铁路大数据的处理及初步应用通过批量计算、内存计算等多种计算方式满足铁路不同业务类型数据的计算需求。最后应用层主要包括铁路大数据的深度应用针对各个业务领域的数据分析和决策支持的需求能够实现多业务的数据系统支撑面向多层次多用户的分析应用包括战略决策、经营管理、现场管理等。铁路大数据的三层平台架构为建设铁路数据服务平台奠定了基础涵盖了铁路基础数据管理、数据集成、数据共享、大数据存储与分析等功能保障了铁路数据的准确性及共享性可有效提升大数据分析的数据质量便于建立对不同业务实体的数据关联以实现多实体关联分析。

3.从铁路数据获取、处理、管理、建模和应用等方面提出了铁路大数据处理的流程。在数据获取阶段主要是各种硬件设备传感器、应答器、摄像仪等对数据的采集和信息系统的数据交换在数据处理阶段针对具体的应用场景需要不同的处理平台或技术支撑比如分布式处理等在此阶段针对数据自身特点需要提前进行预处理分析主要包括数据筛选、数据清洗、数据标准化等工作数据分析阶段包括管理、建模和应用等是与应用或需求息息相关的通过设计不同的模型可以获得不同的分析结果。铁路大数据处理流程的确立可利用当前较为成熟的大数据采集、分析、应用等相关技术解决当前铁路面临的数据共享、数据治理、数据分析等方面的挑战使大数据技术在铁路领域的广泛应用成为可能。

针对铁路大数据基础框架的研究对于铁路提高运输安全水平、实现客货运精准营销、提高运输效率均具有一定的借鉴意义。通过以上三个方面的总结为更好地实现大数据技术在我国铁路行业的应用本文提出以下政策建议

1.强化顶层设计。铁路大数据的内涵及特征表明铁路大数据是铁路技术、铁路科研、生产管理等全产业链的跨业务、跨部门、跨区域、跨专业的有效工具。大数据在铁路行业的开展需要多个部门相互配合和协调加强顶层设计至关重要。这需要从总公司层面进行铁路大数据的相关组织工作包括制定铁路大数据的目标和计划、重点任务包括铁路大数据基础设施的实施、大数据应用技术的选择和大数据平台的建设的分解和落实、实施铁路大数据的保障措施包括组织保障、资金保障、制度保障等

2.充分借鉴其他行业的大数据应用经验。铁路大数据的平台架构与其他行业的平台架构存在一定的相似之处均是以大数据的关键技术架构为基础结合自身行业的特征而建立的。电信行业和电力行业在我国开展大数据技术应用起步较早在某些领域已经应用的比较成熟并且这两个行业与铁路行业相同都具有天然垄断性特征在大数据技术应用方面可以进行借鉴。例如借鉴电信行业在数据采集和分析方面应用的经验借鉴电力行业利用大数据进行智能化建设可为铁路利用大数据技术建设智能高铁提供思路。

3.分阶段开展大数据应用。铁路是一个庞大的体系针对铁路各个领域的数据处理流程都需要与该领域相对应的研究。铁路开展大数据应用需要大量基础设施投入并且还存在需求和应用的衔接等问题因此可以采取分阶段分步骤、先典型后示范的措施。在初期可以利用既有的基础设施进行铁路数据的采集、处理和分析形成一批大数据应用典型业务试点在中期适时建设一批大数据中心扩大数据采集分析的范围在某些业务形成成熟应用在后期根据业务需求建设大数据中心基地对铁路数据采集分析实现业务全覆盖形成成熟的铁路大数据应用。

参考文献

[1]麦肯锡.麦肯希大数据指南[M].北京机械工业出版社,2016.

[2]ASKITASN,ZIMMERMANN K F.GoogleEconometricsand UnemploymentForecasting[J].AppliedEconomics Quarterly,2009,55(2)107-120.

[3]MCLAREN N,SHANBHOGUER.UsingInternetSearchDataasEconomicIndicators[J].BankofEnglandQuarterlyBulletin,2011,51(2)134-140.

[4]ICENTE M R,LÓPEZ-ÉMENÉNDEZAJ,PÉREZR.ForecastingUnemploymentwithInternetSearchDataDoes ItHelptoImprove Prediction WhenJob Destructionis Skyrocketing?[J]TechnologicalForecasting&Social Change,2015,92(92)132-139.

[5]CAVALLO A,RIGOBON R.TheBillionPriceProjectUsing OnlinePricesfor Measurementand Research[J].JournalofEconomicPerspective,2016,30(2)151-178.

[6]姜文杰,赖一飞,王恺.基于百度指数的房地产价格相关性研究[J].统计与决策,2016,(2)90-93.

[7]李凤岐,李光明.基于搜索行为的经济指标预测方法[J].计算机工程与应用,2017,53(6)215-222.

[8]ANTWEILER W,FRANK M Z.IsAllThatTalkJustNoise?TheInformationContentofInterestStock Message Boards[J].TheJournalofFinance,2004,59(3)1259-1294.

[9]GILBERT E,KARAHALIOS K.Widespread WorryandtheStock Market[R].Palo AltoAssociationfortheAdvancementofArtificialIntelligence,2010.

[10]MOAT H S,CURMEC,STANLEY H E,etal.AnticipatingStock MarketMovementwithGoogleand Wikipedia[J].NonlinearPhenomenainComplexSystemsFrom Nanoto MacroScale,2014,(1)47-59.

[11]LIY,ARORAS,YOUTIEJ,etal.Using Web MiningtoExploreTripleHelixInfluencesonGrowthinSmallandMid-sizeFirms[J/OL].Technovation,2016,http://dx.doi.org/10.1016/j.technovation.2016.01.002.

[12]CHITTARANJAN G,BLOM J,GATICA-PEREZD.MiningLarge-scaleSmartphoneDataforPersonalityStudies[J].PersonalandUbiquitousComputing,2013,17(3)433-450.

[13]李杰.工业大数据——工业4.0时代的工业转型与价值创造[M].邱伯华等译.北京机械工业出版社,2015.

[14]吴力波,周阳,陈海波,杨增辉.基于智能电网大数据的工业企业大气污染排放特征研究[J].中国环境管理,2016,(4)37-42.

[15]郭雷风.面向农业领域的大数据关键技术研究[D].北京中国农业科学院农业信息研究所,2016.

[16]田歆,汪寿阳,额尔江,丁玉章.零售大数据与商业智能系统的设计、实现与应用[J].系统工程理论与实践,2017,37(5)1282-1293.

[17]周辉宇.基于大数据规则挖掘的交通拥堵治理研究[J].统计与信息论坛,2017,(5)96-101.

[18]谢康,肖静华,王茜.大数据驱动的企业与用户互动研发创新[J].北京交通大学学报(社会科学版),2018,17(2)18-26.

[19]朱洁,罗华霖.大数据架构详解从数据获取到深度学习[M].北京电子工业出版社,2016.

[20]李华杰,史丹,马丽梅.基于大数据方法的经济研究前沿进展与研究综述[J].经济学家,2018,(6)96-104.

[21]EMCEducationServices.数据科学与大数据分析[M].曹逾等译.北京中国工信出版集团、人民邮电出版社,2016.

[22]刘俊等.智能铁路大数据分析平台研究[G]//中国智能交通协会.第十一届中国智能交通年会大会论文集,北京电子工业出版社,2016105.

[23]申瑞源.机车车载安全防护系统(6A系统)总体方案研究[J].中国铁路,2012,(12)1-6.

[24]王同军.中国铁路大数据应用顶层设计研究与实践[J].中国铁路,2017,(1)8-16.

马丽梅,深圳大学中国经济特区研究中心讲师。研究方向:产业经济学。

高志远,中国铁道科学研究院运输及经济研究所助理研究员。研究方向:运输经济学。

李华杰,188体育网址 。

马丽梅,史丹,高志远,李华杰.大数据技术及其行业应用:基于铁路领域的概念框架研究[J/OL].北京交通大学学报(社会科学版),2019(03):1-10[2019-07-25].https://doi.org/10.16797/j.cnki.11-5224/c.20190717.002.

分享到:
Baidu
map