同花顺大智慧通达信平台自编ACE扫单系统

【大数据专栏】卿刚:聪明都会中的大数据实践

[复制链接]
发表于 2018-7-31 23:07:57 | 显示全部楼层 |阅读模式
科技杂谈keji_zatan新谈友,请点击标题下蓝字关注我
中国通讯行业影响力最大的自媒体


【这是“大数据专栏”的推送文章,本专栏由中关村大数据财产同盟与科技杂谈互助提供】


文 / 卿刚,本文为卿刚在中关村大数据财产同盟“大数据100分”论坛上的交换探究实录


  主讲高朋:卿刚


  主持人:中关村大数据财产同盟 副秘书长 陈新河


  承办:中关村大数据财产同盟


  高朋先容


  卿刚, Associate Partner for Public Sector,IBM-环球服务部集成业务部。盘算机专业-computer science of UEST 。服务IBM已14+年。恒久服务于中国科学院IT项目建立和当局行业体系集成业务。在高性能盘算,聪明都会(智能交通,野生掩护区…)等有丰富的项目实践。曾经领导IBM团队到场计划和建立“08年亚洲第一天下第10的中国科学院百万亿次机体系”,到场“广东顺德-智能交通项目标调研”和“四川数字卧龙集成项目启动”等大型信息化集成项目。


  以下为分享实景全文:


  各人好! 很高兴新河副秘书长约请在这里和各位分享一些大数据的想法和观察。在此盼望广结交多促进,用开放的精力宁静和的心态与各人共同进步。在随后的时间里,迁就此与各人感爱好的话题相互分享。阐明:交换所谈仅代表个人观点和专业观察,不代表任何企业贸易倾向。


  本日的议题:“大数据与部门聪明都会实践”。


  议题择要是:


  大数据明白:


  界说及特性。


  误区与不可为。


  趋势及近况


  IT的联合


  在聪明都会中的部门实践:


  智能交通


  新药研发


  。。。。


  “大数据是21世纪最性感的技能之一。”本日IT界无谈不欢,可见其魅力!各人同意吗?


  OK, 起首在开始议题前有须要界说下什么是大数据?以包管我们本日的沟通底子同等。


  界说:想必各人都会脱口而出4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性),对吧? 如再往深处问就会发现众人明白各异,乃至许多概念肴杂。


  实践中发现大数据通常具有“4特性1 属性”。


  4特性:


Bm6A7z0ca33IuC3m.jpg


jv2P2Y122ayh20pI.jpg


g88SeERznlL73Cge.jpg


Gw53qT9gcgIZw6q3.jpg


  新的情势(诸如GIS ,卫星或专用装备的数据或图片,如图)


  1属性:属于数据科学。


  以是请看下图:


wUzsr0KTs4S8rajT.jpg


  具有以上” 4特性1属性”用来形容大量非布局化数据和半布局化数据同时必要特别的技能,以有用地处置惩罚大量的容忍经过期间内的数据。实用于大数据的技能,包罗大规模并行处置惩罚(MPP)数据库、数据发掘电网、分布式文件体系、分布式数据库、云盘算平台、互联网和可扩展的存储体系。我们通常界说为大数据。


  那么我们怎样界说明白数据科学这个属性呢? 让我们一起来看看下面这张经典照片:


Am149fsP4nm1gsS4.jpg


  此玉人叫:Lenna, 二战时一名闻名模特。


  左边:其100万像素的照片;右边:R语言“鸢尾花(iris)图。


  请各人思索:Lenna这张照片(百万像素:1024*768)分别在“统计分析师,IT专家,拍照师” 的眼里谁更性感?


  究竟是:


  统计分析师:是一些矩阵和二维表,100万个点的记录。每行代表“1个点5个变量” 即:(点坐标(X,Y),R,G,B )。


  IT专家:是像素位图。是由3个基色“高:768,宽:1024 ”的RGB(取值:0-255)矩阵构成然后转成(0,1 )代码分析并用R语言工具的“鸢尾花(iris)”来分析和形貌。


  拍照师:眼里却是“亮度,对比度和光影的变革。”


  显然Lenna的性感谁最有发言权? 固然是拍照师。这阐明什么?


  阐明行业专家擦?鲻紧张的! 而仅靠拍照师也是不敷的。假想:假如三者互助,会是怎样? 请看下图(来自WeKa 官网):


cE1yvAZzbBAsawAA.jpg


  结论:


  (统计&数学专家+ IT专家)形成偏呆板学习为导向的效果。


  (行业专家+ IT专家)形成过火的数据效果。


  (行业专家+统计&数学专家)即传统的数据研究方法效果。


  (行业专家+ IT专家+统计&数学专家)数据科学的效果。


  显然:数据科学应是最佳的计谋。这将引导我们怎样去实践大数据和更好的安排技能以确保数据的可用和项目标乐成。也就是之前谈到的大数据应有的属性“数据科学”。


  好,我们对大数据的明白有了一个共同的沟通底子后,下面我们来看看已知的误区和陷阱大概在那里? 让我们来谈谈大数据现在的误区和不可为。


  请看这张图:将整头大象装进冰箱里(这大概吗?)


W220l2D00dd00WzD.jpg


  答案是 NO。“大数据就像这冰箱一样不是无所不包的”那么我们怎样客观理性地对待大数据呢? 让我们一起先看几个故事。


  故事一:


  春节就要到了。如果你是一位出车千次无变乱的好司机,恰幸亏朋侪家喝了点酒,警员也过年放工了,于是你对峙本身开车回家,盘算着出题目的概率也不外千分之一吧。假如如许算,你就犯了一个取样错误,由于那一千次出车,你没喝酒,它们不能和这次混在一起盘算。这也是大数据常犯的错。


  误区1:样本取样错误。


  故事二:


  从1967年第一届美国超等碗杯橄榄球赛到1997年第三十一届,只要NFL联赛出线队赢,当年的股票就大涨14%以上,AFL联赛出线队赢,则至少大跌10%。假如你按照这个指标来交易股票,就要警惕了!1998年,丹佛野马队(AFL)赢,当年股市大涨28%;2008年纽约巨人队(NFL)赢,股市不但大跌35%,还引发次贷金融危急。


  误区2:把相干性看成因果关系,这是大数据的另一个陷阱。


  故事三:


  三尺深的水池能淹死人,由于三尺只是均匀值。


  误区3:忽略极值,接纳均匀值,它是大数据第三个常见的陷阱。


  ……


  那么我们为什么会犯雷同的错误呢? 是由于这里另有“小数据”的概念。相比之下,小数据泛指零散的弱信号。它们每每被看成没有规范、好像随机的毛病或噪音。以是实践中发现:被过滤和忽视是小数据的运气,缘故原由是人们没有现成的概念去界说息争释它们。但是,没有小数据,大数据管剖析布满陷阱。相对有用的思绪是“巨细数据联合,这是数据管理的正道。” 大数据并非全能。


  Bill Franks(美)以为:“ “大数据”中的”大”和“数据”都不紧张,紧张的是数据能带来的代价以及怎样驾御这些大数据, “大数据大概是缭乱而貌寝的”而且大数据也会带来“被大数据压得不看重负,从而制止不前”和大数据处置惩罚“本钱增长速率会让用户措手不及”的风险,以是,驾御大数据,做到游刃有余、从容自若、实现“被管理的创新”最为紧张。在处置惩罚数据时,“许多大数据实在并不紧张”,要做好大数据工作,关键是能做到怎样沙里淘金,并与各种数据举行联合或混搭,进而发现此中的代价。这也是频频夸大的“新数据每一次都会赛过新的工具和方法”的缘故原由地点。”


  好,刚才我们对界说和误区已有了概念。那么IT联合点在那里? 花几分钟先看看大情况。


  当前财产发展图


n8hh03jYnbh5NWwY.jpg


  清楚地看到,已往的几年里从底子办法到应用很多多少开源和商用公司都已分罗而织,大情况是积极的。Ok, 显然大数据是个Sun raise 的范畴。“广大的市场需求,较高的技能门槛,公道不昂贵的资金投入”无疑是IT财产升级和脱颖而出的一个好时机!以是我们说“大数据是21世纪最性感的技能之一。”


  那么IT技能怎样联合呢? :8 方面。


  数据收罗:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到暂时中心层后举行洗濯、转换、集成,末了加载到数据堆栈或数据集市中,成为联机分析处置惩罚、数据发掘的底子。


  数据存取:关系数据库、NOSQL、SQL等。


  底子架构:云存储、分布式文件存储等。


  数据处置惩罚:天然语言处置惩罚(NLP,Natural Language Processing)是研究人与盘算机交互的语言题目的一门学科。处置惩罚天然语言的关键是要让盘算机"明白"天然语言,以是天然语言处置惩罚又叫做天然语言明白(NLU,Natural Language Understanding),也称为盘算语言学(Computational Linguistics。一方面它是语言信息处置惩罚的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的焦点课题之一。


  统计分析:假设查验、明显性查验、差别分析、相干分析、T查验、方差分析、卡方分析、偏相干分析、间隔分析、回归分析、简朴回归分析、多元回归分析、渐渐回归、回归猜测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主身分分析、因子分析、快速聚类法与聚类法、鉴别分析、对应分析、多元对应分析(最优标准分析)、bootstrap技能等等。


  数据发掘:分类 (Classification)、估计(Estimation)、猜测(Prediction)、相干性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、形貌和可视化、Description and Visualization)、复杂数据范例发掘(Text, Web ,图形图像,视频,音频等)


  模子猜测:猜测模子、呆板学习、建模拟真。


  效果出现:云盘算、标签云、关系图等。


  此中呆板学习的技能和思绪较为紧张当前常用的算法是:


k6gA8G9X96Ww5W6h.jpg


  阐明:K-means ,放入呆板学习这一类。是由于统计学算法严酷意义上是必要作查验的而K-means 却不做,以是划入此类。


  开源的大数据生态体系。


wtwsgJ83dPGw8ZrG.jpg


  等等,这些IT架构,平台,语言和开辟的工具帮我们增强了大数据应用的处置惩罚和结果。


  OK,光有理论还要实践,让我们一起来看看现在实践的环境。因时间缘故原由,仅做抛砖引玉。


  众所周知,“为了大数据而大数据”显然会进入形而向上的空谈。以是只有联合特定的行业和范畴才会落地并绽放数据i代价的异彩。这是一种运用的地步是一种数据工程的艺术。


  在诸多的范畴里,我们来一起看看技能要求很高其集成很复杂的聪明都会在药物,智能交通等方面的环境。因时间缘故原由,重点谈两个实践:一个新药研发,一个智能交通。如有爱好,可进一步单聊。


  大数据与西药化合药物范例的新药开辟:


W4A34r2Bc963h469.jpg


s7vCVcAWgZVcA8r9.jpg


  西药的新药研发:(开辟周期通常以10年计,本钱少则几亿美金多则10+亿美金),那么在云云高投入高回报的范畴,统统都必要精准,安全和代价公道。其任何的投入都要尽大概基于定量的分析和决议,同时西药研发的逻辑差别于中医。它的药理落脚点是详细构造或器官涉及药理,药物动力学。以是,新药研发数学要求很高,一个风趣的征象就是现在国外新药制药范畴里中国人许多,由于中国人数学和物理很好:)。


  好比:感冒分病毒性和受凉性。西药的逻辑是:病毒性的就消炎。感冒性的就体感改善(如鼻塞头疼,就是用药疏通鼻部或头部毛细血管减轻症状)。以是试验和临床数据在新药研发的职位显得非常之高。)


  新药研发流程:药物学家和生物学家共同构建模子并指出毒性的大概(疾病模子参数:肌指数,视网膜变革,肾指标),临床试验数据(参数:底线,平静结果,粘度等),药物模子,然后通过盘算机反复地盘算找出最优并临床试验安全后才可以答应上市。而西药的乐成正在于大量临床试验的数据。而更大的乐成在于模子(如:闻名的罗曼模子-药理学家和统计&数学专家共同互助的结果,现在国外大多数药厂都在接纳这个模子)。


  在国内,约90% 的药物我们都是入口或OEM,或盗窟,试想,如我们国内的(研究所,IT专家,药厂)可以跨界互助,想必是一个大功德,既有经济效益也有民生福祉。


  大数据与智能交通:


DRQ0rK0xc6PJcx6x.jpg


  国外实践:


  项目名称:中心商务区(CBD)的一个交通猜测试点项目。使用来自某国陆路交通管理局(LTA)的i-Transport体系的汗青交通数据及及时交通讯息,IBM的"交通猜测工具"在预先设定的时段内(10分钟、15分钟、30分钟、45分钟和60分钟)对交通流量举行了猜测。总体猜测效果远远高于85%的目尺度确率。接纳这些猜测效果,陆路交通管理局的交通控制职员将可以或许更好的通过预判管理交通流,有用的防止交通堵塞。


  技能实现:这套体系由IBM华生研究院(Watson Research Laboratories)开辟,用于猜测差别路段上的交通流量和速率。TPT提供可以或许实时正确地提供(流量和速率)数据以猜测将来短期和中期的交通状态。


  该技能接纳的是自顺应统计方法,同时联合主动偏差校正方法,来对多时段交通状态举行猜测。


  i-Transport是某国陆路交通管理局的"智能交通体系(ITS)中央"的焦点。该体系将陆路交通管理局的各种差别的ITS工具整合在了一起,这些工具包罗该机构被称为优化交通讯号体系Green Link Determining (GLIDE)System的盘算机化的交通讯号体系、电子扫描体系TrafficScan、都会快速路监控信息体系ExpresswayMonitoringAdvisorySystem(EMAS)、接合式电子眼JunctionElectronicEyes(J-Eyes)以及"电子门路计价"(ERP)体系。这些ITS工具为陆路交通管理局提供门路交通运行的现有数据和汗青数据。


  国内实践:


  请看此图(涉及多数中国1234线都会现在近况)


Y7nWYTpTYteeAwT5.jpg


  国内多数都会交通的痛和挑衅:发现车辆和门路增长的不均衡,都会发展过快,交通管理机制和本领以及跨部分的和谐等缘故原由造成了本日的状态和影响了交通资源优化的服从。 那么一个什么样的交通是社会必要的呢? 通过调研群众和当局管理部分,各人同等盼望:便捷安全的出行– 门路通行本领的进步;公交优先-提拔公交出行分担交通压力;交通诱导-改善交通讯息服务和共同联动-进步规划、运营、应急决议本领。如许的一套动态机动的大交通才是各人心中等待的交通场景。


  那么据此目的其业务流程构图便是:


hd8aR5zEA3XlurI5.jpg


  对应的业务逻辑便是: 通过在交通外场各种装备(信号灯,卡口,线圈,卫星,微波,智能终端)等各种收罗的元数据通过无线/有线网络传输至好通内场机房或总控中央举行数据的分析和处置惩罚,请看下图。你会发现最焦点的是一个IOC-Integrated Operation Center(运营总控中央,包罗数据业务模子,数学&IT 算法),然后通过大屏幕推送数据显现的效果以供有关都会的管理和运营职员利用。


uFG3fMNM1V1G3C9V.jpg


  在这个底子上我们抽取出如下的IT大数据模子框架,请看下图。


X5MFLlZ35bWnMZbl.jpg


  我们今后图很清晰地看到它完全基于数据为焦点的计划,那么刚才谈到的数据科学头脑的大数据技能将在此发挥最紧张的作用。这个架构是大而全的,技能上完全可行,那么智能交通的概念将由数据的互联互通和分析使用而显现。


  要落地,除技能架构外还必须要思量许多非技能因素(如:部分间数据共享,入口和国产装备的数据尺度和格式是否兼容,数据的安全,法律隐私等…),以是,为了资助都会办理交通这个浩劫题,此方案举行模块化计划,可以分步实行并可以对非技能因素作适度地处置惩罚而轻易落地。


  现在落地较好的如公交体系。


  通过对现有交通传感器数据的可得到性,数据质量,可靠性和及时处置惩罚需求举行调研,论证明现基于流技能的多源交通数据融合的可行性和融合方法,实现通过数据融合分析猜测门路交通流量的变革环境,并提出支持海量公共交通数据管理与分析的高性能数据堆栈架构与基于大数据平台的分析应用框架,以及实行方案。此平台可以作为将来交通数据和应用开辟整合尺度,通过平台的建立充实融合各类数据并消除原来单个独立体系建立常见的公共功能重复建立的题目。我们可以做出4个功能。


  面向当局管理部分公交聪明分析与决议:


  面向公交运营公司的实行智能监控管理:


  面向搭客的信息发布体系:


  基于物联网/公交联网的综合信息平台:


  应用界面实例:


xO99lCCXkXojn0vc.jpg


  此智能公交决议辅助体系在国内某些地域已经落地并已取得较好地贸易运营。


  别的可运用的范畴:


P2W3Qzv2oI5O0kbQ.jpg


WZzDu8gJduJKhJ9M.jpg


  金融个人名誉分析:


SGBDKYLYY888LI80.jpg


NKMVMfgSnMFG0oqA.jpg


  房地产贩卖分析和猜测


GN4cN44Dc2eNqC84.jpg


  油井斟探数据模仿:


BTvmRLRWmvhITl8U.jpg


  车站客流分析:


Ppr5XtmEreyeWPO5.jpg


  媒体内容对读者或观众影响的分析。


s2t6jS5nu85mNmOs.jpg


  总结:大数据是21世纪最性感的技能之一,在聪明都会建立中大有可为。


  由于时间关系,不能逐一详述,仅在此抛砖引玉供各人参考。如有爱好的朋侪请单独细聊。很高兴在这里和各人熟悉并分享,以上交换所谈仅代表个人观点和专业观察,不代表任何企业贸易倾向。分享中个别引用的数据和图均为公开信息或已经本人同意。在此分享有关信息仅限此次交换用。


  陈新河:同盟副秘书长;《软件界说天下,数据驱动将来》@卿刚再次感谢卿总的出色分享!

  接待各人参加科技杂谈菁英汇,交换头脑、分享信息。仅限行业商端人士到场。到场方式:点击左下方“阅读原文”填写您的参加信息,科技杂谈通过考核后,会添参加群。



本文仅代表作者观点,科技杂谈授权登载。
转载必须注明作者与科技杂谈,侵权必究。

科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐消息客户端,网易阅读客户端。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

销售微信,其他勿扰

( 公安备案号 14010802080054 工信部备案: 晋ICP备16001374号-1 )     

GMT+8, 2024-11-15 14:52 , Processed in 0.151197 second(s), 10 queries , File On.

Powered by X3.4

© 2015-2016

快速回复 返回顶部 返回列表