从大数据中找到那些隐藏的大智慧

来源:互联网  
2015/4/28 10:07:15
你可能已经知道“大数据”是2015年来最热门的话题。你怎么可能不知道呢?因为供应商和记者之流总是不停地用这个词给大家洗脑(这条指控一点儿也 没冤枉他们)。相信你也知道他们都是如何大肆宣传的吧?大数据将为我们提供一切问题的答案,可以使公司的运作更加高效,有助于制定绝妙的、由数据驱动的决 策,为公司提供一柄竞争利器。

本文关键字: 大数据 商业智能

你可能已经知道“大数据”是2015年来最热门的话题。你怎么可能不知道呢?因为供应商和记者之流总是不停地用这个词给大家洗脑(这条指控一点儿也 没冤枉他们)。相信你也知道他们都是如何大肆宣传的吧?大数据将为我们提供一切问题的答案,可以使公司的运作更加高效,有助于制定绝妙的、由数据驱动的决 策,为公司提供一柄竞争利器。

从某种程度上说,这样的说法的确没错,但是,如同其他被过度宣传的技术一样,许多公司都发现这一切实现起来很困难,现实和广告宣传之间存在着相当大 的差距。他们也许已经想出了有效的方法来收集和处理数据,但要让它付诸于实际,并帮助做出更好的决策却是另一回事。这些公司试图找出大数据和深度理解大数 据之间所缺失的至关重要的一环,因为如果不尽快解决这一问题,他们最终只能空守一大堆混乱的数据,而得不到任何收获。

正如一位硅谷内部人士告诉我的:最近,在创业公司的活动和融资方面,大数据的收集与处理已经受到越来越多的关注,可与此同时,预期和实际结果之前却 存在着巨大的鸿沟。他指出:“大数据还没有转换成大知识、大见解和大智慧。”据他们估计,为了达到这一目标,我们仍有很长的路要走。

分清现实和炒作

我们愿意相信我们能很方便地从大数据中获取有价值的信息,简单得就如同以下几个步骤:将数据导入,跑一段程序,然后就能得到想要的结果,可实际要比 这复杂得多。《数据预测:大数据战略》(Data Divination: Big Data Strategies)一书的作者Pam Baker指出,尽管存在明确事例证明可以从数据中直接获取答案,但并非事事如此。

她解释道:“在相当多的情况下,数据可以为我们提供明确的答案。例如,预测分析能够精确地预报飞机或者供水系统中某个零件的使用寿命,而且还能告诉我们更换零件的准确时间,以确保旧零件在损坏之前,我们能尽可能地利用它。”

但她又补充道:“还有很多情况,我们虽然无法得到明确的答案,但我们可以从多种可能的行动中采取一种,或者我们甚至可以选择不采取行动。这仅取决于你所做的事情。”

Baker所言极是,一些由数据驱动的决策比我们所看到的要微妙得多,而且,正如Brue Springsteen(一位男歌手)曾经所唱,做出决策“还需要一点人情味儿”。人们可以通过开发可靠的度量标准以及强大的算法来帮助决策的制定,还必 须知道如何最大限度地利用数据中透露出的信息。这些信息有时很直观,有时却很隐晦。

专家的缺乏

我们也愿意相信大数据能够使商业用户直接且迅速地进行数据的访问,更神奇的在于,能够使他们在访问的过程中就可以做出最佳决策。很不幸,我们如今拥有的工具还不足以提供如此神奇的功能。

为了解决这一问题,我们需要更多大数据专家们的帮助,帮我们处理数据、从海量信息中寻找答案。Keith Rabois是Kholsa Ventures公司的投资合伙人,他对诸如Parstream这样的大数据公司很有兴趣,据他所言:公司需要大数据科学家们进行极为复杂的深入分析,但 一般的公司做不到这一点。

Rabois说道,我们希望让大数据科学家们去进行应用程序及算法的研究,甚至希望他们能扛起研究数据科学的重任,但事实上,许多公司里的大数据科学家并非总有时间做这些事,部分原因在于他们往往把时间花在了不需要他们尽情发挥聪明才智的不太复杂的分析上,

Rabois还称,最理想的情况是,大数据科学家已经开发出用于将分析分发到整个组织中需要答案的各个部门的工具。 在这样一个问题需要被快速解答的年代里,我们不希望产生这样的瓶颈,当你跑去向专家寻求答案时,却只能等待结果。

问题在于,即使最聪明的科学家开发出极其复杂的算法,也无法为复杂问题提供确定性答案。因为它无论如何也不可能将问题的所有因素都考虑在内,或者无法考虑某些难以度量的因素。

替我找个优秀的中场手

棒球就是个很好的例子,理论上,各方面能力相当的两名选手,比赛时可能引起完全不同的结果。统计学极客们将告诉你,他们花了多年时间开发出一款名为 棒球数据统计分析法(Sabermetrics,译者注[1])的算法,当你需要一名优秀的球员来填补球队中某个特定位置时,该算法可以为你提供所有你想 要的信息。他们还引入了一系列诸如“额外胜利数(WAR,译者注[2])”之类的测量统计类术语,FanGraphs网站(译者注[3])对该术语的描述 如下:“如果某名选手受伤,其球队不得不用低级别球员或是“能力不佳”的替补选手将其替换,那么这支球队会因此丢失多少分呢?”他们用一系列复杂的指标来 衡量这样的更换所导致的胜率差异。

毫无疑问,所有这些复杂的指标都有助于更加准确地计算选手的价值,但它们测量不了所有情形,例如选手在压力下的表现、他勤学苦练的程度、所具有的领导特质,以及他与队友的相处情况等等。所有的这些因素也都很重要,但却更加难以量化得多。

纯统计测量理论的信徒会告诉你“一切皆可测量”,这几乎可以认为是正确的。但我就曾经见过两个理论数据上基本相同的选手,后者接替了前者所在的位置,但比赛表现却远不如前者,尽管他俩的统计数据非常相似。

此类情形同样也可以应用到商业中。人力资源部在招聘时,就会遇到雷同的场景:为某个程序员职位挑选最为合适的应聘者。此时,你手头上有两个技术能力 相当的专业人员同时竞争该职位,但他们其中一个可能情商较高,可以很好地与同事合作,而另一个却完全不善沟通,遗憾的是,这些都无法从简历看出来。即便有 了很多数据信息,我们也很难将所有可能的结果一一考虑,尤其涉及到人为因素时。

考虑医学诊断中的细微差异

任何一位优秀的医生都会告诉你,即使两个病人的症状完全相同,也可能需要使用不同的治疗方法。这是因为治疗方法往往依赖于个体因素,例如年龄、体重、其他身体健康状况,以及额外的特殊因素。

我们以IBM Watson电脑(译者注[4])的使用为例,这是一台可以用于医疗的智能分析平台。最近,我向一位朋友谈及有些医生已经开始使用Watson来帮助进行 病情的诊断以及提供治疗方法,他听后很生气,因为他不想由一台机器来决定自己的治疗手段。这种想法很正常。但在我说的情况里,并非只是Watson简单地 给出个答案,而医生则盲目地跟从。Watson会基于已经有的迹象、对病人的了解、症状,以及当前的研究水准,给出一些可选项,供医生选择(这与医生实际 的工作情形并不相同)。

正如我指出的,医生们忙于工作,往往不能紧跟自身所在领域的研究步伐,因为相关的研究实在太多了(当然,这是件好事)。这也正是Watson发挥作 用的地方。它能够以比人类快得多的速度从当前的研究成果中为医生甄选出需要的信息,但另一方面,医生仍然需要了解病人间的细微差别,应用自身的知识,最终 确定治疗方案。我喜欢将这一过程称为科学中的艺术。知识能将我们带得很远,但最终的决定权依然在医师而非机器的手中。

企业很可能也将面临类似这样不确定的结果,这时就需要有人员参与,运用自身的知识,在数据的帮助下做出选择。

何去何从?

机器有时可以提供人类需要花费多年时间才能找出的答案和见解。举个例子,Baker指出大数据已经帮助我们找出例如癌症等许多疾病的答案,而人类的 研究者甚至从未想过要从这些方面入手研究。她告诉我,“如果没有大数据为我们提供这些信息,我们很可能永远无法找到合适的治疗方案(或者说,至少几年内无 法成功)。我的观点就是:大数据绝对可以做到相当精准的程度。”

另外,她相信,在不久的将来,机器学习可以发展到一个足够成熟的高度,到那时,机器也许可以为我们作出更多决策,因为人脑永远不可能记下所有有用的信息。

她的观点很可能是对的,但就目前而言,我们收集和处理数据的能力似乎领先于对数据涵义的理解能力。正于Baker所提出的,预测分析技术一直在提 高,并且有时数据能直观地给出答案,但这仍然是一个复杂的人机交互的过程。即使技术正在不断向前发展,但如何将两者合二为一依然是一项正在探索中的工作。

除非我们能找到某个平衡点,或者机器技术有颠覆性的发展,否则我们仍将面临大数据与大智慧之间的鸿沟,并且需要花一定的时间以及依靠技术进步来填补这一鸿沟。

责编:王薇
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918