IDC大数据副总裁:从问题中探索答案

来源:CSDN  
2011/8/5 10:52:45
Benjamin Woo在演讲中谈论到,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发数据仓库、数据挖掘、商业智能、云计算等应用的连锁反应。

本文关键字: IDC 大数据

大数据世界论坛于2011年7月7日北京亮马河酒店隆重举行。美国IDC全球存储及大数据研究项目副总裁 Benjamin Woo带来了《大数据:从问题中探索答案》主题演讲。

Benjamin Woo在演讲中谈论到,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发数据仓库、数据挖掘、商业智能云计算等应用的连锁反应。2011年企业会将更多的多TB(1TB=1000GB)数据集用于商务智能和商务分析;到2020年,全球数据使用量预计暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据正在彻底改变IT世界。

以下是文字实录:

大家好,我是IDC2011年全球存储及大数据研究项目副总裁Benjamin S.Woo。在过去的三十五年当中,我们发现在计算方面要和整个计算行业的各个方面整合起来,我们想更好地利用计算机的数据给个人或者公司提供好处。那么,大数据到底是什么意思呢?这是IDC的一个定义,我知道即使是英文,我们也不知道大数据是什么,大数据是一系列的技术,这些大数据的技术描述新一代的技术或者是架构,这些技术或者架构能够以一种非常亲近的方式从海量的、多样的数据当中获取价值,同时在获取的过程当中速度是非常快的,而且我们也可以进行一些分析。

大数据有四个基本方面:Volume、Variety、Velocity、value。首先,数据是海量的;数据是多样性的,由大量的人提供很多的数据,全世界各地的人们提供数据,这些数据的价值是非常高的,而且获得数据的速度是非常快速的。所以,我们说大数据的特点是四个V。我们有多种多样数据,这些数据是实时的,我们应该可以实时的获得数据,把这些数据进行处理。在整个过程中我们要考虑获取数据的价值,每一个组织或者每一个公司也许会从不同的方式考虑大数据的概念。

这个技术给我们带来很多的数据,整个数据的基础就是一个架构,在整个架构或者说基础设施过程中,我们会想到一些服务器或者对这些数据进行存储,我们就会考虑到数据的管理,比如甲骨文或者IBM这样的公司都是这样的。但是整个过程也是在不断的发生变化,我们把数据进一步的进行分类,一组数据和另外一组数据到底有什么样的关系?我们想很快的建立两组数据的关系。在这个过程中,我们就创立了两个数据子局的结构。在整个处理当中,我们把数据进行搜集和处理,告诉相关使用数据的人员。

大数据里面会有一些新的特点或者因素,过去整个过程中可能更是技术性的,但是对于大数据的存储有很多报告的功能。一个非常重要的区别就是大数据的功能是一种战略性的功能,我们正在考虑长期的过程中创造一种价值,我们会告诉客户,如果只是减少成本并不是好事,你的企业会有更多的业务,一个新兴市场中发展的企业,尤其是像中国这样的国家,一个企业如果想进行不断的成长,必须要有这样的资源,但是大数据可以给你提供很多的价值,不仅能够减少你的成本,而且会提供更多的机会,这是大数据可以给我们带来非常好的价值。我们可以看到在全世界有一些监管方,比如ICC,还有一些顾问,在顾问这里也可以获得很多的价值,这一点也是非常重要的。另外,我们也可以给我们的供应商提供价值,比如云计算。另外,对于消费者来讲,消费者可以是一个公司,也可以是一个个人。所以,大数据是非常复杂的,我们想把各个方面组合起来,这也是我们在未来十年或十五年想获得的挑战。对我们来说面临最大的一个价值是怎么样在混合的大数据中找到一个答案,比如你如果有一个问题,怎么样在大数据组合的过程中找到答案?

现在我们来看一下平台,在西方国家一直在不断做的是基础设施的虚拟化,世界上每一个数据中心的每一个服务器,它们都是具有活力的。我们要考虑的一个内容:我们是不是不用太关注基础设施?在这里我想看一看中国的情况。在中国有很多服务器到服务器的服务,中国、印度、欧洲的一些国家,我们要想获取大数据的话,必须要采取传统的方式,你要考虑到你有多少的CPU,同时要考虑到你有多少的存储单位以及计算机的存储能力。当然,这和我们大数据的思考方式是完全不一样的。对于计算机来讲,它并不是单独的一种存储,是服务器的一种整合。但是,对于新兴的国家,必须要采取一种新的方式,这样才能使大数据发挥更多的作用,否则刚才谈到的大数据的四个“V”的特点就不复存在了。

我们都会想到数据库,但是数据库整体面临的挑战是它在本质上是静止的。所以,我们必须要考虑到一个因素和另外一个因素之间的关系,对于大数据来讲,这样的概念是毫无用处的,我们必须要找到一种新的方式来创建一种关系,我们必须要找到一种方式能够把一种非常关键的价值和另外一种关键价值整合起来。比如说,我们想找到把大量的数据整合的信息,我们要把这些数据进行挖掘,在这个数据终会有一些经济的价值,比如像E-mail,像E-mail这样可能给我们带来的价值比较低,我们应该把整个的内容进行整合创建一种新的价值。

分析性价值,这是大数据平台中最令人兴奋的一个方面了,我们每天在数据方面都会发现一些新的问题。今天早上吃早饭的时候,我读报纸看美国新闻,美国的Facebook全球范围内有7亿用户,想跟Sagp(音)合作,因为对Facebook来讲有更新的机遇,也许Facebook是更好的社交工具,这也是我们分析和发现过程中想要找到的内容。因为我们在Facebook中可以创造更多的社会价值,而且这种机会可以给我们带来新的价值。在Facebook中可以给大数据带来新的价值。这里面就可能会涉及到对于数据的分析,对于企业来讲可以把网站相关的信息技术组合,你可以整合不同的资源或者不同企业,或者组织的信息,进行一定的整合。

所以,对于IDC,我们有很多表格,我们想用更好的方式进行这种信息的发布,这种相关的信息不仅仅是PPT,实际上我们也想把这些大数据通过引擎或者其他的内容进行进一步的传播,或者能够附加到更多的信息。这里面有很多人为的价值,另外有很多智能的因素,你在以前可能听到过很多的概念,这种新的概念我们可以把它们进行整合,可以把计算机或者整个的技术以一种新的架构带来新的平台。

我们可以看一下我们的用户,我们的用户范围是非常广的,我想鼓励大家考虑一下服务器供应商的机会,因为服务器的供应商的作用是非常独特的,它可以给我们带来非常多的价值,这些价值对于各个国家或者地区所带来的作用是非常独特的。今天,你只卖计算机所能够赚到的钱是非常有限的,如果你来销售一些智能因素的话,我们就可以给您带来非常多的利润。我们可以在全世界范围内提供更多的服务器,我们可以把存储单元进行进一步的整合,比如和Facebook进行进一步的整合。如果这样做的话,需要在大数据有一个很好的接口。

我们来看一下顾问,顾问想在全世界范围内解释全世界的法律法规,更好地考虑怎么样才能利用这些法律创建更多的价值。你什么时候才能够成为第一市场更快的创造价值,如果有空白的话,更快的弥补空白,这是一个非常大的挑战。

再来看一下监管方,如果我们使用大数据,你可以从不同的角度看E-mail,你可以把不同的因素进行整合,能够更好地理解新发展的趋势。我们在这些方面有很多的例子,比如在美国有安然公司,大数据有很多的技术,但是我们也需要跟监管方进行合作,正确的利用大数据,我们和监管方合作能够更好地符合法律法规的要求。

我们再来看一下消费者,我们每天都在消费大数据,如果你要是用谷歌的邮件系统,如果你使用百度或者阿里巴巴,所有的这些都是基于大数据的引擎。它们每一秒或者每一分钟,有的时候是在实时的了解你是什么、你喜欢什么样的事物、你在哪里、你挣多少钱、你在哪里工作,然后把所有的信息进行整合。对于这些内容你是付费的,大家可以想象一下阿里巴巴到底有什么样的引擎,比如你在阿里巴巴、淘宝的网站进行购物的话,实际上都涉及到这些大数据,他们建议你采购什么样的物品等等。

在全世界的不同方面我们都已经使用大数据了,但是我想提醒大家一点,在以前我们就使用大数据了,通过超级计算机来使用大数据,现在每个人都可以利用大数据,这也是为什么我们在这里讨论大数据了。

今天EMC、Teradata、IBM等都是我们的赞助商,这些能够给我们提供整个的服务器或者整个流程中的各个方面。但是我也可以说,你们也是这个服务器的供应商,我们必须要搜集大量的信息,我们必须要把它们存储在一个地方。比如Teradata做了很多数据的处理工作,他们已经把数据的处理已经上升到了一个新的阶段;SAP在过去的这么多年给我们提供了这么多的服务;Riverbed也提供了我们的能力,而且给我们提供了很多的解决方案。这些公司给我们提供了大量的产品组合,给我们提供了大数据的不同方面,有些公司提供大数据的各个服务,有些公司提供大数据的某个服务,这里面有很多的机会能够让我们创建价值或者获取更多的利润。但是所有的这些都是基于我们的硬件,这是非常关键的,这就是价值元素所在。

我们再来看一下数据的收集,我们可以从不同的来源来收集数据,我们也可以从手机上获取数据,我们也可以从商品的条码中获取信息,我们可以用手机扫描一下这个商品的条形码就可以获得这个商品的全部信息,这就像一个基因的序列一样,所有的这些科学都在循序渐进的相互推动。而且我们也可以把各种各样的数据录入到各种系统中,这样也可以创建出很多来源,也是能够使得大数据发挥更好功能的主要途径。我们可以把这些联系起来,所有的联系可以创建大数据的多样性和量的积累。

再看一下大数据的处理,我们要做的是清理和过滤,我们要确保是有用的数据,我们要做的动态的工作,我们要把一些不必要的东西过滤掉。在信息的通知领域,我们的方式是通过讲解或者通过终端用户的使用来拓展用途。因此,我们可以看到这是一个宏观的世界、宏观的生态系统,它不可能通过一个数据中心就得到了限制,我们要做的就是使这些数据中心能够相互推动,我们要做的是使所有的这些动作放在一起驱动一个公司、一个组织的价值。

架构的价值不仅仅在于要赚钱或者开设更多的公司,每一个机构都有它自身的目的,如果你是作为一个国土安全的公司,你们的目标就是确保你们的国家得到保护;如果你是一个律师事务所的话,你就就保护你客户的权益;如果你是一个生命科学的公司,你就要确保你所做出来的假设能够得到验证。因此,有各种各样不同种类的机构价值,

那么,大数据有什么新鲜的东西呢?和传统的数据仓库相比,这些特征是驱动新的战略价值的增加,我们看到在传统的数据收集方式上,我们可能得不到实时的数据收集,但是在大数据方面我们就有这个能力。这不是一个绝对的,这是一个相对值,如果你是一个很大的政府机构的话,更加经济性的运营方式将是你的追求;如果你是一个对冲基金公司的话,公司里只有十个人,但是你却掌控着一百亿资金,你每天的目标就是要做资金的交易获取新的信息,你要做的是赚钱而不是赔钱。

所以,在这里给大家提供一些答案,有了这些答案你才可以问别人一些问题。还是给大家讲一个例子吧,这个例子非常的有意思,其实我最近才发现这个案例有意思的,这个公司叫做Dollargeneral,这个公司是美国的一个超市,销售额达到了130亿,有9500多家店铺,每个店铺都有12500多种商品。如果你打折销售的话,利润率是非常薄的,只有1-2%,但是这个公司的做法非常特殊,使用了以云计算为基础的服务器,把所有的数据进行分析和处理建立了这样一个平台,这样的做法并不是所有的供应商都会采取的。他们这种大数据分析是完全为自己所用的,把自己所有的数据都拿过来,通过这些数据来驱动或者创建一些战略的价值,这个价值甚至比通过销售商品所获得的利润还要高。他们所做的就是要登陆这个信息中,看看一个店里究竟卖了多少瓶可乐、卖了多少评七喜、卖了多少薯条,通过这样做就可以更加有针对性,公司的战略也就更加有针对性。

我们再来看另外一个例子,这是一个美国的无线运营说,他们失去了很多的客户,这在电信领域确实不是一件好事,因为你花了很多的钱才能赢得这些客户,按照你要保持客户花费是较少的。他们所做的就是在客户的服务方面出了问题,一个链条断了,客户觉得不满意,这户客户在48小时内就发现这个客户特别喜欢打电话,然后取消合同。他们把这些数据和信息收集起来,了解到底是哪个环节出现了问题,通过这样的大数据管理就能够很好地提高企业运营效率,通过这样一个大数据平台的建立,节省了将近一亿美元的成本。这样的例子可以说是不胜枚举。

最后,我总结一下四个“V”:数据的量、数据的多样性、数据的速度、数据的价值。这四个“V”给我们带来的不仅仅是技术上的价值,而是战略上的价值。大数据最大的挑战就是没有太多实用性的案例可以给我们借鉴,我们仍然摸着石头过河,但是我们已经是大数据的使用者了,我们要做的就是凸显出我们已经做的事情,不要放弃竞争性,创造出一些新的优势。而且大数据不仅仅是为政府、公司所用,大数据既可以为大公司使用,也可以为你、我使用。

谢谢大家的耐心聆听,谢谢大家能够允许我用英文讨论,我期望在下面的小组讨论中进一步开展交流。谢谢!

责编:杨雪姣
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918