登陆注册
3133300000002

第2章 身处数据时代,揭开大数据的面纱(1)

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James ,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。

“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话,数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分析和利用这些数据。社交网络提供给用户统一的接口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

同类推荐
  • 体感交互技术

    体感交互技术

    本书提出了体感计算的研究,探讨了基于体验性认知的个性化电子学习方式,并且分析了面向儿童的艺术创造体验,在体感虚拟化身的帮助下,用户可以通过身体运动,促进情感心智的全面发展,
  • 不懂PowerPoint就当不好经理

    不懂PowerPoint就当不好经理

    经理人如何用PowerPoint,来规划部门的发展,如何用PowerPoint来表达自己的经营主张?本书为各类经理人提供了从入门到提高,从原理到实战的一系列知识,相信本书将让演示文稿为经理人的管理效能加分!
热门推荐
  • 农女小娘亲

    农女小娘亲

    都市女白领穿越成农家小女子,无奈多了个两岁的儿子,让她成为年仅11岁的小娘亲,灵魂穿越而来,寻找心的归属。一个家徒四壁,没有隔夜粮的家。一个为她瘸了腿的哥哥,一个身怀六甲却努力操持家事盼她归来的的嫂嫂。面对虽然贫穷却疼她至深的兄嫂,她毅然挑起家庭的重担,开作坊、建新房。闻风而来的极品亲戚,你敬我一尺,我还你一丈,你翻脸无情,也休怪我心毒手辣。她没有过人的本事,也没有什么聪明、才智,只是一个平凡到极点的人,甚到有点贪财、小气,还有点小懒,当心有了依靠,她决定托起这个家。[人物篇]哥哥:锦儿是我手心里的宝,哪怕再苦、再穷,我绝不允许任何人动她分毫。嫂嫂:锦儿,你都忘了你还是个孩子了吗?不要太坚强,想要独自撑起这个家,你还有我和你哥,别让关心你的人心疼好吗?夏长鸣:锦儿,你可知道……这情爱之苦莫过于求不得、放不下,而我却是连求的资格也是没有的!情景节选:木梓:少爷,你这样破坏锦儿小姐的亲事是不对的!小木:除了我,谁也别想娶到她!木梓:那你上门提亲不就行了吗?少爷你什么时候变的这么婆婆妈妈了!小木:你懂什么,这叫情趣!(都是狗屁,能提亲我还等到今天)遥想当年……小木:锦儿你对未来夫婿有没有什么要求?夏锦:有啊!我的良人啊,要没有显贺的家事背景,没有淘天的权势,更不要有家财万贯,只要是一个老实本分的人。泪奔……蹲在墙角画圈圈……为什么我全都有……
  • 傲娇小萌妞:大神请上钩

    傲娇小萌妞:大神请上钩

    在生活,他是她的邻居;在校园,他是她的主席;在公司,他是她的boss;在网游,他更是她的大神!!天哪,可她对这朵桃花还真看不厌啊!……初念和启辰在商场约会,她看上了一双长筒靴,很是满意。启辰:“你要买?”初念:“不买。”启辰瞥了她一眼:“不适合你,太粗。”启辰:“刮风时,包里要带板砖。”初念:“我觉得带金子好,密度大,沉!”启辰抱着初念,蜻蜓点水般付过她的唇:“会连人带包抢走的。”初念卖萌了:“你不说,谁知道啊。”等下!初念望着大神!他!他刚夺了她的初吻啊!!新作求支持,《晚点遇见你,余生都是你》各位大大想要各种批评,各种闲聊,各种指点请加入晚点读书群,各种妹子等着撩:175390377
  • 送终者

    送终者

    关于寒江路三号,那是一个没有人愿意提起来,它和死亡,鬼魂,诡异相联着的。也没有人喜欢来到这里,尤其是晚上的时候,这里除了昏暗的灯光以外,没有一个行人。这里被称为死亡之路,它左面是一条小河,两面环山,如果这样说,这里不和死亡联系在一起,应该是一个不错的地方,可是这里偏偏就是和死亡联结在一起,而且已经有百年之久了,这里阴气森森,每年这里下雾的时候也是最多,而且久久不肯散去。
  • 指间沙

    指间沙

    以高中生活为主线的校园爱情系列,讲述女主角和颜与男主角柳哲铭一波三折的情感故事:跋扈女生白雪屡屡插足,失望之余找来残疾女生张心怡,精心安排她转入和颜所在班级,但随着她与柳哲铭的往事渐渐浮出水面引发了男女主角之间的矛盾,作为柳哲铭好朋友的齐豫曾与他同时爱上和颜……
  • 你死了还怎么听我说爱你

    你死了还怎么听我说爱你

    当你喜欢我的时候,我不喜欢你,当你爱上我的时候,我喜欢上你,当你离开时候,我却爱上你,是你走得太快,还是我跟不上你的脚步?我们错过了诺亚方舟,错过了泰坦尼克号,错过了一切惊险与不惊险,我们还要继续错过……到底谁是谁的过客,谁是谁的宿命,谁又是谁的归人?
  • 凤毒天下:神医十小姐

    凤毒天下:神医十小姐

    平庸?废物?她驭神兽契魔宠一招拍碎你!阴了她?她明着还回去!想害她?她左手幻力右手灵素夹着毒药让你生不如死!看似乖巧可人实则睚眦必报,一朝离奇穿越,她成了沧阑大陆容家的那个幻力灵术双废家族耻辱的十小姐。凝眸之间,却阴差阳错地学毒,温软甜笑,乖巧可爱,却是纤纤素手,一指天下,(已完结)容西月,谁若敢造次?哼哼!那就看看她如何笑看天下!…..当如此逆转之后的容西月,遇到了火爆如他,面对她‘乖顺’的脸他常常暴跳如雷,医学天赋极高,却陪她弑神杀魔,若有人胆敢伤她?“伤她?!吾,不准。”
  • 至尊妖后

    至尊妖后

    一场惨遭背叛的穿越,一场穿越生死冲破时间界线的唯美爱情。初遇时她是女扮男装的“丑女”而他是美的像妖、像仙、像魔般的倾世美男!在遇时,她遥身一变从绝世冷王的小逃妻变成万人贱骂的女奴,而他却是万人之上傲视天下的王!前世债,今生还,桃花劫,尘世难,这一世究竟谁是谁的劫?他改天逆命冲破时间的界线,穿越三千年的轮回,等待三千年的孤独,只为那一份卑微爱,只为找到她,许她一世笑颜。
  • 领主攻略

    领主攻略

    花都半仙玩转虚拟游戏,在这个人类的第二世界里,拥有半仙之称的易山阴差阳错的成为了一个领主玩家,既然做了领主,那就做个风流领主吧。易山借助从论坛上下载的神奇攻略,开始了风骚的领主生涯。
  • 民国裁缝女

    民国裁缝女

    只会设计衣服的她只能到裁缝店当学徒,身为顶尖时尚设计师的她,好歹这与她现代的专业还比较接近吧!什么,死就死吧,因为怕她的脸惹来麻烦而不要她,这下惨了,反正她也没有亲人。但是醒来却发现莫名其妙地跑到了民国,没办法只能掩盖住自己的容貌混进来,居然被莫名人士雇佣的杀手扔下海,可是这些公子哥还真是烦人啊!请看一个小小的裁缝女如何周旋于这些富家公子与千金中明哲保身!
  • 嚣张宝宝:总裁爹地不好惹(完)

    嚣张宝宝:总裁爹地不好惹(完)

    粉雕玉琢,肤如凝脂,天真烂漫,可爱无比,圆圆大眼一眨,谁能抵挡?.机场中,两个六岁粉雕玉琢的娃儿,故作不小心撞进一群危险人物群中,只为目睹亲生爹地的庐山真面目。顺手从男人身上摸走钱包一个。*她,神偷门专门培养出来的神偷之一——乔沫沫,七年前刚出道便偷回了两件大宝贝,今年六岁的乔贝儿与乔小楠。从小,无一不是在学习偷术,然而……却不及自家只有六岁的两个宝贝。女儿和儿子太过聪明的后果,就是衬托出她的笨手笨脚。*他,亚瑟·威廉斯,法国首富威廉斯家族继承人,帝国集团的龙头老大。英俊帅气多金,身边女人无数,换女人如换衣服,走马观灯马不停。六年前,为了阻止老头子再将女人塞到他房里,他将一张结扎证明丢到老头子面前。气得老头子心血管暴发,出国治病。六年后,却在陌生国度的机场中撞见两个酷似自己的缩小版娃儿。让他忍不住仰天长啸,人算不如天算!.【群号:20710237(欢迎亲们催更,讨论文文!)】