登陆注册
3133300000004

第4章 大数据如此重要,引无数英雄竞折腰(1)

在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握,企业才有可能在未来的发展中分得一杯羹。

多样的非结构性数据

在电影《黑客帝国》当中,主人公尼奥在服下了蓝色药丸之后,就发现所有在他身边的一切其实都是数字化的幻想而已,他的工作、伙伴、住的高楼,看到的天空大地,甚至于他的情绪都不例外。电影的创作自然可以天马行空,真实的物理世界尽管不是如此,但不可否认的是它也在朝着数字化的方向高速前进。

像是高楼大厦,在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型,它所使用的就是三维建模技术。在消费者看来,人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图;在地产商看来,建筑信息模型所透露出来的信息便是他们需要为整个过程投入多少;在设计师看来,整个模型清清楚楚地呈现了所有设计的综合,他们能够在当中调整管线走向和通风设计等等;在工人看来,模型就是他们的施工图;在消防部门看来,即便是尚未完工的建筑也可以通过模型来评估它的消防效果,并模拟人群疏散的动态情形。总之,这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频,还有海量的数据,都有大量的信息蕴含其中。此类数据的特点是共同的,尽管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现,最为简单的文档可能就只有几行字而已,但是一旦插进了图片、音乐等多媒体内容就可以成为一个多媒体的文件,文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应,在结构性数据中人们对于表格中的数据可以简单解释,因为结构都是相通的。每个人每个月所领到的工资条,工资条的结构就没有变化过,变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟了,会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话,商业数据库就会使用上,它们的任务就是存储和处理这些结构性数据。

可是,日常生活中无论是企业数据还是日常数据,大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个企业数据量的80%,还有调查显示高达95%,这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数据一样获得便利、快捷的处理。可是他们总在走弯路,一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大,用统一的处理模式来硬套的话,结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱,它为公众提供搜索服务的同时,把大量网页、文档等数据的快速访问难题也解决了。雅虎公司也有一个研发小组,在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架,这就是大众所熟知的Hadoop。目前这个领域的技术发展很是快速。

以上这些公司的技术研发,让不少人在面对非结构性数据的处理问题上重新找回了自信,因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富,企业为人们开发了众多表达心情的标准化图示,用以表达人们的各种复杂的情绪。

大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控,凡摄像头的运转均为24小时,它势必会产生大量的视频数据。通常情况下的视频数据是枯燥乏味的,人们不会关心。但是一旦拍到了图谋不轨的行为,那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道哪一个部分有用,因此所有的视频材料都要保存下来,即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说,这些视频都是非常珍贵的第一手材料,因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事,手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数据,再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外,医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的保险产品,对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了:1.数据的价值是无可限量的;2.当然这价值犹如沙滩中的黄金一般需要挖掘;3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中,会发现即使手中有一座如此大的宝藏,但挖掘工作仍是非常困难的,原因正是由于自身的数据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司,因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司,它需要的是看待世界、产业的观念和视角。大公司通过它来合纵连横,扩张跨界,小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢?

显然是小于1秒,就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间,无论是电信还是金融行业都在经历着一场核心应用系统从分散到总部统一的过程。集中大量数据之后,所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取信息。

在这个领域,谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布,全世界我那工业的搜索可以在1秒内完成,并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话,用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫,会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的特征。根据消费者的购买特点,京东商城将其分为了四种类型,其中37%是冲动购买者。对于这类购物者来说,能够在冲动的一瞬间为其送上最为精准的商品信息,是商品销售中的关键因素。幸运的是,关于这一点,社交平台的出现,为调查人们的偏好和兴趣提供了一个极好的平台,也让大数据时代这种精准的营销成了可能。

股票市场的交易主要是高频交易,要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒,有人特地建了一条横跨西海岸到东海岸的光纤,还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会,此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故,就会在第一时间做出判断,评估影响范围,到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息,无疑是最为美好的服务。此时的促销消息若是消费者正好需要的商品或是服务,人人都能从中获益。消费者节省了时间,商家商品得到销售,服务商也获得了佣金。如果所提供的促销信息非准确时间获得的,那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息,而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大,更新频率也很高。这样的数据并非不常见,很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率,更新频率越高的数据就有越大的活性,反之亦然。通常来说,数据集中的活性越大,就有越丰富的信息在其中。因此在大数据领域要有所成就的话,就要想办法去提高数据的活性。

对于公司的投资价值的判定,人们常常会听到这样的观点,公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及,就因为人们更容易记住这一点。

大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时,很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的,而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说,大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现的新数据都是以这样的模式呈现的。对股票交易来说,交易信息的第一部分格式就是月份/日期/年份等时间信息,然后就是12位的账户数字,接下来是3-5位字母所表示的股票代码。信息的格式事先就已经定好了,再由规范好的格式和顺序给出,这样的话处理起来就比较简单。

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能的,只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他们要面对非结构性的数据时还是会感觉是个巨大的挑战。

大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷,核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下,会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候,通常会认定大数据是庞大的且很难使用的。事实上大数据不过是突破了当前极限,更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的,但这也不影响其驾驭大数据源。毕竟分析专家从一开始就非常努力地在探索新数据源,并且将持续下去。

在电信公司中分析电话详单的第一人是谁?当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁?当然也是分析专家。最初,分析几千个到几万个,甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法,并且是在当时的条件下。不少人对可行性产生质疑,还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变,即便从一开始很多分析专家会自称为数据科学家,可是他们的目标还是一致的。待解决的很多问题都涉及了大数据,这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的,并从中发现一些有价值的趋势和模式。必须强调的一点是,尽管大数据听起来很陌生,可是它所带来的挑战却无须畏惧。

不论从什么方面来说,大数据所产生的问题一定是从前出现过的。在数据分析领域,永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况,分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业,大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合,目的是为了有效地处理大数据流。要从中提取最有效的信息,复杂的过滤算法是十分必要的。当然也要更新建模和预测程序,大量的数据要输入添加到现有的输入当中去。

从根本上来说,分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法,分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是,分析专家在处理大数据和以往数据时的方式差异不大。

是什么构成了大数据价值链?

依照所提供价值的来源(数据本身、技能和思维)不同,大数据公司可以分为三类。

同类推荐
  • 体感交互技术

    体感交互技术

    本书提出了体感计算的研究,探讨了基于体验性认知的个性化电子学习方式,并且分析了面向儿童的艺术创造体验,在体感虚拟化身的帮助下,用户可以通过身体运动,促进情感心智的全面发展,
  • 一本书读懂大数据

    一本书读懂大数据

    本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从最初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中。
热门推荐
  • 铁血宰相:俾斯麦(创造历史的风云人物)

    铁血宰相:俾斯麦(创造历史的风云人物)

    《铁血宰相·俾斯麦(插图版)》:名人创造了历史,名人改写了历史,那些走在时代最前列、深深影响和推动了历史进程的名人永远会被广大人民所拥戴、所尊重、所铭记。古往今来,有多少中外名人不断地涌现在人们的目光里,这些出类拔萃、彪炳千古、流芳百世的名人中,有家国天下的政治家,有叱咤风云的军事家,有超乎凡人的思想家,有妙笔生花的文学家,有造福人类的科学家,有想象非凡的艺术家……他们永远不会被人们忘记!
  • 妃常难忍,臣妾做不到!

    妃常难忍,臣妾做不到!

    自从穿越到北赤王朝,成了三王爷的王妃之后,白筝满脑子都只有一个想法:在月黑风高夜,摘掉三王爷脸上的面具!之前白筝听到的传闻只说,三王爷俊美异常,天下无双!却没说他每到入夜,都要以面具示人,连……新婚夜也不例外!白筝暗想,这王爷怕是……有病!明明在青天白日的时候,彼此都光着脸见过那么多次了,谁还不知道他长啥样啊?!……直到三王爷亲自摘下面具的那一刻,白筝才“惊喜地”发现,她果然“爱”错了人!**一年后,三王爷景玺称帝,三王妃白氏却因病暴毙。同年,太后亲自操办选秀、封妃事宜,为新帝扩充后宫,所选佳丽几乎个个倾国倾城。新帝却独揽众怒,忤逆太后,只留了长得最像三王妃白筝的“丑”秀女,封作皇后,专宠她一人!可这独一份的荣宠,皇后娘娘却躲着不要……因为她哪里是长得像白筝,分明就是白筝!况且,她真的很忙!上有太后隔三差五地找茬儿,下有不知好歹的宫女太监不定期地给她使绊儿!外有渣男要防,更有痴情郎难挡!内有惊天秘密要把持,还有那么多心机女在处处放肆!可她堂堂皇后也不是吃斋念佛的主儿,看她如何一一收拾!奈何皇帝过分霸道,她也只能选择一逃再逃……——精彩片段——景玺称帝后,太后亲自操办选秀事宜。在一群秀女之中,帝王伸手一指,点中白筝,“此女,最丑。”闻言,白筝暗自得意。然某皇顿了顿又道:“比她好看的,全不要。”满场哗然!说话不带这么喘大气的!还是栽了,白筝一颗心碎成了渣渣!**某个月明星稀夜,皇后又失踪了!随着她一起失踪的,还有她寝殿里任何可以搬走的东西!为了寻人,皇宫乱成一片。而在某个荒废的花园里,一腹部微隆的女子正奋力地挖坑,她身旁一堆物什在夜里闪光。“这边得再挖深一些。”男子负手立于女子身后,言语淡淡。“哪里?……皇上!……您是来接我的吗?”被抓了个正着,白筝谄媚地想要转移话题。“不,朕就随便带了一千精卫……散步。你继续。”“……”一千……精卫!真是太随便了!
  • 尸心不改

    尸心不改

    控尸门的欢乐二缺弟子江篱炼了一具美得人神共愤引得天雷阵阵的男尸,以为好日子开始了,结果没想到门派惨遭灭门。--情节虚构,请勿模仿
  • 囧囧仙妻

    囧囧仙妻

    轻松种田文,狗血家庭剧。古装版家有仙妻,看麻辣小仙女调教憨夫成龙,戏耍金枝欲孽!******************************************************不就是牵错根红线点错对鸳鸯吗,为啥她就要被上司踢下来顶缸一个月?啥?天上一月,人间30年?天,要让她在这个错综复杂勾心斗角的大家庭里跟人过30年?!还要她跟个痴痴呆呆的相公生儿子?!囧囧囧,这呆夫仙妻,日子可怎么过啊!
  • 谁在记忆里流连

    谁在记忆里流连

    也许正如人们所说的那样,双生子天生有着心灵感应。倾心离开后,没有人再跟我提过关于她的任何事情。从那时起我陷入了记忆的死角,每晚重复做着同一个梦,梦里有着跟回忆中不一样的人和事。我一直以为,是我的记忆出了错。直到遇见时宇锋。那个总是在我梦中出现的人,我才发现原来一切并非臆想。循着往日的痕迹,抽丝剥茧,我渐渐发现了倾心的秘密,还有那段被遗忘在角落的旧时光?
  • 诺贝尔文学奖获奖作家散文精品

    诺贝尔文学奖获奖作家散文精品

    诺贝尔文学奖是世界上对文学作品的最高肯定,是世界各国文化的精髓。 《诺贝尔文学奖获奖作家散文精品》共收录百年来诺贝尔文学奖获奖作家的散文精品70余篇,为所有读者提供一份可供学习、欣赏、借鉴的世界散文经典之作。该书1995年出版过,现经整理后再版。 《诺贝尔文学奖获奖作家散文精品》由毛信德和李孝华担任编著。
  • 修真四万年

    修真四万年

    “倘若这宇宙,真是一片残酷血腥的黑暗森林,我们修真者,也会燃烧自己的生命,绽放出微弱的火花!”“哪怕这火花再微弱,再短暂,再渺小,可是只要我们源源不断,前赴后继,终有一日,火花会点燃杂草,杂草会燎到灌木,灌木会蔓延大树!”“最终,小小的火花,会在这片黑暗森林中,掀起燎原天火,照亮整个世界!”****新书已发,灵气逼人!-------------已有两群:老牛会客室202330158(两千人大群,虚席以待!)老牛会客室二群386336065
  • 无敌大小姐

    无敌大小姐

    当现代阴狠毒辣,手段极多的火家大小姐火无情,穿越到一个好色如命,花痴草包大小姐身上,会发生怎样的化学反应?火无情一醒过来就发现,自己竟然在众目睽睽之下上演脱衣秀。周围还有一群围观者。这一发现,让她极为不爽。刚刚穿好衣服,便看到一个声称是自家老头的老不死气势汹汹的跑来问罪。刚上来,就要打她。这还得了?她火无情从生自死,都是王者。敢动她的人,都在和阎王喝茶。于是,她一怒之下,打了老爹。众人皆道:火家小姐阴狠毒辣,竟然连老爹都不放在眼里。就这样,她的罪名又多了一条。蛇蝎美人。穿越后,火无情的麻烦不断。第一天,打了爹。第二天,毁了姐姐的容。第三天,骂了二娘。第四天,当众轻薄了天下第一公子。第五天,火家贴出招亲启事:但凡愿意娶火家大小姐者,皆可去火府报名。来者不限。不怕死,不想活的,欢迎前来。警示:但凡来此,生死皆与火家无关。若有残病者火家一律不负法律责任。本以为无人敢到,岂料是桃花朵朵。美男个个很妖娆一号美人:火无炎。火家大少爷。为人不清楚,手段不清楚。容貌不清楚。唯一清楚的是,他有钱。有多多的钱。火无情语录:钱是好东西。娶了。(此美男,由美瞳掩饰不了你眼神的空洞领养。)火老爷一气之下,昏了过去。家门不幸,家门不幸啊。二号美人:竹清月。江湖人称天上神仙,地上无月。大国师一枚。美得惊天动地。火无情语录:美人好,尤其是自带嫁妆又会预测未来的美人,娶了。(此美男,由东de琳琳领养)三号美人:轩辕子玉。当朝七皇子,游历四国。一张可爱无敌的脸。单纯至极。火无情语录:可爱的孩子好,可爱又乖巧的孩子更好。可爱乖巧又不用给钱的孩子,娶了。(此美男,由刘千绮领养)皇帝听闻,两眼一抹黑。他的儿啊。怎么就这么不争气呢。四号美人:天下第一美男。性格不详,籍贯不详。火无情语录:谜一样的美人,她喜欢。每天都有新鲜感。娶了。(此美男,由告别的爱情li领养。)五号美人:天下第一名伶。火无情语录:解风情的美男,如果没钱花把他卖了都不用调教。娶了。(此美男由伊眸领养。)六号美男:解忧楼楼主。相貌不详,身世不详。爱好杀人。火无情语录:凶恶的美人,她喜欢。娶了。(此美男由陈铭铭领养)七号美男:琴圣。貌如谪仙,琴音杀人。冷清眸子中,百转千回,说尽风流。(此美男由伊眸领养)夜杀:天下第一杀手。(此美男由静寂之夜领养)
  • 孔雀森林

    孔雀森林

    一切源于那个心理测验,我才遇到了生命中那三个女人。“你在森林里养了好几种动物,马、牛、羊、老虎和孔雀。如果有天你必须离开森林,而且只能带一种动物离开,你会带哪种动物?”我不假思索地选择了孔雀。有人说心理测验在某种程度上验证了一个人的性格,所以单纯的人们便认为选孔雀的人喜爱金钱,好像除此之外便没有别的解释。尽管我知道自己并不是如此,但我从不解释,也不深究,因为没有必要。直到后来,我遇到了和我一样选孔雀的女生,才知道自己内心的真实想法。之所以选择孔雀,是因为它无法单独存活,而骄傲如它却从不乞求。
  • 东宫有本难念的经

    东宫有本难念的经

    宝庆十九年春,大佑国皇太子大婚,大将军之女入主东宫。一个不是淑女的将门千金遭遇一个不是文韬武略的中庸太子,到底是佳偶天成,还是冤家路窄?成婚一年不足,太子忽然休妻。迷影重重,生死茫茫,这样一来,还是不是大团圆结局?