大数据核心技术、质量现状及其在运营中的实践

来源:飞象网 2016-07-08 17:02:00

所谓”大数据“,其和”小数据“的唯一差别在于数据量以及数据量带来的对于数据存储、查询及分析吞吐量的要求。本质上,”大数据“仍然需要通过数据分析来发现现状,找到导致现状的根源要素,并且通过模型与预测分析技术来对改善进行预测与优化,并且实现企业运营各个领域的持续改善与创新。要谈”大数据运营”在中国的情况,首先必须深入了解”大数据核心技术“的质量现状。

当前大数据主要核心技术

海量信息存储

大数据,顾名思义数据量一定很大,其次是数据具有高增长率和多样化的特点。那么在量大、种类繁多的情况下,数据的存放将会是一个问题。为了解决这个问题,在这期间出现了hadoop,分布式文件系统及存储。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5、低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

分布式计算

分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

那么分布式计算在大数据中运用最广泛的组件就是MapReduce以及Spark等等,都是通过Yarn来进行资源协调,实现了原本一台机器无法完成的多台并行计算能力。

上图为spark在分布式集群中的计算方式和高容错性机制。

实时计算

实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。

1)数据源是实时的不间断的,要求用户的响应时间也是实时的(比如对于大型网站的流式数据:网站的访问PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每天各小时的流量和用户分布情况)

2)数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。典型的实时计算运用商主要有民航、券商,民航的实时航班信息、券商的实时股价以及交易信息等等,均需要提供实时计算来实现数据呈现。

大数据周边主要核心技术主要有Kafka、storm、SparkStreaming等相关技术。

Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”(continuouscomputation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。

SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming的优势在于:能运行在100+的结点上,并达到秒级延迟。使用基于内存的Spark作为执行引擎,具有高效和容错的特性。能集成Spark的批处理和交互查询。为实现复杂的算法提供和批处理类似的简单接口。

数据爬取与挖掘

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。

由此,衍生出了我们现在使用的各式各样的网络爬虫。不论这些爬虫有什么样的算法和特征,他们的目的只有一个,就是获取到丰富的、有价值的网络数据。那么这些网络数据又有什么价值呢?挖掘。

没有挖掘就看不到黄金,那么数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是一种深层次的数据分析方法。随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。它结合了人工智能和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

大数据质量的现状

由于大数据具有复杂、多样、多变等特点,在大数据时代下,数据质量很难保证。

以制造企业为例,企业可以从大量的客户、产品和销售信息中获得更多有价值的信息,进而制定满足消费者需求的销售策略。然而这些信息的获取和提炼都必须以高质量的数据为前提,如果数据质量低下,必然会影响提取出的信息的质量,甚至是错误的、无效的信息。

因此我们重点从流程、技术和管理三方面来分析大数据环境下保证大数据质量的挑战及重要性。针对这一块,我们的贾西贝同志(中国大数据专家委员会委员、深圳市华傲数据技术有限公司CEO兼CTO)将会在文章最后所在分享大会上详细讲解。

大数据核心技术带来的挑战和机遇

挑战一、大数据数据处理技术更新缓慢

大数据虽然可以通过扩大数据样本规模和提升数据处理能力来管理日常经营性的风险,但是代表金融创新风险等未来事件是无法用历史数据进行预测和分析的。

首先,大数据处理技术面临数据生成者学习行为的挑战。大数据处理技术和评估标准影响数据生成者行为,同样数据生成者行为也会影响大数据处理技术和评估标准。以我国大数据重要来源之一的社交媒体为例,这种大数据来源的有效性是有前提条件的,即人们在社交媒体分享的信息都是真实的、自发的、不受大数据处理技术和各种评估标准的影响。但是,人们在互联网时代运用网络学习的能力是不断提高的。如果人们通过学习大数据处理技术和各种评估标准而相应改变社交媒体的信息,就会导致大数据生成机制发生质变。因此,在对大数据进行技术处理时,简单地认为数据生成者都是无意识地生产大数据,忽略了数据生产者行为背后趋利避害的动机,可能就会得出错误的判断和结论。

其次,大数据处理技术面临去冗降噪挑战。在现实中,大数据一般来自于不同的社会主体,以动态数据流的形式产生,人们在方便获取数据的同时,也会使得虚假数据、无效数据等噪声数据的生产成本降低。面对大数据中包含众多不同形态的噪声数据,如何通过数据处理技术的革新来挖掘有价值的信息是我们自始至终都要面临的一项技术挑战。这如同人类社会医学技术创新与病毒变异之间的“竞赛”一样是长期存在的

挑战二、大数据安全与隐私

我国在大数据发展和应用方面已具备一定基础,拥有市场优势和发展潜力,但也存在数据开放共享不足、产业基础薄弱、法律法规建设滞后等问题亟待解决。他呼吁,应尽快完善大数据相关的法律法规,营造互联网数据产业发展的法治环境;互联网企业要切实履行社会责任,共同促进大数据产业持续健康发展;网民要加强个人隐私保护意识,培养健康安全的网络使用习惯。

中国互联网协会理事长邬贺铨院士发表题为《大数据安全---技术与产业及管理》的主旨报告,从大数据安全的技术挑战、产业短板、管理风险以及安全防护四个方面阐述了大数据时代的安全形势。他指出,大数据已经成为信息社会的热点,其应用本身既是安全防御的重点,也是保障网络与信息安全的有力手段。大数据的安全既需要从技术、产业、管理多维度来保障,也需要人才、法规来支撑。

目前不光是各家企业单位重视大数据下的安全,国家也开始对这一块开始着手管控,因此当下不得不把信息安全放在重要的位置。

大数据带来的机遇

大数据在各个行业的垂直特色化应用其实会更体现出新的机遇,包括金融、电信、健康、媒体广告、零售、交通、政府、智慧城市、房地产和家居家电等行业都会有很多应用机会:

1、金融——大数据公司专门聚焦在通过大数据进行客户信用评级,并为银行、保险公司或者P2P平台服务;或者基于大数据挖掘帮助银行进行客户细分、精准营销服务。

2、电信——这个方向已经有专门为电信企业提供客户生命周期管理解决方案、客户关系管理、精细化运营分析和营销的数据公司;或者基于大数据提供网络层的运维管理和网络优化服务的大数据公司。

3、健康——未来两三年将会出现一批基于各种可穿戴设备形成的健康云数据,进行深度的数据数据分析和挖掘的企业,帮助人们进行健康预测和预警;未来还可以服务公共卫生部门,打通全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应等。

4、媒体广告——可以通过大数据实现更科学的媒介选择;或者基于大数据的精准广告投放系统、基于大数据的广告效果监测评估服务、基于大数据的网站分析优化服务以及基于大数据DMP数据平台并为DSP平台提供精准营销服务等。

5、零售——大数据公司可以帮助零售企业进行店面选址服务;利用关联规则进行客户购物篮分析,从而给客户推荐相应的促销活动;基于天气的分析和预期来判断畅销产品以及相应的进货和运营策略,或者把天气数据加入物流预测模型,确保在天气模式没有改变之前,商品能够顺利运送到各商店。

6、房地产——通过互联网平台的大数据进行购房潜在客户挖掘;或者通过互联网大数据进行潜在装修客户挖掘;通过大数据提供精准的社区O2O服务;商业地产通过大数据对商场消费人群进行分析,掌握顾客活动轨迹、消费习惯等,提供定制服务、精准营销服务。

7、民航——来自航班、爬虫外部等重要数据,通过大数据处理及可视化分析平台帮主航空企业运营处理每天全球个个机场N条气象报文,ACARS信息,ADS-B实时报文,以及航班动态、飞机轨迹、旅客信息、社交媒体等。通过这些实时数据,完整的反映出整个航空公司每架飞机、每个航班的运行状态,经过服务器端的实时计算,对气象、燃油、航路、旅客等关键安全因素进行预警,保障航班安全运行。

成功案例

华为助力工商银行实现精准营销

面临的挑战:应对互联网金融的竞争,需要掌握网银用户的行为轨迹,精准营销,扩大销售;优化网银服务模块的质量,提升客户体验。安全、运维操作日志的关联分析,提高故障发生时故障点定位的准确率,提升故障响应速度。

解决方案:企业级大数据平台:高可靠、高安全、易管理、易开发;分布式日志收集系统自动将各分行的日志收集到总部大数据平台;统一管理:分布式日志收集系统+大数据分析平台;基于访问日志的用户行为统计和分析模型;拥有内核级开发的工程团队和咨询、定制化的服务能力;

带来的价值:统一的分布式日志收集+分析大数据平台;通过网银用户行为统计和分析,实时+离线的精准营销;安全+运维操作日志关联分析,精准定位故障点。

华为大数据方案在福建移动的应用

为进一步提升外呼成功率,从2014年初开始,福建移动联合华为公司开展基于大数据的精准营销工作,采用大数据分析的方法选择外呼目标价值用户。基于大数据分析方法和传统外呼方法分别提供20万目标客户清单,在前台无感知下进行对比验证,确保对比效果不受人为因素影响,经过外呼验证,基于大数据分析方法较传统方法外呼成功率提升50%以上,有效支撑了福建移动4G用户发展战略。

失败案例

某城商银行自主研发的理财产品推荐系统

问题描述:某城商银行独立搭建了大数据平台,且组织了一些号称“大数据”高手在信息科技中心进行产品推荐系统研发,因为科技部只是对大数据技术感兴趣,所以根据自己的想法和理解,对存贷款以及理财购买信息做了协同过滤算法,最后得出了客户产品推荐清单。但是到最后,营销部门看也没有看一眼这个推荐系统和推荐清单。

问题原因:不论是大数据应用还是其它应用,没有实际业务价值的驱动和深入理解,等于做无用功。

大数据成功运营的关键要素业务

主导业务、

市场、用户对互联网产品需求越来越广泛,需要你越来越个性化,越来越实时化。比如说广告,现在我们广告客户想要看刚刚前一分钟的投放效果,如果效果没有达到预期,我们就可以根据实时计算,对后面的营销策略做出及时地调整。比如说“双十一”的促销活动,它就一天。如果当天的营销策略错了,那么前期所有的准备就白费了,一年就玩进去了。

因此要有“业务”才有大数据运营,所有应用都必须基于业务需求来建立。

技术、人才储备

2016年Hays亚洲薪酬指南指出,中国市场对“大数据”工程师和数据分析师的需求很高。全球著名管理咨询公司麦肯锡发布的“中国数字转型”报告也支持了这一说法,报告指出:“企业即将面临人才短缺的局面,特别是大数据及高级分析相关的一些高度专业化的职位。”

保持行业交流、与时俱进

有沟通才有成长和进步,谁都不想做井底之蛙。最好的学习方式就是聆听加实践,不论是个人还是企业,更多的需要分享和不断学习。

本次线下交流主要内容

主题:技术实践释放大数据价值

时间:2016年7月14日下午

地点:成都世纪城国际会议中心6层金桂厅

一、      组织机构:

指导单位(拟):工业和信息化部

四川省人民政府

主办单位:中国大数据专家委员会

中国电子信息产业集团有限公司

中国电子学会

四川省经济和信息化委员会

成都市人民政府

承办单位:中国电子学会科技交流与国际合作中心

大数据核心技术论坛

主要议题:

•     大数据开放的技术

•     大数据质量提升

•     大数据价值重塑

三、      会议日程:

时间7月14日下午   演讲题目      嘉宾姓名和职务

*会议日程以现场为准,组委会保留最终解释权

点击查看原文

相关链接