数据分析项目经验案例(数据分析项目经验怎么写)

http://www.itjxue.com  2023-03-25 15:43  来源:未知  点击次数: 

如何快速成为数据分析师? 看这里

【导读】随着大数据时代的降临,越来越多的公司开始注重数据,希望能从数据中找到具有价值的信息,帮助公司做出正确的决策,使其发展的更加顺利,数据分析师也成为越来越多人向往的职业。那么,如何快速成为一名数据分析师呢?掌握下面这4点。

业务能力

数据分析工作的重中之重就是业务能力,只要真正的在实践领域从事过,就会真正的明白业务知识是你分析的根本。而业务知识的学习是需要时间积累的。业务知识的培养是将远远超过技术工具的学习。数据分析其实就是基于业务之上的更深层次的思考和总结。对业务学习,我们可以根据以前的报告和案例拿来研究,这是一个需要时间沉淀的过程,也是最需要不断提升的能力,没有之一。

思考能力

当我们拿到一份数据报表的时候,整个数据就摆在面前,它不会主动开口告诉你。这就需要我们去推演和分析,从中找到规律,迅速评估问题的关键属性和决定因素,形成自己的独有见解,总结报告。所谓心思缜密,滴水不漏,没有思考逻辑,就没有分析思维。我们培养思考能力,可以通过跨领域的知识来带给我们不同的思维方式和问题的角度;另外也要养成爱思考的习惯。“学而不思则罔,思而不学则殆”,思考本身就是一种实践,将你所学的知识更系统和深入。

沟通能力

数据分析贯穿企业整个工作流程链,你需要面对不同的岗位,不同的角色,这个时候,就需要你良好的沟通能力,采用不同的语言和表达方式,来获取你想要的东西。沟通能力就是数据和业务的桥梁。再沟通中,我们不要固执己见,要采取他人的意见,尤其是智者的意见,可以帮我们降低犯错率,提高分析正确率,这样我们的分析才会更有说服力。

技术能力

我们自己了解到的,相关技术像Excel,MySql,Python,SPSS等这些工具。我们如果刚刚步入数据分析工作,其实Excel就已经足够了。如果我们想更深层次的掌握,可以学习Python,R,SPSS等这些。他们提供的强大的挖掘功能和图形能力。尤其是R,Python引用他们的库非常方便,而已技术也很成熟。

以上就是小编今天给大家整理分享关于“如何快速成为数据分析师?

看这里”的相关内容希望对大家有所帮助。小编认为要想在大数据行业有所建树,需要考取部分含金量高的数据分析师证书,这样更有核心竞争力与竞争资本。

数据分析怎么做?

一、 具备基本的数据素养

1. 具备基本的统计学概念

先来说一下最基础的概念:平均值,中位数,百分位数,众数,离散程度,方差,标准差。这里不一一赘述,只简单说一下均值和中位数的差异。 均值:即平均数,优势是,均值跟所有数据都相关,劣势是容易受到极端值影响。

比如,你和你的3个好友,跟比尔盖茨组成一个团队,然后这个团队的人均身价是200亿美金,你会觉得自己是有钱人吗? 中位数:只跟排在中间的数据相关,优点是不受极端值影响,缺点是缺乏敏感性。

2. 避免数据逻辑错误常见数据逻辑谬误1:相关当因果

“有研究结果表明:颜值高的人收入也更高。” 听到这个结论,你会不会觉得应该去整容? 但有可能是因为,颜值高的人相对比较自信,而自信的人容易在职场上获得成功,所以收入高。也有可能,是收入高的人有能力装扮自己,所以看起来颜值更高。所以说,上面这个表达,只是在说颜值和收入相关,但没有说两者是因果关系。

二、数据沟通和表达:如何用数据讲故事

如果你能够具备足够的数据素养,知道如何呈现数据,同时能够把数据表达出来,那么就能在故事当中融入足够有说服力的数据,故事自然变得很有说服力。

1. 理解沟通目的和对象

如果你说服一个客户购买你的理财产品,你会怎么跟他说?

第一种:这个理财产品有10%的概率会亏;

第二种:这个理财产品有90%的概率能赚。

当然是后者,他听完大概率愿意买,但如果是前一种说法,他可能会很恐惧。 所以,当你在公司里面跟不同的对象沟通时,也应该呈现不一样的数据。

比如,高层可能关心公司整体营收、盈利等等相关数据,中层可能关心他们部门的KPI数据,而主管更关注某个活动、某个举措的成功失败情况。

2. 选择合适的数据表达类型

怎么样用更加合适的数据图表类型?这里有些经验干货分享给大家,常用表格适用范围如下:

o 散点图(适合相关)

o 折线图(适合趋势)

o 横的和竖的条形图(适合对比)

o 瀑布图(适合演变)

o 热力图(适合聚焦)

o 雷达图(适合多指标)

o 词云图(适合看分布)等等

3. 符合数据可视化原则

数据的可视化也非常重要,因为如果没有可视化,就是一些数字罗列,那就跟文字信息没什么差异了。

数据可视化的几个原则:阅读门槛别太高,不要过多颜色,突出关键信息,文本与数据呼应。

想要金融类数据,应该如何收集?

金融大数据平台的搭建和应用是两个部分,对于金融大数据平台来说,这两个部分都很重要。

所以以下的部分我们从大数据平台和银行可以分析哪些指标这两个角度来阐述。

一、大数据平台

大数据平台的整体架构可以由以下几个部分组成:

从底层逐步往上,如图所示表示这么几个环节:

一、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,通过网页、App就可以收集到数据,比如很多银行现在都有自己的App。

更深层次的还能收集到用户的行为数据,可以切分出来很多维度,做很细的分析。但是对于涉及到线下的行业,数据采集就需要借助各类的业务系统去完成。

二、数据集成:指的其实是ETL,指的是用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。而这里的Kettle只是ETL的其中一种。

三、数据存储:指的就是数据仓库的建设了,简单来说可以分为业务数据层(DW)、指标层、维度层、汇总层(DWA)。

四、数据共享层:表示在数据仓库与业务系统间提供数据共享服务。Web Service和Web API ,代表的是一种数据间的连接方式,还有一些其他连接方式,可以按照自己的情况来确定。

五、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。

列存储让磁盘中的各个Page仅存储单列的值,并非整行的值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效的利用。

而分布式计算能够把一个需要非常大的算力才能解决的问题分成很多小部分,接着把这些部分给到许多计算机同时处理,然后把这些计算结果综合起来,得到最终的结果。

综合这两种技术,就能够大幅度提高分析环节的效率。Yonghong MPP可以说是目前在这两方面做的最出色的了。

六、数据展现:结果以什么样的形式呈现,其实就是数据可视化。这里建议用敏捷BI,和传统BI不同的是,它能通过简单的拖拽就生成报表,学习成本较低。国内的敏捷BI中,个人用户推荐Tableau,像银行这类的企业级需求推荐Yonghong BI 。

七、数据访问:这个就比较简单了,看你是通过什么样的方式去查看这些数据,图中示例的是因为B/S架构,最终的可视化结果是通过浏览器访问的。

二、银行数据分析体系如何搭建?

搭建一个数据平台可能是项目制的工作,在一段时间内会完成,但是搭建数据分析体系这件事却任重而道远。但是如果有人能在做产品的同时,将金融行业同类的数据应用经验也分享给你,帮助你去搭建数据分析体系,那就是真正的“良药”了。

下面分享一个YonghongTech帮助某大型银行数据服务平台建设的案例。

以客户在银行办理业务的行为路径,可以有这样几个主题,不同主题有对应的场景及其指标。

1.一个客户

客户主题:客户属性(客户编号、客户类别)、指标(资产总额、持有产品、交易笔数、交易金额、RFM)、签约(渠道签约、业务签约)组成宽表

2.做了一笔交易

交易主题:交易金融属性、业务类别、支付通道组成宽表。

3.使用哪个账户

账户主题:账户属性(所属客户、开户日期、所属分行、产品、利率、成本)组成宽表

4.通过什么渠道

渠道主题:渠道属性、维度、限额组成宽表

5.涉及哪类业务产品

产品主题:产品属性、维度、指标组成宽表

如何学习成为一名数据分析师?

如果你确实想学习数据分析的话,那现在有两种选择,自学和报班。

自学

自学的话,学习时间比较自由、不用受到任何约束,可以自己安排时间,而且学习直接支出费用要少很多,但是自学过程中一定要注意项目经验的积累,不能只学了工具技能却忘了项目经验。

因为现在企业招聘都是很看重数据分析师的项目经验,这个你在随便一个招聘网站搜索相关招聘信息都能看见企业需求。

所以,在学习的过程中,我建议尽可能地去找从事过或者是正在从事数据分析师的朋友,让他们能够“手把手”地带你去接触一些真实项目,并且能够传授一些项目经验给你。

只有在自学的过程中注重项目经验的获取,在学完后才能更顺利地步入大数据分析师这个岗位,如果没有项目经验,那就只能从数据清洗、数据统计等基础性的工作做起,其工资水平可能还没有现在的收入高。

同时,自学的过程可能会比较枯燥,一个人的学习会比较没意思,如果不够自律、信念不够坚定的话,很可能会中途放弃,来来回回反反复复,学习时长会不可控制。

如果按照正常的自学内容和进度来看,要达到初级的数据分析师水平,大概需要2年的时间。

报班学习

报班学习的话首先是时间上就能缩短很多,2个月就能掌握自学2年才能学到的内容。

当然这个时候选择什么样的培训机构,就要回到我们之前讲的学习目标上了。确定是要走大数据分析这条路,那就要去分辨各个培训机构的课程设计,选择主要带着学员做实训项目的,一定要是做企业真实项目的那种,而不是随便在网上爬一些数据,让你去练手的那种。

数据密集型案例分析怎么写

手把手教你撰写数据分析报告!附核心案例解析!

?

探潜数据分析

也许你会遇到以下几个场景:

场景一:作为运营人员,每月月末老板会问你当月的运营数据,微博、小红书作为公司的主营渠道,在投入比差不多的情况下,小红书的曝光量和转化率比微博要高出一倍,而其他竞品公司这两个渠道数据不相上下。你不想放弃微博这个渠道,需要说服老板 ,给到一个逻辑清晰的分析报告进行呈现。

场景二:身为一名销售主管,因为受到疫情影响,公司总体销售额相比于去年下降了20%,但是你朋友的公司同样是销售为主,业绩不仅没有下跌,还提升了15%。通过咨询你发现,他们公司将大部分产品的销售都改成了线上,还与几个知名带货主播达成合作,在各个平台打响了知名度。此时你想试着用这个方法提高公司销售业绩,多年职场经验告诉你,要有一份详细的数据分析报告才能和团队达成共识。

场景三:作为一名应届生,你进入了心仪很久的公司实习,如果做得好就可以留下转正,但是同期进来的小伙伴实力都不弱于你!在工作中你发现,你的领导很重视下属的数据思维,希望所有的汇报都可以结合数据阐述,他认为缺少逻辑和数据支持的工作汇报统统都是空口无凭,耍流氓!此时如果你能向领导证明你基于数据的逻辑思维能力,并且在工作汇报的时候展示出来,转正的机会基本就属于你了!

看完这三个场景,也许你会发现!数据分析渗透在生活和工作中的方方面面,不管是向上汇报,向下管理,亦或是提升职场竞争力,都需要掌握数据分析能力,并且产出一份有理有据、逻辑清晰的分析报告!

数据分析报告的目的是:向读者展示在数据分析过程中得到的分析结论、可行性建议和其他有价值的信息,从而让读者对结果有正确的理解和判断,并根据分析结论作出有针对性的、可执行的战略决策。

数据分析报告的作用是:解析分析过程——展示分析结果——提供决策参考

看到这里也许有小伙伴就会有疑问了,“数据分析报告究竟是什么呢?”、“数据分析报告要包含哪些内容呢?”“撰写报告的时候有什么要注意的地方吗?”、“有没有撰写的思路呢?”。不要担心,接下来我会结合多年数据分析的经验和大家一一解答!

一、什么是数据分析报告?

团队需要分享、沟通,数据分析师需要洞察数据、分析结果分享给企业领导、团队同事、大众媒体及更多的利益相关方,通过数据分析报告对项目数据全方位的科学分析来评估项目的可行性,提供科学、严谨的依据,降低项目投资的风险。

数据分析报告是项目可行性判断的重要依据。任何欣欣向荣的企业,都是建立在所开发的优质项目基础上的。

数据分析报告的类型分为两种,一种是追踪型的分析报告,一种是研究型的分析报告。

追踪型的分析报告:对日常业务数据高频率的展现,关键在于发现问题,而不是解决问题。它一般用于回答“怎么了”。这类报告往往是通过数据对业务现状进行描术和问题发现,常见的有周日报,行业现状分析报告等。

研究型的分析报告:用于回答“怎么了”、“为什么”以及“怎么办”。这类报告往往是为了解决某种特定的业务问题,基于数据分析结果提供有效的解决方案,常见的有问题诊断报告,决策建议报告。

二、写报告之前你需要知道的4件事

1.了解数据分析报告的组成要素

图片来源:探潜BDA数据分析课程

2.明确什么是好的以及不好的数据分析报告

一份·好的数据分析报告建议包含一下内容:

一共包含五部分内容:摘要、关键字、目录、正文(包括标题、引言、文献综述、研究问题过程、结论与建议)、参考文献(不少于5篇)

比如这样!(以下图片是报告部分截取内容)

图片来源:探潜BDA数据分析课程

并且满足以下数据分析要求:

研究方法要求:

结合:定量分析与定性研究

分析流程要求:

体现:数据收集→数据处理→数据分析→数据可视化

分析方法建议:

运用:对比分析、分组分析、交叉分析、回归分析等方法进行分析(不限以上分析方法)分析工具要求;

一份好的报告一般需要至少包含描述性分析和诊断性分析,也就是要根据要分析的目标至少给到一个现状的评估,问题的诊断,再给出合逻辑的对应方案。

判断是否是好的报告,主要看分析逻辑是否合理·、图文是否呼应、内容是否清晰易懂、给出的决策性建议是否可以落地实施等等!

3.确定分析行业和目标

在工作中,可能是老板或者雇主给了我们一个数据分析的目标,我们只需要根据既定的目标去解决问题。

比如公司的某一个产品订单量下降了20%,老板希望你可以找到下降的原因以及给出可落地执行的方案!这个就是一个比较清晰地数据分析目标了!

可能考虑到是最近平台的优惠力度不够,或者其他竞品在价格上面更有优势,那到底是哪方面的原因导致的呢?这些就需要你进行一个初步的分析。

除了以上场景,这里主要和小伙伴们介绍,在自己的项目当中如何寻找数据分析行业和目标。

1.寻找自己感兴趣的领域

“兴趣是最好的老师”,有了兴趣才有前进的动力,才有进行分析和探索的冲动和欲望。

2.寻找熟悉的行业和业务进行分析

选择熟悉的方向比选择不熟悉的方向更节省时间和经历,你可以有更多的时间寻找合适的数据和数据的清洗、分析和探索中,避免将太多的经历放在背景的了解和业务的分析上。

3.寻找自己擅长的或者有资源的方向

在这里给大家列出3个比较常见的行业和3种数据分析方向,可供大家参考!

图片来源:探潜BDA数据分析课程

最后再给大家列出几个和大家工作相关的分析方向:

做财务工作可以研究金融方向的数据分析

做运维工作可以做人力资源管理的数据分析

做销售工作可以做目标客户和销量的分析。

在确定了分析行业后,就要明确数据分析的目标,这里从增长的维度和降低的维度和大家介绍!

增长维度:分析收入的增长和效率的增长

降低维度:分析成本或风险的降低。

一句话概括就是:在明确目标行业之后,通过对比目标行业过去和现状,从理想和现实的冲突入手,寻找增长收入、提升效率、降低成本或控制风险的方法。

4.寻找合适的数据

明确了想要分析的行业和分析目标之后,就可以开始收集数据。收集数据的时候有一个共同的问题就是如何寻找合适的数据进行分析?可能有伙伴会问,“我不会爬虫能不能找到合适的数据进行分析呢?”

答案是肯定的!这里分为两种情况,一个是从自身的工作中寻找数据,另外一个是从公开的信息源获得数据。

1.从自身的工作中寻找数据

首先需要思考自己工作中有没有需要改进的地方,这个可以作为分析目标。然后寻找是否有数据可进行量化 。有的时候数据并不容易获得,比如从公司的新系统或者是内置的数据库当中获得数据。也可以去收集数据,比如通过问卷调查的形式来收集数据,这就是一个可以数据数据的渠道或者方式。

通过工作来寻找数据的好处,第一个是可以对背景知识有更好的了解,另一个是通过数据寻找到对工作的改进点,那数据分析项目的成果也可以向老板进行汇报,从而提升职场竞争力,得到老板器重。

2.从互联网中寻找数据

如果没办法从工作中寻找数据,那可以试试从互联网中寻找,有以下三种的方式:

第一种:从网络数据竞赛平台、数据分析社区获取公开数据集

如:Kaggle、科赛(和鲸)、阿里云天池等

第二种:通过数据搜索引擎搜索

如: Google Dataset Search

第三种:爬虫

通过程序语言爬虫: Python、R语言等通过傻瓜式爬虫工具:后羿、集搜客等工具

第四种:常见的论坛搜索

如:github,csdn等

什么样的数据更有利于分析呢?建议伙伴们可以从以下4个维度选择:

图片来源:探潜BDA数据分析课程

最后还有一个维度,可以根据业务背景,思考是否有合适的业务指标可以进行拆分,首先看底层的指标数据是否掌握,如果掌握就可以通过拆分数据指标进行分析,然后再去找对应所需的数据。

举个例子:关于天猫双十一美妆产品销售情况的数据集

我们通过拆分销售指数据指标,来看对于总销量的影响因素是什么、对于单价的影响因素是什么 ,从而找到美妆产品的销售规律 ,然后再提出对应的销售建议,这个就是整体的一个思考思路。

然后影响销量和单价因素,可能会是不同的品牌还有产品的评价量,所以一个就是通过平台量来看产品的质量和产品的口碑,还有一个就是不同品类的产品,比如化化妆品、护肤品或者其他类的工具, 哪些品类在市场上更受消费者欢迎,这就是大概的一个分析思路,找到这些数据就可以开始进行分析了。

三、如何撰写数据分析报告

1.标题

标题的撰写要直接、确切、简洁,并且应力求新鲜活泼、独具特色、增强艺术性。好的标题不仅可以激发读者的阅读兴趣,还要体现数据分析的主题。

标题常用的类型有:

a.概括主要内容:重在叙述数据反映的基本事实,使读者一眼就明白报告的重心,如《XXX公司订单量比去年增长15%》《2022年公司运营业务呈高速增长》等;

b.解释基本观点:用观点句表示和点明数据分析报告的基本观点,如《不可忽视潜在购买客户的保有》《口红产品是公司发展的重要支柱》等;

c.提出问题:用设问的方式提出报告分析的问题,引起读者的注意和思考,如《订单量下降是什么造成的》《公司未来3年的发展规划在哪》等;

d.交代分析主题:反映分析的对象、范围、时间、内容等情况,并不点明分析师的看法和主张,如《发展公司业务的途径》《2022年部门业务对比分析》等;

2.目录

目录也就相当于数据分析大纲,它可以体现出报告的分析思路。目录可帮助读者方便快捷地找到所需的内容,因此,目录中要列出报告主要章节的名称和对应的页码。对于比较重要的二级目录,也可以将其列出来。

部分读者没有时间阅读完整的报告,仅对一些以图表展示的分析结论有兴趣,当书面报告中没有大量图表时,可以考虑将各章图表单独制作成目录,以便日后更有效地使用。

3.摘要

摘要是对报告中内容概述,也就是报告内容重点介绍,摘要是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。其基本要素包括研究目的、方法、结果和结论。具体地讲就是研究工作的主要对象和范围,采用的手段和方法,得出的结果和重要的结论,有时也包括具有情报价值的其它重要的信息。

撰写摘要是要注意以下8点:

a.摘要中应排除本学科领域已成为常识的内容;切忌把应用在引言中出现的内容写入摘要;一般也不要对论文内容作诠释和评论(尤其是自我评价)。

b.不得简单重复题名中已有的信息。比如一篇文章的题名是《几种中国兰种子试管培养根状茎发生的研究》,摘要的开头就不要再写:“为了……,对几种中国兰种子试管培养根状茎的发生进行了研究”。

c.结构严谨,表达简明,语义确切。摘要先写什么,后写什么,要按逻辑顺序来安排。句子之间要上下连贯,互相呼应。摘要慎用长句,句型应力求简单。每句话要表意明白,无空泛、笼统、含混之词,但摘要毕竟是一篇完整的短文,电报式的写法亦不足取。摘要不分段。

d. 用第三人称。建议采用“对……进行了研究”、“报告了……现状”、“进行了……调查”等记述方法标明一次文献的性质和文献主题,不必使用“本文”、“作者”等作为主语。

e.要使用规范化的名词术语,不用非公知公用的符号和术语。新术语或尚无合适汉文术语的,可用原文或译出后加括号注明原文。

f.除了实在无法变通以外,一般不用数学公式和化学结构式,不出现插图、表格。

g. 不用引文,除非该文献证实或否定了他人已出版的著作。

h.缩略语、略称、代号,除了相邻专业的读者也能清楚理解的以外,在首次出现时必须加以说明。科技论文写作时应注意的其他事项,如采用法定计量单位、正确使用语言文字和标点符号等,也同样适用于摘要的编写。摘要编写中的主要问题有:要素不全,或缺目的,或缺方法;出现引文,无独立性与自明性;繁简失当。

4.引言

数据分析报告的引言是以简短的篇幅介绍报告背景和目的,提出研究要求的现实情况,以及相关领域内前人所做的工作和研究的概况,说明本研究与前工作的关系,当前的研究热点、存在的问题及作者的工作意义,引出本文的主题给读者以引导。三言两语预示本研究的结果、意义和前景,但不必展开讨论。

写作要点:

(1)开门见山,不绕圈子。避免大篇幅地讲述历史渊源和立

大数据失败案例提醒 8个不能犯的错误

大数据失败案例提醒:8个不能犯的错误

近年来,大数据旋风以“迅雷不及掩耳之势”席卷全球,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。然而,很多公司在迈入大数据领域后遭遇“滑铁卢”。在此,本文盘点了一系列大数据失败项目,深究其原因,具有警示意义。

对数据过于相信2008年,Google第一次开始预测流感就取得了很好的效果,比美国疾病预防控制中心提前两礼拜预测到了流感的爆发。但是,几年之后,Google的预测比实际情况(由防控中心根据全美就诊数据推算得出)高出了50%。媒体过于渲染了Google的成功,出于好奇目的而搜索相关关键词的人越来越多,从而导致了数据的扭曲。低估大数据复杂程度在美国有几个互联网金融公司专做中小企业贷款。但是中小企业贷款涉及的数据更复杂,而且中小企业涉及到整个行业非常特殊的一些数据,比如非标准的财务报表和不同行业、不同范式的合同,他们没有很专业的知识,是很难理解或者很难有时间把它准确挖掘出来。当时大数据团队想用一个很完美的模型把所有的问题都解决掉,比如把市场和信贷的解决方案全部用一个模型来解决,但因为数据的复杂程度,最后证明这种方法是失败的,而且90%的时间都在做数据清理。这就说明,想通过大数据技术一下子解决所有的问题是很难成功的,而是要用抽丝剥茧、循序渐进的方式。管理层的惰性某家旅游公司系统通过web日志数据的挖掘来提升客户洞察。结果证明,用户在浏览网站之后,随后的消费行为模式与管理层所认为的不一致。当团队汇报此事时,管理层认为不值一提。但是,该团队并没有放弃,并通过严密的A/B测试,回击了管理层的轻视。这个案例的最终结果,不是每个CIO都能期盼的。但是,有一点是可以确定的:做好和管理层打交道的准备,让他们充分理解大数据是什么以及相应的价值。应用场景选择错误一家保险公司想了解日常习惯和购买生命保险意愿之间的关联性。由于随后觉得习惯太过于宽泛,该公司将调查范畴限定到是否吸烟上。但是,工作仍然没有实质进展。不到半年,他们就终止了整个项目,因为一直未能发现任何有价值的信息。这个项目的失败是由于问题的复杂性。在抽烟与否之间,该公司没有注意到还有大片灰色地带:很多人是先抽烟而后又戒烟了。在将问题简单化动机的驱动下,这个部分被忽略了。问题梳理不够全面一家全球性公司的大数据团队发现了很多深刻的洞察,并且计划通过云让全公司共享。结果这个团队低估了效率方面的损耗,由于网络拥塞的问题,无法满足全球各个分支顺畅提交数据运行分析的需求。该公司应该仔细思考下如何支撑大数据项目,梳理所需的技能并协调各IT分支的力量进行支持。由于网络、安全或基础设施的问题,已经有太多的大数据项目栽了跟头。缺乏大数据分析技能一家零售公司的首席执行官不认同亚马逊规模化、扁平化的服务模式,因此让CIO构建一个客户推荐引擎。项目最初的规划是半年为期,但是团队很快认识到诸如协同过滤(collaborativefiltering)之类的概念无法实现。为此,一个团队成员提出做一个“假的推荐引擎”,把床单作为唯一的推荐产品。这个假引擎的工作逻辑是:买搅拌机的人会买床单,买野营书籍的人会买床单,买书的人会买床单。就是如此,床单是唯一的、默认的推荐品。尽管可笑,这个主意其实并不坏,默认的推荐也能给企业带来销售上的提升。但是,由于大数据相关技能的缺失,真正意义上的引擎未能实现。提出了错误的问题一家全球领先的汽车制造商决定开展一个情感分析项目,为期6个月,耗资1千万美元。项目结束之后,该厂商将结果分享给经销商并试图改变销售模式。然后,所得出的结果最终被证明是错误的。项目团队没有花足够的时间去了解经销商所面临的问题或业务建议,从而导致相关的分析毫无价值。应用了错误的模型。某银行为判断电信行业的客户流失情况,从电信业聘请了一位专家,后者也很快构建了评估用户是否即将流失的模型。当时已进入评测验证的最后阶段,模型很快就将上线,而银行也开始准备给那些被认为即将流失的客户发出信件加以挽留。但是,为了保险起见,一位内部专家被要求对模型进行评估。这位银行业专家很快发现了令人惊奇的事情:不错,那些客户的确即将流失,但并不是因为对银行的服务不满意。他们之所以转移财产(有时是悄无声息的),是因为感情问题——正在为离婚做准备。可见,了解模型的适用性、数据抽象的级别以及模型中隐含的细微差别,这些都是非常具有挑战性的。管理层阻力尽管数据当中包含大量重要信息,但Fortune Knowledge公司发现有62%的企业领导者仍然倾向于相信自己的直觉,更有61%的受访者认为领导者的实际洞察力在决策过程中拥有高于数据分析结论的优先参考价值。选择错误的使用方法企业往往会犯下两种错误,要么构建起一套过分激进、自己根本无法驾驭的大数据项目,要么尝试利用传统数据技术处理大数据问题。无论是哪种情况,都很有可能导致项目陷入困境。提出错误的问题数据科学非常复杂,其中包含专业知识门类(需要深入了解银行、零售或者其它行业的实际业务状况);数学与统计学经验以及编程技能等等。很多企业所雇用的数据科学家只了解数学与编程方面的知识,却欠缺最重要的技能组成部分——对相关行业的了解,因此最好能从企业内部出发寻找数据科学家。缺乏必要的技能组合这项理由与“提出错误的问题”紧密相关。很多大数据项目之所以陷入困境甚至最终失败,正是因为不具备必要的相关技能。通常负责此类项目的都是IT技术人员——而他们往往无法向数据提出足以指导决策的正确问题。与企业战略存在冲突要让大数据项目获得成功,大家必须摆脱将其作为单一“项目”的思路、真正把它当成企业使用数据的核心方式。问题在于,其它部门的价值或者战略目标有可能在优先级方面高于大数据,这种冲突往往会令我们有力无处使。大数据孤岛大数据供应商总爱谈论“数据湖”或者“数据中枢”,但事实上很多企业建立起来的只能算是“数据水坑儿”,各个水坑儿之间存在着明显的边界——例如市场营销数据水坑儿与制造数据水坑儿等等。需要强调的是,只有尽量缓和不同部门之间的隔阂并将各方的数据流汇总起来,大数据才能真正发挥自身价值。在大数据技术之外遇到了其它意外状况。数据分析仅仅是大数据项目当中的组成部分之一,访问并处理数据的能力同样重要。除此之外,常常被忽略的因素还有网络传输能力限制与人员培训等等。回避问题有时候我们可以肯定或者怀疑数据会迫使自身做出一些原本希望尽量避免的运营举措,例如制药行业之所以如此排斥情感分析机制、是因为他们不希望将不良副作用报告给美国食品药品管理局并承担随之而来的法律责任。在这份理由清单中,大家可能已经发现了一个共同的主题:无论我们如何高度关注数据本身,都会有人为因素介入进来。即使我们努力希望获取对数据的全面控制权,大数据处理流程最终还是由人来打理的,其中包括众多初始决策——例如选择哪些数据进行收集与分析、向分析结论提出哪些问题等等。为防止大数据项目遭遇失败,引入迭代机制是非常必要的。使用灵活而开放的数据基础设施,保证其允许企业员工不断调整实际方案、直到他们的努力获得理想的回馈,最终以迭代为武器顺利迈向大数据有效使用的胜利彼岸。

(责任编辑:IT教学网)

更多

推荐其他WEB语言文章