28365365备用
28365365备用网址线上平台的综合实力极为雄厚,28365365体育投注是一个用于自己专业游 戏团队的线上博彩企业。

28365365手机备用网址 震惊,原来做成功一个大数据项目只要7步!

发布时间:2019-07-16 16:20:56   编辑:admin浏览人次:188

   你一定构想过一个或几个自己觉得很靠谱的数据项目或业务,然而最后你没有去做,因为你不知道真的可以把它做成功。  

现在数据哥就送你一本秘籍:《七步成就大数据项目》,助你完成大数据项目,出任CEO,赢取白富美,走上人生巅峰。  

为了验证这本秘籍有多靠谱,我拿一个接地气的案例来展开。  

你的理论:用twitter数据预测XX行业趋势。  

终极目标:卖钱!  

本秘籍假设的项目用AWS来实现,并非给AWS打广告,无他,但手熟尔。  

第1步  

获取数据  

在开始做事之前,你需要证明你的理论可行,要做到这一点,你必须收集数据。  

1.如何获取数据?  

twitter的数据可以通过公共API来访问,你要做的只是用你最熟悉的编程语言,比如JAVA,写一个可以下载用户推文的小程序。  

选择一个领域,比如教育,运行你写的程序,下载这个领域下的所有KOL的推文,然后你就获得了大量的推文数据。至于粉丝数量达到什么样的级别才算KOL,你自己设定。  

如果你选择的不是教育领域而是大数据领域,那么恭喜你,你中奖了!因为KDNuggets有一个现成的twitter大数据领域影响力列表:  

 

如果你想在云端执行此操作,您可以启动一个简单的AWSEC2Linuxinstance(nano或micro),并运行您的软件。  

2.如何存储数据?  

存储数据的最佳方法是使用简单的“.csv”格式。每行一行,包括推文的文字和元信息。  

在这个例子中,你的元信息应该包括人、时间、回复、转发和点赞。  

完成后,将文件上传到AWSS3上。

blob.png

  

3.提取多少数据?  

我的建议是在合理的时间内尽可能多地获取数据,让你的程序尽情地跑吧。自己生的程序,不多跑几天多浪费,是吧?需要注意的是,twitter有严格的API规则,在一定时间内可以查询一定数量的数据,所以你还不能让你亲生程序撒开了跑,否则过不了多长时间就会请求超时。 

不管怎样,你能爬到几个月的twitter历史数据应该是够够的了。要获得多少数据并没有一个标准,你高兴就好。  

如果你用来跑数据的机器很渣,那还是少爬一点吧,免得尴尬。  

第2步  

选择合适的分析工具  

爬到数据后,你需要选择合适的分析工具进行分析。你认为你需要什么分析功能?列一个清单,然后筛选能满足你需求的工具。  

你要牢记一个宗旨:好吃不贵!  

不好意思,好用不贵!  

您可以用Orange、RapidMiner或Knime等工具,如果你觉得数据哥给你推荐这些现成的工具是对你技术的极大侮辱,那么请自己写分析。对数据分析来讲,Python和R很不错,如果你嫌弃它们,想用Matlab,数据哥还是那句话:你高兴就好。  

第3步  

证明你的理论  

有了数据和工具,你就可以拿起数据的武器开疆拓土了!是时候用你的数据来证明你的理论不是信口胡诌了!  

首先用你的数据来证明一个你已经知道的趋势。比如去百度一个或者谷歌一个已经被报道很多次的趋势报告,然后创建分析流程。  

如果分析结果符合你指定的“老”趋势,那么说明你的项目目前为止没有跑偏,那么继续查找并验证“老”趋势吧!  

在进行下一步之前,你需要确定您的容错率是多少,0%的错误率绝对不现实,别跟自己过不去。  

第4步  

找出你的商业模式  

在技术上跑通之后,你应该先退后一步,找出您的商业模式。  

问问自己:  

你做的是什么?  

你需要什么资源?  

谁是你的潜在客户?  

你能为客户提供什么价值?  

你如何才能将产品卖给他们?  

客户付钱是为了得到什么价值?  

所有这些都想清楚之后,再进行下一步。如果有某些问题还没有想清楚,但你不想浪费时间,想直接进行下一步,数据哥还是那句话:你高兴就好!  

第5步  

构建最小可行产品  

在用技术证明你的理论可行之后,现在就可以开始构建一个最简化可行产品(MinimumViableProduct,简称MVP)的第一个版本了。构建最简化可行产品的目标是构建一个只提供核心功能的解决方案来快速检验你的产品或方向是否可行。如果你的假设得到了验证,再投入资源大规模进入市场;如果没有通过,那这就是一次快速试错,尽快调整方向。