大数据预测分析(Big Data Predictive Analytics)可谓是大数据的圣杯,也是众多数据分析人士的终极梦想。谁不想帮助企业做出英明的业务决策、卖出更多商品和服务、让客户更开心同时避免灾难的发生呢?但是预测分析同时也是一个极端困难的任务,实施成功的预测分析有赖于以下四大关键因素:

一、数据质量。数据是预测分析的血液。数据通常来自内部数据如客户交易数据和生产数据。但我们还需要补充外部数据源,如行业市场数据、社交网络数据和其他统计数据。与流行的技术观点不同,这些外部数据未必一定是“大数据”。数据中的变量是否有助于有效预测才是关键所在。总之,你手里的数据越多,相关度和质量越高,你找出原因和结果的可能性越大。

二、数据科学家。数据科学家必须理解业务需求和业务目标,审视数据,并围绕业务目标建立预测分析规则,例如如何增加电子商务的销售额、保持生产线的正常运转、防止库存短缺等。数据科学家需要拥有数学、统计学等多个领域的知识。看看2008年Netflix大奖(点击查看获奖算法)得主——Formulas Galore(2006年开始,在线电影租赁公司Netflix用百万美元悬赏,奖励能够将其电影推荐算法准确性提高至少10%的人。),那才是真正的科学。幸运的是,大多数预测分析解决方案要求没有这么高。

三、预测分析软件。数据科学家必须借助预测分析软件来评估他们的分析模型和规则,预测分析软件通过整合统计分析和机器学习算法发挥作用。IBM SPSS和SAS是两个数据科学家常用的分析软件。R项目则是一个非常流行的开源工具。如果数据量大到“大数据”的程度,那么你可能还需要一些专门的大数据处理平台如Hadoop或数据库分析机如Oracle Exadata。

四、运营软件。如果你很幸运找到了合适的预测规则,下一步就是将规则植入你的应用。你的预测分析软件应该能以某种方式产生代码,例如预测分析厂商KXEN的产品。更重要的是将预测规则需要的数据事先准备好。预测规则也能通过业务规则管理系统和复杂事件处理平台(CEP)进行优化。

转自:http://www.ctocio.com/bigdata/7129.html