互联网发展到大数据时代,数据则呈现出了指数级增长,毫不夸张的说这个时代数据就等于金钱。然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解、可用的结构化形式,数据的可视化是非常重要的。
以下为您推荐八款的数据挖掘工具:
•R
R语言最大的优点就是开源免费,所谓开源指它的源代码是开放的,并且是可以编辑的,用户甚至可以自己编写适合自己的R语言,它拥有庞大且活跃的社区维护;可扩展能力强,灵活度高;支持多平台运行,Windows、Linux和Mac OS X;可视化非常强,现在已然是专业数据分析领域的标准工具。它的缺点是解释性语言,速度略慢;因为所有计算都是在内存中进行的;而且自由度高,标准相对不明确。正在学习中。
•Python
•人生苦短,我用Python;
Python代码简单、易学,与R语言一样具有开源免费的特点,具有可拓展性,可嵌入性,可跨平台运行,有丰富的第三方类库。当然与编译语言相比较慢,但是在当今电脑硬件发展高速路上,普通用户这个慢可以忽略。现在在国内市场还有待发展,也正因为如此,现在的python是培训行业的热门,它的前景是非常可观的。
•MATLAB
MATLAB矩阵实验室,(Matrix Laboratory)是一款商业数学软件,是我最开始学习的数学软件,也是数学建模最常用的软件之一,有很好的矩阵计算能力,同时要求较高的数学功底,因为很多东西要自己写,工具箱很难达到我们具体问题的要求,这里说一下在我们求学期间可能因为种种原因,走上了中国特色的道路,但是一定要有一种版权意识,可以谅解使用破解版,但我认为对正版一定要有一种敬畏意识。在我们有能力之后,支持正版是一种正义的力量。
除此之外还有WEKA SAS Enterprise Miner IBM SPSS Modeler SQL等等,这些我不大熟悉,大家可以去百度了解。
当然,语言和软件是数据挖掘的工具,理论功底是非常重要的,这完全可以类比盗墓,工具的选择无非就是铁锨和挖掘机的区别,主要关键在于你的罗盘定位是否准确。只要方向对,条条大路通罗马。