数据分析层次划分和常用软件介绍

SPSS
SPSS

本文讨论了数据分析的层次,并介绍了再中级阶段使用的各个常用软件,由于数据分析的范畴是很大的,我大概总结了5个层次,由于是一己之见,难免偏颇,欢迎各位提出宝贵意见。

  • 低等级的收集数据,使用Excel做数据透视等,本站有专门的栏目介绍
  • 初级使用Access、SQL等工具进行数据查询和展示,本站亦有专门栏目介绍
  • 中级使用统计分析软件,按照统计学的理论和规律进行分析
  • 高级的,现在非常火的大数据分析,利用Hadoop等分布式框架,将统计分析的逻辑与程序设计查询结合起来
  • 超级的,一人难求的数据科学家,多是理论和实践的超级大牛,可以将自己的统计思想与要处理和分析的业务完美结合,可以做解决方案

由于Excel和SQL啥的一般上手比较容易,门槛不是很高,在这里就不赘述了,大数据和数据科学我现在实在无能谈论,因此先就中级范畴的常用软件简要介绍。主要有SPSS、SAS、Stata、R和Matlab,由于平时接触较多的是SPSS和Stata,因此对这两个的使用比较熟悉,但国内来说Stata太新鲜了点,还没有大规模普及使用

SPSS:

原名Statistical Package for the Social Sciences(社会科学统计软件包),现在已被IBM收购,改名后仍然是叫SPSS,不过全称变更为Statistical Product and Service Solutions(统计产品与服务解决方案)。SPSS是一个专业的统计分析软件。除了基本的统计分析功能之外,还提供非线性回归、聚类分析(Clustering)、主成份分析(PCA)和基本的时序分析。SPSS在某种程度上可以进行简单的数据挖掘工作,比如K-Means聚类,不过数据挖掘的主要工作一般都是使用其自家的Clementine(现已改名为SPSS Modeler)完成。需要提一点的是SPSS Modeler的建模功能非常强大且智能化,同时还可以通过其自身的CLEF(Clementine Extension Framework)框架和Java开发新的建模插件,扩展性相当好,是一个不错的商业BI方案。

SAS

SAS 是英文Statistical Analysis System的缩写,翻译成汉语是统计分析系统,最初由美国北卡罗来纳州立大学两名研究生开始研制,1976 年创立SAS公司, 2003年全球员工总数近万人,统计软件采用按年租用制,年租金收入近12亿美元。SAS系统具有十分完备的数据访问、数据管理、数据分析功能。 在国际上, SAS被誉为数据统计分析的标准软件。SAS系统是一个模块组合式结构的软件系统,共有三十多个功能模块。SAS是用汇编语言编写而成的,通常使用SAS需要编写程序, 比较适合统计专业人员使,而对于非统计专业人员学习SAS比较困难。SAS最新版为9.0版。网址:http://www.sas.com/。
SAS是美国SAS(赛仕)软件研究所研制的一套大型集成应用软件系统,具有比较完备的数据存取、数据管理、数据分析和数据展现的系列功能。尤其是它的创业产品—统计分析系统部分,由于具有强大的数据分析能力,一直是业界中比较著名的应用软件,在数据处理方法和统计分析领域,被誉为国际上的标准软件和最具权威的优秀统计软件包,SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等。
SAS系统是一个组合的软件系统,它由多个功能模块配合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理着用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除了可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序比较方便地进行。
SAS系统具有比较灵活的功能扩展接口和强大的功能模块,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。
SAS提供的绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。
目前SAS软件对Windows和Unix两种平台都提供支持,最新版本分别为8.X和6.X。与以往的版本比较,6.X版的SAS系统除了在功能和性能方面得到增加和提高外,GUI界面也进一步加强。在6.12版中,SAS系统增加了一个PC平台和三个新的UNIX平台,使SAS系统这一支持多硬件厂商,跨平台的大家族又增加了新成员。SAS 6.12的另一个显著特征是通过对ODBC、OLE和MailAPIs等业界标准的支持,大大加强了SAS系统和其它软件厂商的应用系统之间相互操作的能力,为各应用系统之间的信息共享和交流奠定了坚实的基础。
虽然在我国SAS的逐步应用还是近几年的事,但是随着计算机应用的普及和信息事业的不断发展,越来越多的单位采用了SAS软件。尤其在教育、科研领域等大型机构,SAS软件已成为专业研究人员实用的进行统计分析的标准软件。
然而,由于SAS系统是从大型机上的系统发展而来,其操作至今仍以编程为主,人机对话界面不太友好,系统地学习和掌握SAS,需要花费一定的精力。而对大多数实际部门工作者而言,需要掌握的仅是如何利用统计分析软件来解决自己的实际问题,因此往往会与大型SAS软件系统失之交臂。但不管怎样,SAS作为专业统计分析软件中的巨无霸,现在鲜有软件在规模系列上与之抗衡。

Stata

Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985到现在,已连续推出多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata功能更强大,操作灵活、简单,易学易用,越来越受到人们的重视和欢迎。Stata 的统计功能很强,除了传统的统计分析方法外,还收集了近 20 年发展起来的新方法,如 Cox 比例风险回归,指数与 Weibull 回归,多类结果与有序结果的 logistic 回归, Poisson 回归,负二项回归及广义负二项回归,随机效应模型等。Stata 的作图模块,主要提供如下八种基本图形的制作 : 直方图 (histogram) ,条形图 (bar), 百分条图 (oneway) ,百分圆图 (pie) ,散点图 (twoway) ,散点图矩阵(matrix) ,星形图 (star) ,分位数图。这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。Stata 是一个统计分析软件,但它也具有很强的程序语言功能,这给用户提供了一个广阔的开发应用的天地,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。事实上, Stata 的 ado 文件 ( 高级统计部分 ) 都是用 Stata 自己的语言编写的。
Stata 其统计分析能力远远超过了 SPSS ,在许多方面也超过了 SAS !由于 Stata 在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此计算速度极快(一般来说, SAS 的运算速度要比 SPSS 至少快一个数量级,而 Stata 的某些模块和执行同样功能的 SAS 模块比,其速度又比 SAS 快将近一个数量级!) Stata 也是采用命令行方式来操作,但使用上远比 SAS 简单。其生存数据分析、纵向数据(重复测量数据)分析等模块的功能甚至超过了 SAS 。用 Stata 绘制的统计图形相当精美,很有特色。

R

R是一个开源的分析软件,也是分析能力不亚于SPSS和Matlab等商业软件的轻量级(仅指其占用空间极小,功能却是重量级的)分析工具。官网地址:www.r-project.org。R支持Windows、Linux和Mac OS系统,对于用户来说非常方便。R和Matlab都是通过命令行来进行操作,这一点和适合有编程背景或喜好的数据分析人员。R的官方包中已经自带有相当丰富的分析命令和函数以及主要的作图工具。但R最大的优点在于其超强的扩展性,可以通过下载扩展包来扩展其分析功能,并且这些扩展包也是开源的。R社区拥有一群非常热心的贡献者,这使得R的分析功能一直都很丰富。R也是我目前在工作中分析数据使用的主力工具。虽然工作中要求用Matlab编程生成结果,但是实际分析的时候我基本都是用R来做的。因为在语法方面,R比Matlab要更加自然一些。但是R的循环效率似乎并不是太高。

Matlab

也是一个商业软件,从名称上就可以看出是为数学服务的。Matlab的计算主要基于矩阵。功能上是没话说,涵盖了生物统计、信号处理、金融数据分析等一系列领域,是一个功能很强大的数学计算工具。是的,是数学计算工具,这东西的统计功能只不过是它的一部分,这东西体积也不小,吃掉我近3个G的空间。对于我来说,Matlab是一个过于强大的工具,很多功能是用不上的。当然,我也才刚刚上手而已,才刚刚搞明白怎么用这个怪物做最简单的Garch(1,1)模型。但毫无疑问,Matlab基本上能满足各领域计算方面的需求。

Print Friendly

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: