作者toby,原文来源python风控模型,金融风控9种常用的数据分析工具
传统商业市场上主要有六种数据分析工具:Eviews、SPSS、SAS、Stata、Matlab和R。它们在主导优势、应用领域、处理功能、界面设计、数据安全、处理效率和结合形式上各有特点。例如,Eviews擅长时间序列分析,SPSS适合多元横截面数据,SAS用于数据管理及挖掘,Stata处理面板数据,Matlab用于数值分析和复杂模型,R则擅长算法及绘图。各工具在数据安全和处理效率上也有所不同,结合形式上,SPSS和Eviews主要与Excel结合,而Matlab和R则支持多种格式。
埃森哲的报告时间比较早,除了上述六种数据分析工具,目前最流行的是python编程语言应用。Python 是一种广泛使用的高级编程语言,因其简洁、易读的语法和强大的库支持,非常适合用于数据分析。
1.数据挖掘工具-SAS
SAS 系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,SAS 是由大型机系统发展而来,其核心操作方式就是程序驱动,经过多年的发展,现在已成为一套完整的计算机语言,其用户界面也充分体现了这一特点:它采用MDI (多文档界面),用户在PGM视窗中输入程序,分析结果以文本的形式在OUTPUT视窗中输出。使用程序方式,用户可以完成所有需要做的工作,包括统计分析、预测、建模和模拟抽样等。但是,这使得初学者在使用SAS时必须要学习SAS语言,入门比较困难。目前SAS已在全球100多个国家和地区拥有29000多个客户群,直接用户超过300万人。在我国,国家信息中心,国家统计局,卫生部,中国科学院等都是SAS系统的大用户。SAS以被广泛应用于政府行政管理,科研,教育,生产和金融等不同领域,并且发挥着愈来愈重要的作用。
SAS BI的收费模式大致分为两种:许可证模式和订阅模式。许可证模式是指企业购买SAS BI软件的许可证,一次性付费。这种模式适用于那些需要长期使用SAS BI的企业。许可证价格根据企业规模、功能需求、使用场景等因素而异,一般需要向SAS销售代表咨询。订阅模式是指企业按照一定的周期(通常为年)订阅SAS BI服务,服务内容包括软件使用和技术支持。订阅模式的价格通常包括基础订阅费和每个用户的订阅费。基础订阅费是针对企业整体的,而每个用户的订阅费则根据用户数量、功能需求、使用场景等因素而异。订阅模式相对于许可证模式更加灵活,适合需求波动较大的企业。总体来说,SAS BI的价格较高,适用于大型企业和数据密集型行业。目前采购SAS较多的是大型银行机构。随着R和python开源编程工具兴起,订阅SAS的公司越来越少。
2.数据挖掘工具- SPSS Clementine(现已更名为:PASW Modeler )
Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品
进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。
Clementine的图形化操作界面,使得分析人员能够可视化数据挖掘过程的每一步。通过与数据流的交互,分析人员和业务人员可以合作,将业务知识融入到数据挖掘过程中。这样数据挖掘人员就可以把注意力集中于知识发现,而不是陷入技术任务,例如写代码,所以他们可以尝试更多的分析思路,更深入地探索数据,揭示更多的隐含关系。
使用全面整合到Clementine的Text Mining,您可以从任何类型的文本— 例如内部报告、呼叫中心记录、客户的邮件、媒体或者杂志文章、博客等中抽取内容和评论。使用WebMining for Clementine®,您可以发现访问者网上行为模式。直接获取Dimension产品的调查数据,您可以把人口统计信息、态度和行为信息用于模型—更深入地理解您的客户。Clementine还提供大量的应用模板:
• CRM CAT--针对客户的获取和增长,提高反馈率并减少客户流失;
• Web CAT--点击顺序分析和访问行为分析;
• cTelco CAT--客户保持和增加交叉销售;
• Crime CAT--犯罪分析及其特征描述,确定事故高发区,联合研究相关犯罪行为;
• Fraud CAT--发现金融交易和索赔中的欺诈和异常行为;
• Microarray CAT--研究和疾病相关的基因序列并找到治愈手段
3.数据挖掘工具- R
R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的RossIhaka和Robert Gentleman。R主要是以命令行操作,同时有人开发了几种图形用户界面。开发(也因此称为R),现在由“R开发核心团队”负责开发。
•R内置多种统计学及数字分析功能。R的功能也可以通过安装包(Packages,用户撰写的功能)增强。因为S的血缘,R比其他统计学或数学专用的编程语言有更强的面向对象(面向对象程序设计)功能。
• R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。
•虽然R主要用于统计分析或者开发统计相关的软件,但也有人用作矩阵计算。其分析速度可媲美专用于矩阵计算的自由软件GNU Octave和商业软件MATLAB。
4.数据挖掘工具- Stata
Stata是Statacorp于1985年开发出来的统计程序,在全球范围内被广泛应用于企业和学术机构中。许多使用者工作在研究领域,特别是在经济学、社会学、政治学及流行病学领域。
作为一个小型的统计软件,其统计分析能力远远超过了SPSS,在许多方面也超过了SAS!由于Stata在分析时是将数据全部读入内存,在计算全部完成后 才和磁盘交换数据,因此计算速度极快(一般来说,SAS的运算速度要比SPSS至少快一个数量级,而Stata的某些模块和执行同样功能的SAS模块比, 其速度又比SAS快将近一个数量级!)Stata也是采用命令行方式来操作,但使用上远比SAS简单。其生存数据分析、纵向数据(重复测量数据)分析等模 块的功能甚至超过了SAS。用Stata绘制的统计图形相当精美,很有特色。
在长远趋势上,Stata有超越SAS的可能(据消息灵通人士透露:在SAS的老家--北卡,真正搞生物统计的人青睐的反而是Stata!)Stata最大的缺点应该是数据接口太简单,实际上只能读入文本格式的数据文件;其数据管理界面也过于单调。
5.数据挖掘工具- MATLAB
MATLAB(矩阵实验室)是MATrixLABoratory的缩写,是一款由美国The MathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可以用来创建用户界面及与调用其它语言(包括C,C++和FORTRAN)编写的程序。MATLAB和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。
软件特点:
1) 高效的数值计算及符号计算功能,能使用户从繁杂的数学运算分析中解脱出来;
2) 具有完备的图形处理功能,实现计算结果和编程的可视化;
3) 友好的用户界面及接近数学表达式的自然化语言,使学者易于学习和掌握;
4) 功能丰富的应用工具箱(如信号处理工具箱、通信工具箱等) ,为用户提供了大量方便实用的处理工具
6.EViews
是美国GMS公司1981年发行第1版的Micro TSP的Windows版本,通常称为计量经济学软件包。EViews是Econometrics Views的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行“观察”。计量经济学研究的核心是设计模型、收集资料、 估计模型、检验模型、运用模型进行预测、求解模型和运用模型。正是由于EViews等计量经济学软件包 的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用 EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等。
7.Minitab
同样是国际上流行的一个统计软件包,其特点是简单易懂,在国外大学统计学系开设的统计软件课程中,Minitab与SAS、BMDP并列,根本没有 SPSS的份,甚至有的学术研究机构专门教授Minitab之概念及其使用。MiniTab for Windows统计软件比SAS、SPSS等小得多,但其功能并不弱,特别是它的试验设计及质量控制等功能。MiniTab提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分析、回归分析、方差分析、多元分析、非参数分析、时间序列分析、试验设计、质量 控制、模拟、绘制高质量三维图形等,从功能来看,Minitab除各种统计模型外,还具有许多统计软件不具备的功能--矩阵运算。
8.WEKA
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
9.Python :
由于上述多种数据分析软件要收费,而且年费很高,越来越多企业选择R或python用于商业数据分析。
主导优势
-
灵活性:Python 是一种通用编程语言,可以用于各种数据分析任务。
-
库支持:拥有强大的数据分析库,如 Pandas、NumPy、SciPy 等。
应用领域
-
数据科学:数据清洗、探索性数据分析、数据可视化。
-
机器学习:使用 scikit-learn、TensorFlow、PyTorch 等库进行模型构建和训练。
-
自动化:自动化数据处理和报告生成。
-
网络爬虫:使用 Scrapy、BeautifulSoup 等库从网页抓取数据。
处理功能
-
统计分析:进行描述性统计、推断性统计等。
-
数据挖掘:使用机器学习算法进行模式识别和预测。
-
数据可视化:使用 Matplotlib、Seaborn、Plotly 等库创建图表和交互式可视化。
界面设计
-
灵活性:可以通过 Jupyter Notebook 等工具创建交互式文档,也可以开发桌面应用或Web应用。
-
代码可读性:Python 代码通常易于阅读和理解。
数据安全
-
软件稳定:Python 社区活跃,软件更新频繁,安全性较高。
-
数据保护:可以通过加密库如 cryptography 保护数据。
处理效率
-
高效:对于中等规模的数据集,Python 的处理效率很高。
-
扩展性:对于大规模数据,可以通过使用 Dask、Vaex 等库进行分布式计算来提高效率。
结合形式
-
多种格式:Python 可以读取和写入多种数据格式,包括 CSV、Excel、JSON、SQL 数据库等。
-
集成:可以与其他编程语言和系统(如 R、C/C++)集成。
Python 的这些特点使其成为数据分析领域中一个非常受欢迎的工具,尤其适合需要快速原型开发和灵活数据处理的场景。
数据挖掘的工具及软件流程程度如下
从数据到信息的进化
下图概述了数据库技术的发展历程,从60年代的计算机、磁带、磁盘和数据收集,到80年代的关系型数据库和结构化查询语言(SQL),再到90年代的数据仓库、OLAP和多维数据库。2000年后,随着互联网的发展,数据量激增,出现了海量数据库和高级算法,2008年引入了Hadoop等大数据技术,以提供预测性信息和数据挖掘。整个过程展示了数据库技术从提供历史性、静态数据信息,到动态数据信息,再到预测性信息的演变。
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。