数据挖掘用什么软件
1.R是用于统计分析和图形化的计算机语言及分析工具;2.Weka可能是名气最大的开源机器学习和数据挖掘软件,但用起来并不方便,界面也简单了点;3.Tanagra 是使用图形界面的数据挖掘软件;4.RapidMiner现在流行的势头在上升,但它的操作方式和商用软件差别较大,不支持分析流程图的方式,当包含的运算符比较多的时候就不容易查看了;5.KNIME和Orange看起来都不错,Orange界面看上去很清爽,但我发现它不支持中 文。
推荐KNIME,同时安装Weka和R扩展包。
对于普通用户可以选 用界面友好易于使用的软件,对于希望从事算法开发的用户则可以根据软件开发工具不同(Java、R、C++、Python等)来选择相应的软件。
数据挖掘方面的软件开发哪家公司做的比较好啊?
1、 WekaWEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2、 Rapid MinerRapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。
它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
3、 OrangeOrange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。
它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。
其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。
4、 KnimeKNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。
5、 jHepWorkjHepWork是一套功能完整的面向对象科学数据分析框架。
Jython宏是用来展示一维和二维直方图的数据。
该程序包括许多工具,可以用来和二维三维的科学图形进行互动。
6、 Apache MahoutApache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。
该项目已经发展到了它的最二个年头,目前只有一个公共发行版。
Mahout 包含许多实现,包括集群、分类、CP 和进化程序。
此外,通过使用 Apachehadoop库,Mahout 可以有效地扩展到云中。
7、 ELKIELKI(Environment for Developing KDD-Applications Supported by Index-Structures)主要用来聚类和找离群点。
ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。
可以用来寻找离群点。
8、 RattleRattle(易于学习的 R 分析工具)提供数据的统计和可视化摘要,将数据转换成容易建模的形式,从数据中构建无监督和监督模型,以图形方式呈现模型的性能,并得出新的数据集。
大数据挖掘通常用哪些软件
EXCEL MATLAB Origin 等等当前流行的图形可视化和数据分析软件有Matlab,Mathmatica和Maple等。
这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。
而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。
但它又比excel要强大些。
一般日常的话可以用Excel,然后加载宏,里面有一些分析工具,不过有时需要数据库软件支持
什么是数据挖掘?我是搞软件的,兼修数学系的数理统计。
我最近听老...
0.什么是数据挖掘? 数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。
数据挖掘能做什么? 1)数据挖掘能做以下六种不同事情(分析方法): 分类 (Classification) 估值(Estimation) 预言(Pediction) 相关性分组或关联规则(Affinity gouping o association ules) 聚集(Clusteing) 描述和可视化(Desciption and Visualization) 2)数据挖掘分类 以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘 直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。
间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。
分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘 3)各种分析方法的简介 分类 (Classification) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例子: a. 信用卡申请者,分类为低、中、高风险 . 分配客户到预先定义的客户分片 注意: 类的个数是确定的,预先定义好的 估值(Estimation) 估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。
例子: a. 根据购买模式,估计一个家庭的孩子个数 . 根据购买模式,估计一个家庭的收入 c. 估计eal estate的价值 一般来说,估值可以作为分类的前一步工作。
给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。
例如:银行对家庭贷款业务,运用估值,给各个客户记分(Scoe 0~1)。
然后,根据阈值,将贷款级别分类。
预言(Pediction) 通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。
从这种意义上说,预言其实没有必要分为一个单独的类。
预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
相关性分组或关联规则(Affinity gouping o association ules) 决定哪些事情将一起发生。
例子: a. 超市中客户在购买A的同时,经常会购买B,即A = B(关联规则) . 客户在购买A后,隔一段时间,会购买B (序列分析) 聚集(Clusteing) 聚集是对记录分组,把相似的记录在一个聚集里。
聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
例子: a. 一些特定症状的聚集可能预示了一个特定的疾病 . 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。
例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
描述和可视化(Desciption and Visualization) 是对数据挖掘结果的表示方式。
2.数据挖掘的商业背景 数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。
有价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。
1)数据挖掘作为研究工具 (Reseach) 2)数据挖掘提高过程控制(Pocess Impovement) 3)数据挖掘作为市场营销工具(Maketing) 4)数据挖掘作为客户关系管理CRM工具(Custome Relationship Management) 3.数据挖掘的技术背景 1)数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力 2)数据挖掘和机器学习(Machine Leaning) 机器学习是计算机科学和人工智能AI发展的产物 机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决策树) 数据挖掘由来 数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。
它是一个新兴的,面向商业应用的AI研究。
选择数据挖掘这一术语,表明了与统计、精算、长期从事预言模型的经济学家之间没有技术的重叠。
3)数据挖掘和统计 统计也开始支持数据挖掘。
统计本包括预言算法(回归)、抽样、基于经验的设计等 4)数据挖掘和决策支持系统 数据仓库 OLAP(联机分析处理)、Data Mat(数据集市)、多维数据库 决策支持工具融合 将数据仓库、OLAP,数据挖掘融合在一起,构成企业决策分析环境。
4. 数据挖掘的社会背景 数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上,客户自己可能都不明确自己下一步要作什么。
所以,数据挖掘的结果,没有人们想象中神秘,它不可能是完全正确的。
客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。
比如说,在美国对银行信用卡客户信用评级的模型运行得非常成功,但是,它可能不适合中国。
数据挖掘和商务智能有什么区别?
商务智能是一种概念,一种目标,而数据挖掘是实现商务智能的一种途径,一种手段,其实做数据挖掘就是为了企业决策,也就是商务智能了,其实你想想就清楚了撒,如果一个公司要对自己公司的决策弄个支持方案,途径很多,比较科学的比如请人做个数据挖掘,数据仓库系统,通过数据角度来做,也可以比较迷信,请一人算命的来算,当然这个不能放到台面上来讲,只是很多时候我们即使有BI系统,但是我们的决策还是受很多主观的因素(比如:政策、道德等等)影响。