十大经典挖掘算法,一个都不少
原创
指象
数据指象
数据指象
微信号
idw007
功能介绍
专注数据领域:免费咨询,输出数分经典案例,提炼数据认知及数据思维。聚集数据行业精英一起学习一起进步。
发表于
收录于合集
#挖掘算法
3
个
#PageRank
2
个
#数据分析-R实战
48
个
NO.01:
C4.5算法
全称为Classifier 4.5,由1993年 J.Ross Quinlan 基于ID3算法迭代而来的分类算法,其核心是基于信息增益来做决策树生长。关于C4.5,ID3及CART算法的对比,可参考附文。
NO.02:
K均值聚类算法
简而言之,聚类分析就是将研究对象(若干个个集合)按照某种标准分成若干类。相似性的度量,参考多种距离计算公式:欧式距离,绝对距离,切氏距离,明氏距离,马距氏离,兰距氏离。
案例1:
聚类,其实就是近朱者赤
案例2:
客户分类是精细化运营的第一步
NO.03:
SVM支持向量机
支持向量机(SVM)将一个超平面将数据分成两类。
使得高维特征空间内两个类的边缘间隔最大,定义超平面的向量就被称为支持向量。在R语言中可以之间调用svm方法使用支持向量机分类。
NO.04:
Apriori 关联算法
联系是普遍存在的,关联的存在本身是有价值的,在电商推荐中关联推荐是最简单最直接有效的。关联推荐的核心有三个度量:
支持度,置信度,提升度.
案例1:
啤酒怎么爱上尿布?
NO.05
:
EM 最大期望算法
EM聚类(Expectation Maximization),一种基于统计分布的聚类模型,以统计分布作为设计算法的依据。其实,在大数定律的约束下,不管样本的分布类型是什么,当
样本类趋于无穷多,分布的类型将渐进于正态分布。基于分布的均值,方差统计量来做分类。
案例1:
一种另辟蹊径的聚类:EM聚类
NO.06:
PageRank算法
了解Google公司,多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来,到群众中去”的民主算法。在Google搜索排序中大放异彩。
案例1:
民主算法:PageRank
NO.07:
AdaBoost 迭代算法
通过集成多个弱分类器,来达到“三个臭皮匠,胜过诸葛亮”的分类效果,该算法简单可分为三步:
1,初始化样本的权重。
2,迭代训练弱分类器,弱分类器的算法用户可以自定义。
3,将各个弱分类器加权平均得到强分类器。
NO.08
:
K近邻算法
近邻就是你周围的人, 大多数就是K个人或物中具有的普遍的大多数的属性,大概率的预判你也拥有这种普遍的多数的属性。
案例1:
K近邻,最简单的预判“你买了吗?”
NO.09:
朴素贝叶斯算法
贝叶斯讨论的概率是基于个人的主观概念,表达对某事某物的相信程度。与概率学派提出的客观概率截然不同。
案例1:
一蛙之见“贝叶斯”
NO.10:
CART 分类算法
算法的全称为:分类回归树,由Breiman在1984提出,该分类算法可以支持分类和回归问题。CART核心算法通过基尼系数代替信息增益。
案例1:
简文短述:决策树
顺便推荐:
ARIMA时间序列与LSTM神经网络的PK
R语言,制作常用图表
一个公式缓解 你99%的蕉绿
预览时标签不可点
微信扫一扫
关注该公众号
知道了
微信扫一扫
使用小程序
取消
允许
取消
允许
:
,
。
视频
小程序
赞
,轻点两下取消赞
在看
,轻点两下取消在看