为了系统性的介绍机器学习入门,本文特意列了一个提纲.接下来的一些文章我会按照下面的提纲一一介绍里面的内容,有的概念会点到为止,有的概念会说的比较多.介绍中有什么不妥或者不对的地方,还望大家指出.
1 微积分
- 极限,e,导数,微分,积分
- 偏导数,方向导数,梯度
- 极值,多元函数极值,多元函数泰勒展开
- 无约束优化,约束优化
- 拉格朗日乘子,对偶问题
2 概率
- 随机变量,概率密度函数,分布函数
- 条件概率,全概率公式,贝叶斯公式
- 期望,方差
- 大数定理,中心极限定理
- 协方差,相关系数
- 常见概率分布,泊松分布
- 指数族分布,多元高斯分布
- 参数估计,矩估计,极大似然估计
3 线性代数
- 矩阵,行列式,初等变换
- 线性相关,线性无关
- 秩,特征值,特征向量
- 正交向量,正交矩阵
- 矩阵分解
4 信息学基础
- 熵
- 互信息
- KL散度
5 什么是机器学习
- 输入空间,特征空间和输出空间
- 联合概率分布,假设空间
- 三要素: 方法=模型+策略+算法
6 感知机Perceptron
- 感知机模型,学习策略,训练方法
- 0-1损失函数
- 感知机损失
- 感知机的几何解释
- 感知机证明
- pocket perceptron
7 线性回归
- 模型
- 平方损失函数
- 训练方法
- 概率解释
8 逻辑回归
- 模型
- 损失函数,对数损失,逻辑斯谛损失
- 训练方法,拟牛顿法,LBFGS
- 概率解释
9 欠拟合与过拟合
- 训练误差,测试误差
- 欠拟合,过拟合
- 损失函数,风险函数
- 经验风险,结构风险
- 正规化
- 交叉验证
10 模型选择与调试
- High bias,High variance
- 正规化
- 交叉验证
11 推荐系统
- Content-based
- 协同过滤(User based,Item based,Slope one,Weighted slope one)
- Model-based
- 矩阵分解
- SVD++
- Aprior算法
12 树模型和boost
- 熵的定义和应用,信息增益
- 决策树,ID3,C4.5和CART
- Adaboost,指数损失函数
- 梯度提升树 GBDT
- 随机森林 Random Forest
13 支持向量机SVM
- 硬间隔最大化,函数间隔,几何间隔
- 软间隔最大化
- 对偶算法
- 合页损失函数
- 核函数、核技巧
- SMO算法
14 最大熵模型
- 模型定义,约束条件和推导
- 重新理解逻辑回归
15 神经网络
- 模型的定义和训练
- BPA算法
16 无监督学习
- K-Means和高斯混合模型GMM
- EM算法,推导,解释和理解
- Topic Model基础,svd,lsa,plsa,lda
17 总结
- 损失函数比较
- 模型的比较和选择
- 解决实际问题的一般步骤