最新文章

竞价模式

CPC、oCPC、CPA是广告里常用的竞价模式。本文主要记录我对这几种模式的一些粗浅认识,希望能和大家探讨。

参数估计

在概率统计或者数据挖掘的各种模型中,我们经常会遇到各种参数估计的问题。本文主要通过两个例子来介绍参数估计的常用方法。 例子1:设总体 $X$ 的均值 $\mu$ 和方差 $\sigma^2$均未知, 已知$X_1, X_2, \ldots, X_n$ 是一个样本, 估计均值 $\mu$ 和方差 $\sigma^...

探索与利用

最近在美团网的搜索列表上做了一些探索与利用(Explore & Exploit,简称 EE)的实验,本文主要分享一下实验步骤和取得的效果,仅供大家参考。本文不会介绍详细的 EE 算法,请关注 EE 算法的同学去读相关的 Paper。

LDA

美团网有大量的商户数据和团购单数据,Topic Model能不能在这方面找到一点应用呢?本文主要介绍用LDA在这方面的应用.

Python数据处理小技巧

在日常的Python开发过程中,常常要对数据做一些变换,比如list去重、合并、取区间等操作.本文主要介绍一下原生Python处理数据时可以用的小技巧,不涉及到专门处理数据的工具包.

不接待商户识别

随着美团网的业务越来越壮大,签约的商户越来越多,用户的订单也越来越多,随之而来也有不少问题,其中一个典型的问题是用户购买了某个团购券去商户店里进行消费时,商户会因为各种各样的原因不接待用户.如何用技术手段发现这些商户,进而通知相关的用户,提升用户体验呢?

处理不平衡数据集

在分类问题中,我们经常会遇到数据正负样本高度不均衡的情况.本文主要介绍处理不平衡数据集的一些处理技巧.

GIT分支管理

本文主要介绍在日常开发过程中应该如何管理代码分支. 目前互联网公司的开发节奏都很快,一个星期要迭代好几个版本,推崇糙快猛的工作方式.一个好的代码管理方式可以保证在节奏的迭代中代码不是那么糙.一般一个正规的项目会有三个常用分支:master,rc和develop分支.

决策树(二)

紧接着决策树(一) 我们来介绍 CART,随机森林, Boosting 等一系列实用非常广泛的树模型.

决策树(一)

决策树(Decision tree)是一种基本的分类与回归方法,尤其是在各大竞赛中,很多最后胜出的算法都是树模型组合起来的.决策树的学习通常分为三部分:特征选择,决策树的生成和决策树的剪枝.本文主要介绍决策树学习的ID3,C4.5算法,C5.0算法和CART 树.为了更好的理解本文,请先阅读信息论基础.

推荐系统

推荐系统是近几年比较火的一个话题, 尤其是Netflix举办过一次电影推荐比赛之后, ACM有专门的Recommer System的会议. 关于推荐系统的分类, 从不同的角度有不同的分法, 传统的有两种分法, 一种叫基于内容(Content based)的推荐, 顾名思义就是根据要推荐的项目(电影, 书籍, 音乐...

模型选择与调试

我们为什么要千辛万苦训练一个模型呢? 目的是为了拿这个训练好的模型对以后可能遇到的未知数据来做一些预测, 判断, 分类等等. 既然是这个目的, 那很自然的我们应该用模型在未知数据上的表现来衡量一个模型的好坏. 我们管模型在未知数据上的预测能力叫模型的泛化能力(generalization ability). 对未...

欠拟合与过拟合

前面我们已经讲了二个线性模型–感知机和线性回归–和一个广义线性模型, 逻辑回归. 再回顾一下我们学习模型参数采用的步骤: 先定义损失函数, 然后极小化损失函数的策略学习得到模型参数. 用来学习的数据是我们已经收集到的训练数据. 拿线性回归举例, 损失函数:

逻辑回归

逻辑回归(Logistic Regression)是机器学习中十分常用的一种模型,属于广义线性模型.在互联网领域得到了广泛的应用,尤其是在广告系统中用来估计CTR.本文主要介绍逻辑回归的模型形式,求解策略和算法.接着介绍逻辑回归的最大似然估计,最后说明为什么逻辑回归要采用sigmoid函数做变换.

线性回归

本文主要从一个例子开始说说线性回归模型以及线性回归模型的损失函数,求解方法和概率解释.不涉及统计学里的回归分析等诸多细节.

感知机

感知机(Perceptron)是二类分类的线性分类模型, 是SVM和神经网络的基础. 感知机以一个实数值向量作为输入, 计算这些输入的线性组合, 如果结果大于某个阈值就输出+1, 否则输出-1. 下面就从模型, 策略和算法三方面来说说这个模型, 最后会推导一下算法的收敛性.

什么是机器学习

本文主要通过一个典型的例子介绍什么是机器学习以及机器学习里常见的一些概念.

信息论基础

本文主要介绍信息论中常见的一些概念,熵,条件熵,互信息,KL散度.这部分内容非常重要,在很多机器学习模型中都涉及到.

数学基础之概率

本文主要介绍概率与数理统计中的一些常见的基本概念.文章最后简单介绍一下参数估计,有关参数估计的详细介绍可以参考参数估计.

数学基础之微积分

本文主要介绍学习机器学习过程中涉及到的一些微积分的基本概念,也包括部分数值分析,优化求解的概念.

机器学习学习大纲

为了系统性的介绍机器学习入门,本文特意列了一个提纲.接下来的一些文章我会按照下面的提纲一一介绍里面的内容,有的概念会点到为止,有的概念会说的比较多.介绍中有什么不妥或者不对的地方,还望大家指出.