1. 机器学习简介:任务 T, 性能度量 P 和 经验 E
  2. 容量、过拟合和欠拟合
  3. 估计、偏差和方差
  4. 模型的评价标准
    1. Confusion Matrix, True Positive, False Positive, True Negative, False Negative, Recall rate, etc
    2. P, AP, mAP
    3. IoU
  5. 最大似然估计
  6. 监督学习算法
    1. 线性回归 Linear Regression
    2. 逻辑回归 Logistic Regression
    3. 支持向量机 SVM
    4. 决策树 Decision tree
    5. 随机森林 Random Forest
  7. 无监督学习算法
    1. k 近邻算法 KNN
    2. k 均值聚类
  8. 维度
    1. 维数灾难
    2. 线性降维方法
      1. 主成分分析 PCA
    3. 非线性降维方法
      1. 流型学习
  9. 正则化 Regularization
    1. 参数范数惩罚
  10. 贝叶斯学派视角下的机器学习
    1. 最大后验(MAP)估计
    2. 概率图模型
    3. 朴素贝叶斯 Naive Bayes
  11. 损失函数 Loss Function
  12. 数据集 Dataset
    1. 常用的数据集
下面这篇博客中分类别 介绍了很多 机器学习 方法的评价指标,比较全面: http://www.cnblogs.com/zhaokui/p/ ml -metric.ht ml 一、聚类结果的评价指标 1、Rand index 或者 Rand measure(兰德指数) 维基百科比较详细:https://en.wikipedia.org/wiki/Rand_ index 兰德指数需要给定实际类别信息C,假设K是聚... 文章目录一、 Index 编码二、 OneHot编码独热编码优缺点什么情况下(不)用独热编码?什么情况下(不)需要归一化?三、 Multiple编码如何使用Multiple编码呢?四、 编码比较参考文献 一、 Index 编码 用来对离散的类型特征进行编码,如,不连续的数值、文本,将离散的特征转换成连续的数值型变量。基于 索引 的编码可以起到数据归一化的作用,如,id为1和10000,当id作为LR的特征... require_once 'vendor/autoload.php';use Php ml \Classification\KNearestNeighbors;use Php ml \Dataset\CsvDataset;use Php ml \Dataset\ArrayDataset;use Php ml \FeatureExtraction\TokenCountVectorizer;use Php ml \Tok... 其整体的思想是保留了 B+树的内部节点(作为导航),把叶子节点替换成学习模型,不存储实际数据,而是存储学习模型的参数。更多的工作是在如何组织这些训练出来的线性模型下功夫,抑或是将已有结构稍作变化或不做变化,应用在某个场景下,在查询性能或存储开销取得了优良的性能。PGM 的基本节点单元使用 Linear Model,采用 Bottom-Up 的构建方式,上一层对下一层的代表数据(每个 Segment 的起始点)递归地使用线性回归来构建 索引 树,其插入采用了类似 LSM 层次合并的思想来设计。 关系数据库帝国已经独孤求败几十年了! 自从1970年E.F.Codd 的《大型共享数据库的关系模型》论文横空出世,为关系型数据库奠定了坚实的理论基础,一众关系数据库System R,DB2 ,Oracle,MySQL,Postgres相继诞生,一举推翻了层次和网状数据库的统治。 在过去的几十年中, 对象数据库, NoSQL等相继挑战,但是依然无法撼动它的地位。 当然关系数据库也不是停滞不前,它也在进化,统一的SQL标准,强大的事务支持,更加聪明的查询优化器… 但是帝国也有一个巨大的硬伤,数据都保存在硬盘上, 这篇论文在两个月前刚被公布出来的时候,因为带着Jeff Dean的署名曾一度被热传,但直到今天才认真读完这篇论文。Learned Index 基于 机器学习 的方法,对传统数据库 索引 做了改造。本文先介绍Learned Index 的RM- Index 模型以及与B-Tree 索引 的对比。如论文开篇所言,可以将传统的数据库 索引 ( Index )视为一种模型(Model):B-Tree 索引 B-Tree 索引 模型将一个Ke... 本节介绍 索引 推荐的功能,共包含三个子功能:单query 索引 推荐、虚拟 索引 和workload级别 索引 推荐。 单query 索引 推荐 单query 索引 推荐功能支持用户在数据库中直接进行操作,本功能基于查询语句的语义信息和数据库的统计信息,对用户输入的单条查询语句生成推荐的 索引 。本功能涉及的函数接口如下。 表 1 单query 索引 推荐功能的接口 3) GPU具有层次化的存储空间和独特的高效访存方式,因此需要考虑当前学习到的 索引 结构在GPU体系结构中的适应性。阅读者总结:这篇论文的核心是将GPU和PGM- index 结合起来,总体上更加偏向工程实现,在学习 索引 的设计上明显地没有看出什么新颖点,当然了GPU是适合并发线程的计算过程,加速查询,但是这学习 索引 问题本身的解决上 没有什么多的贡献。根据近年来对学习 索引 的研究,提出了一种将GPU和学习 索引 的优势相结合的新思路,将学习 索引 放在GPU内存中,充分利用GPU的高并发和计算能力。... ## A C++11 implementation of the B-Tree part of "The Case for Learned Index Structures" A research **proof of concept** that implements the B-Tree section of [The Case for Learned Index Structures](https://arxiv.org/pdf/1712.01208.pdf) paper in C++. The general design is to have a single lookup structure that you can parameterize with a KeyType and a ValueType, and an overflow list that keeps new inserts until you retr ai n. There is a value in the constructor of the RMI that triggers a retr ai n when the overflow array reaches a cert ai n size. The basic API: ```c++ // [first/second]StageParams are network parameters int maxAllowedError = 256; int maxBufferBeforeRetr ai n = 10001; auto model Index = RecursiveModel Index recursiveModel Index (firstStageParams, secondStageParams, maxAllowedError, maxBufferBeforeRetr ai n); for (int ii = 0; ii < 10000; ++ii) { model Index .insert(ii, ii * 2); // Since we still have one more insert before retr ai ning, retr ai n before searching... model Index .tr ai n(); auto result = model Index .find(5); if (result) { std::cout << "Yay! We got: " << result.get().first << ", " << result.get().second << std::endl; } else { std::cout << "Value not found." << std::endl; // This shouldn't happen in the above usage... See [src/m ai n.cpp](src/m ai n.cpp) for a usage example where it stores scaled log normal data. ### Dependencies - [nn_cpp](https://github.com/bc ai ne/nn_cpp) - Eigen based minimalistic C++ Neural Network library - [cpp-btree](https://code.google.com/archive/p/cpp-btree/) - A fast C++ implementation of a B+ Tree ### TODO: - Lots of code cleanup - Profiling of where the slowdowns are. On small tests, the cpp_btree lib beats it by 10-100x - Eigen::TensorFixed in nn_cpp would definitel