-
机器学习简介:任务 T, 性能度量 P 和 经验 E
-
容量、过拟合和欠拟合
-
估计、偏差和方差
-
模型的评价标准
-
Confusion Matrix, True Positive, False Positive, True Negative, False Negative, Recall rate, etc
-
P, AP, mAP
-
IoU
-
最大似然估计
-
监督学习算法
-
线性回归 Linear Regression
-
逻辑回归 Logistic Regression
-
支持向量机 SVM
-
决策树 Decision tree
-
随机森林 Random Forest
-
无监督学习算法
-
k 近邻算法 KNN
-
k 均值聚类
-
维度
-
维数灾难
-
线性降维方法
-
主成分分析 PCA
-
非线性降维方法
-
流型学习
-
正则化 Regularization
-
参数范数惩罚
-
贝叶斯学派视角下的机器学习
-
最大后验(MAP)估计
-
概率图模型
-
朴素贝叶斯 Naive Bayes
-
损失函数 Loss Function
-
数据集 Dataset
-
常用的数据集
下面这篇博客中分类别 介绍了很多
机器学习
方法的评价指标,比较全面:
http://www.cnblogs.com/zhaokui/p/
ml
-metric.ht
ml
一、聚类结果的评价指标
1、Rand
index
或者 Rand measure(兰德指数)
维基百科比较详细:https://en.wikipedia.org/wiki/Rand_
index
兰德指数需要给定实际类别信息C,假设K是聚...
文章目录一、
Index
编码二、 OneHot编码独热编码优缺点什么情况下(不)用独热编码?什么情况下(不)需要归一化?三、 Multiple编码如何使用Multiple编码呢?四、 编码比较参考文献
一、
Index
编码
用来对离散的类型特征进行编码,如,不连续的数值、文本,将离散的特征转换成连续的数值型变量。基于
索引
的编码可以起到数据归一化的作用,如,id为1和10000,当id作为LR的特征...
require_once 'vendor/autoload.php';use Php
ml
\Classification\KNearestNeighbors;use Php
ml
\Dataset\CsvDataset;use Php
ml
\Dataset\ArrayDataset;use Php
ml
\FeatureExtraction\TokenCountVectorizer;use Php
ml
\Tok...
其整体的思想是保留了 B+树的内部节点(作为导航),把叶子节点替换成学习模型,不存储实际数据,而是存储学习模型的参数。更多的工作是在如何组织这些训练出来的线性模型下功夫,抑或是将已有结构稍作变化或不做变化,应用在某个场景下,在查询性能或存储开销取得了优良的性能。PGM 的基本节点单元使用 Linear Model,采用 Bottom-Up 的构建方式,上一层对下一层的代表数据(每个 Segment 的起始点)递归地使用线性回归来构建
索引
树,其插入采用了类似 LSM 层次合并的思想来设计。
关系数据库帝国已经独孤求败几十年了!
自从1970年E.F.Codd 的《大型共享数据库的关系模型》论文横空出世,为关系型数据库奠定了坚实的理论基础,一众关系数据库System R,DB2 ,Oracle,MySQL,Postgres相继诞生,一举推翻了层次和网状数据库的统治。
在过去的几十年中, 对象数据库, NoSQL等相继挑战,但是依然无法撼动它的地位。
当然关系数据库也不是停滞不前,它也在进化,统一的SQL标准,强大的事务支持,更加聪明的查询优化器…
但是帝国也有一个巨大的硬伤,数据都保存在硬盘上,
这篇论文在两个月前刚被公布出来的时候,因为带着Jeff Dean的署名曾一度被热传,但直到今天才认真读完这篇论文。Learned
Index
基于
机器学习
的方法,对传统数据库
索引
做了改造。本文先介绍Learned
Index
的RM-
Index
模型以及与B-Tree
索引
的对比。如论文开篇所言,可以将传统的数据库
索引
(
Index
)视为一种模型(Model):B-Tree
索引
B-Tree
索引
模型将一个Ke...
本节介绍
索引
推荐的功能,共包含三个子功能:单query
索引
推荐、虚拟
索引
和workload级别
索引
推荐。
单query
索引
推荐
单query
索引
推荐功能支持用户在数据库中直接进行操作,本功能基于查询语句的语义信息和数据库的统计信息,对用户输入的单条查询语句生成推荐的
索引
。本功能涉及的函数接口如下。
表 1 单query
索引
推荐功能的接口
3) GPU具有层次化的存储空间和独特的高效访存方式,因此需要考虑当前学习到的
索引
结构在GPU体系结构中的适应性。阅读者总结:这篇论文的核心是将GPU和PGM-
index
结合起来,总体上更加偏向工程实现,在学习
索引
的设计上明显地没有看出什么新颖点,当然了GPU是适合并发线程的计算过程,加速查询,但是这学习
索引
问题本身的解决上 没有什么多的贡献。根据近年来对学习
索引
的研究,提出了一种将GPU和学习
索引
的优势相结合的新思路,将学习
索引
放在GPU内存中,充分利用GPU的高并发和计算能力。...
## A C++11 implementation of the B-Tree part of "The Case for Learned
Index
Structures"
A research **proof of concept** that implements the B-Tree section of [The Case for Learned
Index
Structures](https://arxiv.org/pdf/1712.01208.pdf) paper in C++.
The general design is to have a single lookup structure that you can parameterize with a KeyType and a ValueType, and an overflow list that keeps new inserts until you retr
ai
n. There is a value in the constructor of the RMI that triggers a retr
ai
n when the overflow array reaches a cert
ai
n size.
The basic API:
```c++
// [first/second]StageParams are network parameters
int maxAllowedError = 256;
int maxBufferBeforeRetr
ai
n = 10001;
auto model
Index
= RecursiveModel
Index
recursiveModel
Index
(firstStageParams,
secondStageParams,
maxAllowedError,
maxBufferBeforeRetr
ai
n);
for (int ii = 0; ii < 10000; ++ii) {
model
Index
.insert(ii, ii * 2);
// Since we still have one more insert before retr
ai
ning, retr
ai
n before searching...
model
Index
.tr
ai
n();
auto result = model
Index
.find(5);
if (result) {
std::cout << "Yay! We got: " << result.get().first << ", " << result.get().second << std::endl;
} else {
std::cout << "Value not found." << std::endl; // This shouldn't happen in the above usage...
See [src/m
ai
n.cpp](src/m
ai
n.cpp) for a usage example where it stores scaled log normal data.
### Dependencies
- [nn_cpp](https://github.com/bc
ai
ne/nn_cpp) - Eigen based minimalistic C++ Neural Network library
- [cpp-btree](https://code.google.com/archive/p/cpp-btree/) - A fast C++ implementation of a B+ Tree
### TODO:
- Lots of code cleanup
- Profiling of where the slowdowns are. On small tests, the cpp_btree lib beats it by 10-100x
- Eigen::TensorFixed in nn_cpp would definitel