浅入浅出:K近邻算法
有较为详细的介绍。
https://github.com/someus/dataset
下载text-classification.7z,解压后导入数据:
test_data.npy test_labels.npy training_data.npy training_labels.npy
$
ipython
>>
> import numpy as np
>>
> training_data = np.load(
"training_data.npy"
)
>>
> training_data.shape
(
1998
,
19630
)
>>
> training_labels = np.load(
"training_labels.npy"
)
>>
> training_labels
array([
6
,
6
,
6
, ...,
2
,
2
,
2
])
>>
> training_labels.shape
(
1998
,)
>>
> test_data = np.load(
"test_data.npy"
)
>>
> test_data.shape
(
509
,
19630
)
>>
> test_labels = np.load(
"test_labels.npy"
)
>>
> test_labels.shape
(
509
,)
基于贝叶斯的文本分类实战中笔者使用了多项式贝叶斯对同样的数据集进行分类,正确率达到近90%。
我们将每个样本归一化,看看效果。
先写一个归一化工具(mytools.py):
import numpy as np
def uniformization(X):
if X.ndim != 2:
return None
X2 = X.copy()
X2 = X2.astype(float)
rows = X2.shape[0]
for i in xrange(0, rows):
sum_of_squares = sum(X2[i, :]**2)
if sum_of_squares == 0: continue
sqrt_sum_of_squares = sum_of_squares**0.5
X2[i, :] = X2[i, :] / sqrt_sum_of_squares
return X2
if __name__ == '__main__':
arr = np.array([[1,2,3],[4,5,6],[0,0,0]])
print uniformization(arr)
运行结果如下:
[[ 0.26726124 0.53452248 0.80178373]
[ 0.45584231 0.56980288 0.68376346]
[ 0. 0. 0.
处理原始数据集,生成新的数据:
>>> from mytools import uniformization
>>> new_training_data = uniformization(training_data)
>>> new_test_data = uniformization(test_data)
令k=6:
>>> knn = KNeighborsClassifier(n_neighbors=6, metric='euclidean')
>>> knn.fit(new_training_data, training_labels)
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='euclidean',
metric_params=None, n_neighbors=6, p=2, weights='uniform')
>>> predict_labels = knn.predict(new_test_data)
>>> sum(predict_labels == test_labels)
294
>>> 294./509
0.5776031434184676
令k=20:
>>> from sklearn.neighbors import KNeighborsClassifier
>>> knn = KNeighborsClassifier(n_neighbors=20, metric='euclidean')
>>> knn.fit(new_training_data, training_labels)
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='euclidean',
metric_params=None, n_neighbors=20, p=2, weights='uniform')
>>> predict_labels = knn.predict(new_test_data)
>>> sum(predict_labels == test_labels)
314
>>> 314./509
0.6168958742632613
可以看到,归一化后,预测分类的正确率提升很多。
1.6. Nearest Neighbors
sklearn.neighbors.KNeighborsClassifier
上一篇文章已经描述了朴素贝叶斯算法newgroup的分类实现,这篇文章采用KNN算法实现newgroup的分类。
文中代码参考:http://blog.csdn.net/yangliuy/article/details/7401142
1、KNN算法描述
对于KNN算法,前面有一篇文章介绍其思想,但是按个事例采用的模拟的数值数据。本文将采用KNN进行文本分类。算法步骤如下:
(1)文本预处
numSamples = dataSet.shape[0] # shape[0]表示行数## step 1: 计算距离# tile(A, reps): 构造一个矩阵,通过A重复reps次得到diff = tile(newInput, (numSamples, 1)) - dataSet # 按元素求差值squaredDiff = diff ** 2 #将差值平方squaredDist = sum(squaredDiff, axis = 1) # 按行累加。
文本分类——常见分类模型
kNN分类模型的主要思想:通过给定一个未标注文档d,分类系统在训练集中查找与它距离最接近的k篇相邻(相似或相同)标注文档,然后根据这k篇邻近文档的分类标注来确定文档d的类别。
普通kNN实现
一般常规的kNN计算新输入文档与训练集中样本之间的距离,都是新输入文档与每一训练集样本计算相似度。数据结构...
相似的对象在特征空间中距离相近。具体来说,对于待分类的样本,KNN算法首先计算它与训练集中每个样本之间的距离。然后,算法选取距离最小的K个样本,这些样本被称为“邻居”。最后,根据这些邻居的类别标签,通过投票或加权平均等方式,确定待分类样本的类别。KNN算法的核心在于距离度量,它决定了样本之间的相似度。通过选择合适的距离度量方法,KNN算法能够准确地找出与待分类样本最相似的邻居,从而进行准确的分类。为了演示KNN算法在文本分类中的应用,我们选择了一个公开的文本分类数据集,如20 Newsgroups数据集。
KNN算法原理
k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样本中的大多数都属于某一个类别,则该样本也属于这个类别。第一个字母k可以小写,表示外部定义的近邻数量。这句话不难理解,但有点拗口,下面通过一个实例来讲解一下。
首先我们准备一个数据集,这个数据集很简...
在词袋模型的基础上,引入TF-IDF(Term Frequency-Inverse Document Frequency)权重,以突出那些在特定文档中频繁出现但在整体文档集合中不常见的词语,从而增强特征表示的区分度。在学术和工业界,针对KNN算法的优化和扩展一直是研究热点,不断涌现新的研究成果和技术解决方案,以适应大数据时代对算法性能的更高要求。:如科技新闻、体育新闻、财经新闻等多类别分类,KNN同样可以应用于此,通过计算文本向量间的距离,将新闻文章分配给最接近的类别。
1、KNN算法的简介
kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k =
5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所
简介:文本分类作为自然语言处理的核心任务,KNN算法因其在分类问题上的性能而受到青睐。本项目聚焦于如何利用C++语言实现KNN算法来对文本数据进行分类,涵盖从数据预处理到最终分类决策的完整流程。我们将探讨如何将文本转化为数值向量表示,计算向量间的距离,确定合适的K值,以及如何通过投票机制为未知类别文本做出分类预测。同时,我们也会考虑到C++...
文本分类是信息检索和数据挖掘中的一个基本任务,它涉及到将自然语言文本按照内容分配到一个或多个预定义的类别中。这一任务广泛应用于垃圾邮件检测、情感分析、话题追踪以及个性化推荐系统等领域。随着机器学习技术的发展,文本分类的自动化和智能化水平不断提高。在深入研究文本分类的算法之前,我们需要了解文本分类的流程,包括文本预处理、特征提取、模型训练、分类预测以及模型评估等关键步骤。每一个步骤都是文本分类性能优化的关键,而本章将对这些基本概念和术语进行介绍,为后续章节中算法的详细介绍和应用打下坚实的基础。