[情人节] jieba分词介绍
jieba 分词我觉得是Python中文分词工具中最好用的一个工具包。想要入门自然语言处理,jieba分词有必要好好掌握一下,今天带大家入门一下jieba分词包。
首先简单介绍一下jieba分词的原理,jieba分词采用的是基于统计的分词方法,首先给定大量已经分好词的文本,利用机器学习的方法,学习分词规律,然后保存训练好的模型,从而实现对新的文本的分词。主要的统计模型有:N元文法模型N-gram,隐马尔可夫模型HMM,最大熵模型ME,条件随机场模型CRF等。
jieba分词包含三个主要的类,分别是jieba,jieba.analyse, jieba.posseg。jieba类主要用于分词,analyse类主要用于文档关键词提取,tfidf计算等,posseg主要用于词性标注等。
下面我把jieba中涉及到的主要方法给大家做个小demo。
1. 分词
jieba分词基本的方法就是cut,cut_all这个参数的意思是,是否把所有分词的可能都切分出来,False为精确模式,True为全模式,这里情人节,因为情人也是一个词,所以全模式的时候就会把情人也分出来。这里到底要不要全切分出来,取决于实际的应用场景,如果是一个比较专业的领域,自己建立的词典不是很准确,这时候cut_all可以设置为True。HMM参数意思是,是否使用隐马尔科夫模型,一般为True。
import jieba
import jieba.posseg
import jieba.analyse
str1 = "今天是情人节,祝大家情人节快乐"
str1cut = jieba.cut(str1, cut_all=False, HMM=True)
out = " ".join(str1cut)
print(out)
今天 是 情人节 , 祝 大家 情人节 快乐
str1cut = jieba.cut(str1, cut_all=True, HMM=True)
out = " ".join(str1cut)
print(out)
今天 是 情人 情人节 祝 大家 家情 情人 情人节 快乐
"""
第二个切词的方法是lcut,lcut返回的是一个list,而刚才的cut返回的是一个Python生成器。
import jieba
import jieba.posseg
import jieba.analyse
str1 = "今天是情人节,祝大家情人节快乐"
str1cut = jieba.lcut(str1, cut_all=False, HMM=True)
print(str1cut)
['今天', '是', '情人节', ',', '祝', '大家', '情人节', '快乐']
"""
第三个切词的方法是posseg类里面的cut方法,它除了返回切词结果,还返回了词的词性,就是这个词是名词还是动词,还是形容词等。同样这里还有jieba.posseg.lcut方法,大家可以试一试。
import jieba
import jieba.posseg
import jieba.analyse
str1 = "今天是情人节,祝大家情人节快乐"
str1cut = jieba.posseg.cut(str1, HMM=True)
for w in str1cut:
flag, word = w.flag, w.word
print("{}, {}".format(flag, word))
t, 今天
n, 情人节
n, 大家
n, 情人节
a, 快乐
"""
cut和lcut的区别除了返回的结果不一样以外,还有一个重要的区别是cut的速度要略快于lcut,大家可以把时间打出来看一看,时间问题在大规模文本分词中很重要。
2. 关键词提取
顾名思义,关键词提取,就是把文档中的关键字提取出来,jieba中主要是靠jieba.analyse类里面的extract_tags来完成的。
import jieba
import jieba.posseg
import jieba.analyse
str1 = "今天是情人节,祝大家情人节快乐"
res = jieba.analyse.extract_tags(str1, topK=3)
print(res)
['情人节', '快乐', '今天']
"""
3. 词典
jieba中的词典,主要是指停用词词典和自定义词典。停用词词典很好理解,就是把不希望jieba分词分出来的词放入到一个叫做停用词词典的文件中,就不会被jieba分词分出来,这个很好理解哈,不多说。
自定义词典是有些词无法被jieba分词分出来,但是你又希望这个词被分出来,那么就把这个词放在一个叫做 自定义词典的文件中,这样jieba就可以分出来这个词了,也很好理解哈。
然后主要说一下jieba中是怎么实现这个功能的
对于停用词,其实就是把jieba分词的结果中那些在停用词表的词去掉,剩下的就是我们想要的。这里可以把停用词表放在文件里面,然后用的时候读取出来,然后读到一个list里面就好了。
import jieba
import jieba.posseg
import jieba.analyse
stopwords = ['是', '祝', ',']
str1 = "今天是情人节,祝大家情人节快乐"
str1cut = jieba.lcut(str1)
results = []
for x in str1cut:
if x not in stopwords:
results.append(x)
print(results)
['今天', '情人节', '大家', '情人节', '快乐']
"""
jieba中还有一种设置停用词的方法, 这个是用在关键字提取的时候,所以如果你不是用的analyse这个类的时候,set_stop_words是不起作用的。
import jieba
import jieba.posseg
import jieba.analyse
jieba.analyse.set_stop_words("./dictionary/stopwords_zh.csv")
str1 = "今天是情人节,祝大家情人节快乐"
str1cut = jieba.analyse.extract_tags(str1)
print(str1cut)
['情人节', '快乐']
"""
然后是自定义字典,直接调用load_userdict, 把字典的路径放进去就ok了。
import jieba
import jieba.posseg
import jieba.analyse
jieba.load_userdict("./dictionary/jieba_dict.csv")
jieba.analyse.set_stop_words("./dictionary/stopwords_zh.csv")
str1 = "今天是情人节,祝大家情人节快乐"
str1cut = jieba.lcut(str1)
print(str1cut)
['今天', '是', '情人节', ',', '祝', '大家', '情人节', '快乐']
"""
4. 词云
词云和jieba的关系不是很大,之所以要把这个放在这里讲一下,是因为答应我的女朋友,分析一下我们过去微信里的聊天记录,做一个词云展示出来,作为情人节的礼物(⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄),But,我的手机死活root不了,我试了很多软件都不行,也是醉了。截止目前,我还没有把我们的聊天记录提取出来,所以也没法做后续的分析,这里求助一下各位大大,有谁知道怎么root三星的A9,可以来教一下我。
Python里面做词云的是wordcloud包,用起来非常方便。做词云的一个好处是可以展示给别人看,当然自己看的话,统计一下词频就可以了,词云就是根据文档中词的频率不同,展示出来的字体大小,颜色不同,给人一种直观的感觉。
下面直接上代码
from scipy.misc import imread
import matplotlib.pyplot as plt
import wordcloud
def plot_word_cloud():
text = open("test_file.txt", 'r').read()
alice_coloring = imread("back.png")
wc = wordcloud.WordCloud(background_color="white",
mask=alice_coloring,
max_font_size=20,
random_state=1,
max_words=100,
font_path='msyh.ttf')
wc.generate(text)
image_colors = wordcloud.ImageColorGenerator(alice_coloring)
plt.axis("off")
plt.figure()
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis("off")
plt.figure()
plt.axis("off")
wc.to_file("wordcloud.png")
plot_word_cloud()
做词云需要注意的地方是,1.读取的文本是分词时候的文件,而且必须以字符串或者二进制形式输入。否则会报错TypeError: expected string or bytes-like object。2. 中文字体,msyh.ttf文件是用来显示中文字体的文件,如果没有这个文件,中文会乱码。这个文件随手百度一下就有,然后把路径写对了就可以。3.背景图,alice_coloring,这个可以设置也可以不设置。
下面是我随手百度的一个效果图,让大家体会一下。
5. 一点心得
结巴分词固然好用,但是对于专业领域的文本,很多词是切不出来的,或者是一些专有名词,地名,人名,机构名等,还有最重要的一类是对你后面模型的建立起作用的词,在别的地方可能是没用的,但是对你是有用的词,这时候就比较难办,所以专业领域的词典构建是一件非常繁琐的事情,至今貌似也没有什么好的办法,只能遇到一个然后添加进去一个。我自己想了一个办法,就是把所有可能的词全切出来,然后根据频率去掉频率低的词,因为如果是一个需要被切出来的词,那么应该是经常出现的词,如果不是经常出现的词,那就很有可能不是一个词。另外就是在分词的时候,不管是cut还是lcut,返回的结果可能并不能令你满意,这时候,你可以把你需要切出来的词直接封装一个方法,写在切词的方法里面,然后取二者的并集作为最后的分词结果,这样可以提高准确率。下面我写了一个脚本来抛砖引玉。
import jieba
import jieba.posseg
import jieba.analyse
import re
def newcut(inputs):
if isinstance(inputs, str):
_msg_cut = jieba.lcut(inputs)
print("|".join(_msg_cut))
print("="*20)
# 这里可以用正则匹配出文本出现价格的词,
# 因为类似100元这样的词,jieba是分不出来的,
# 但是你不能把类似这样的词加到词典里面去吧,
# 否则词典会变的很大。
p = re.compile("[0-9]+?[元|块]").findall(inputs)
if p:
for price in p:
_msg_cut.append(price)
if len(_msg_cut) > 0:
return "|".join(_msg_cut)
else:
return inputs
else:
return inputs
inputs = "今天是情人节,娜娜给我发了52元的红包!"
print(newcut(inputs))