txt
=
txt
.
lower
(
)
#将字母全部转化为小写
for
ch
in
',-.()'
:
#去掉特殊符号
txt
=
txt
.
replace
(
ch
,
""
)
#将特殊符号替换为空格
return
txt
Txt
=
getText
(
)
#读取文件
words
=
Txt
.
split
(
)
#分隔开
counts
=
{
}
#创建字典
for
word
in
words
:
counts
[
word
]
=
counts
.
get
(
word
,
0
)
+
1
items
=
list
(
counts
.
items
(
)
)
items
.
sort
(
key
=
lambda x
:
x
[
1
]
,
reverse
=
True
)
#从大到小排序
for
i
in
range
(
20
)
:
print
(
items
[
i
]
)
txt
= open('comment.text','r',encoding='utf-8').read()
txt
=
txt
.lower()
for ch in '`~!@#$%^&*()_+-={}[];":,./<>?\|':
txt
=
txt
.replace(ch," ")
return
txt
commentText = getText()
words
Python
综合程序设计实验名称:
Python
综合程序设计:1.了解多种第三方库的使用方法, 掌握jieba库的基本使用;2.掌握
文件
的读写方法以及打开关闭等基本操作;3. 了解自顶向下的设计方法和自底向上的执行过程;4.了解计算生态和模块编程思想。1. PC机或笔记本电脑若干;及以上版本操作系统;3.
Python
运行环境。
python
统计
一个
大
文件
中
很多小
文件
里面的词频#!/usr/bin/env
python
3.6fromcollectionsimportCounterfromfunctoolsimportreducefromoperatorimportaddfrompathlibimportPathps=Path().glob('*.
txt
')c=reduce(add,[Cou...
import jieba
txt
= open("西游记.
txt
", "r", encoding='utf-8').read()words = jieba.lcut(
txt
) # 使用精确模式对文本进行分词counts = {} # 通过键值对的形式存储词语及其
出现
的
次数
for word in words:if len(word) == 1:continueelif word ==...
counts = {} # 通过键值对的形式存储词语及其
出现
的
次数
with open('./标
题
.
txt
','r',encoding='gbk') as f:
con = f.readlines()
for i in con:
words = jieba.lcut(i)
for word in words:
if len(word) == 1:
python
词频
统计
这篇博客用来记录一下自己学习用
python
做词频
统计
的过程
#一、
英文
词频
统计
,所用文本《THE CATCHER IN THE RYE 》(麦田里的守望者)
涉及的第三方库及其在程序
中
的用途如下:
import string #去除
英文
标点符号
from nltk.corpus import stopwords #去掉一些停用词
这里说下停用词,所谓停用词,多是一些
出现
频繁但实际意义不大或是对文本分析帮助不大的词汇,如
英文
里的a,an,that
中
文里的“的”、“是”等词,下面是
#
统计
一个
文件
中
单词
出现
的
次数
,并输出
出现
次数
最多的前3个
单词
def countword(file):
fp = open(file, mode='r', encoding='utf-8')
word_l = {}
for line in fp:
sword = line.strip().split()
for word in sword:
好的,我可以帮你写
一个
统计
文本
单词
频率
的程序。
首先,我们需要导入
Python
中
的 collections 模块,这个模块提供了
一个
叫做 Counter 的类,可以用来
统计
单词
频率
。
然后,我们可以打开
一个
文件
,
读入
文本,将文本分割为
单词
列表。这可以通过使用
Python
中
的 split() 函数来实现。
接下来,我们可以使用 Counter 类来
统计
单词
频率
。我们可以使用 Counter ...
end=$1 #S1是输出
频率
最高
单词
的个数
cat $2 | #是目标文本
文件
的名称
tr -cs "[a-z][A-Z]" "[\n*]" | #将文本
文件
以一行
一个
单词
的形式
显示
tr A-Z a-z | #将
单词
的大写字母转为小写字母
sort | #对
单词
排序
uniq -c | #对排序好的
单词
列表
统计
每
一个
单词
出现
的
次数
sort -k1nr -k2 |