txt = txt . lower ( ) #将字母全部转化为小写 for ch in ',-.()' : #去掉特殊符号 txt = txt . replace ( ch , "" ) #将特殊符号替换为空格 return txt Txt = getText ( ) #读取文件 words = Txt . split ( ) #分隔开 counts = { } #创建字典 for word in words : counts [ word ] = counts . get ( word , 0 ) + 1 items = list ( counts . items ( ) ) items . sort ( key = lambda x : x [ 1 ] , reverse = True ) #从大到小排序 for i in range ( 20 ) : print ( items [ i ] ) txt = open('comment.text','r',encoding='utf-8').read() txt = txt .lower() for ch in '`~!@#$%^&*()_+-={}[];":,./<>?\|': txt = txt .replace(ch," ") return txt commentText = getText() words Python 综合程序设计实验名称: Python 综合程序设计:1.了解多种第三方库的使用方法, 掌握jieba库的基本使用;2.掌握 文件 的读写方法以及打开关闭等基本操作;3. 了解自顶向下的设计方法和自底向上的执行过程;4.了解计算生态和模块编程思想。1. PC机或笔记本电脑若干;及以上版本操作系统;3. Python 运行环境。 python 统计 一个 文件 很多小 文件 里面的词频#!/usr/bin/env python 3.6fromcollectionsimportCounterfromfunctoolsimportreducefromoperatorimportaddfrompathlibimportPathps=Path().glob('*. txt ')c=reduce(add,[Cou... import jieba txt = open("西游记. txt ", "r", encoding='utf-8').read()words = jieba.lcut( txt ) # 使用精确模式对文本进行分词counts = {} # 通过键值对的形式存储词语及其 出现 次数 for word in words:if len(word) == 1:continueelif word ==... counts = {} # 通过键值对的形式存储词语及其 出现 次数 with open('./标 . txt ','r',encoding='gbk') as f: con = f.readlines() for i in con: words = jieba.lcut(i) for word in words: if len(word) == 1: python 词频 统计 这篇博客用来记录一下自己学习用 python 做词频 统计 的过程 #一、 英文 词频 统计 ,所用文本《THE CATCHER IN THE RYE 》(麦田里的守望者) 涉及的第三方库及其在程序 的用途如下: import string #去除 英文 标点符号 from nltk.corpus import stopwords #去掉一些停用词 这里说下停用词,所谓停用词,多是一些 出现 频繁但实际意义不大或是对文本分析帮助不大的词汇,如 英文 里的a,an,that 文里的“的”、“是”等词,下面是 # 统计 一个 文件 单词 出现 次数 ,并输出 出现 次数 最多的前3个 单词 def countword(file): fp = open(file, mode='r', encoding='utf-8') word_l = {} for line in fp: sword = line.strip().split() for word in sword: 好的,我可以帮你写 一个 统计 文本 单词 频率 的程序。 首先,我们需要导入 Python 的 collections 模块,这个模块提供了 一个 叫做 Counter 的类,可以用来 统计 单词 频率 。 然后,我们可以打开 一个 文件 读入 文本,将文本分割为 单词 列表。这可以通过使用 Python 的 split() 函数来实现。 接下来,我们可以使用 Counter 类来 统计 单词 频率 。我们可以使用 Counter ... end=$1 #S1是输出 频率 最高 单词 的个数 cat $2 | #是目标文本 文件 的名称 tr -cs "[a-z][A-Z]" "[\n*]" | #将文本 文件 以一行 一个 单词 的形式 显示 tr A-Z a-z | #将 单词 的大写字母转为小写字母 sort | #对 单词 排序 uniq -c | #对排序好的 单词 列表 统计 一个 单词 出现 次数 sort -k1nr -k2 |