如何统计长篇英文材料中的词频?

学习英语中常需要背诵单词,词频对分析选取背诵的单词很有帮助 网上能找到的词频统计软件都是收费的,如何仅利用办公软件统计词频呢?
关注者
960
被浏览
237,465

34 个回答

本文转自微信公众号『妙面爸』

……………………………………………………………………


各位爷,你们也太麻烦了吧。


介绍两个在线网站,轻松解决这个问题。


………2016年11月30日更新了 词组统计功能 的分割线………


1、长篇词频统计 writewords 网址 Word Frequency Counter

这个软件可以统计几十万字的英文素材,按单词出现次数的高低排列。

举个栗子。统计一部我听过的英文版小说——《哈利波特与密室》 J.K. Rowling - HP 2 - Harry Potter and the Chamber of Secrets , 这部小说共计十万词左右。咦,你怎么知道是十万词?


复制粘贴到word文档里面,下面就显示出来总字数啦。 全部文本 粘贴输入对话框,以下是词频统计结果。


(1)单词词频统计



(2)词组词频统计


将点击Phrase Frequency counter,就讲单词词频统计转换成词组统计了。上图中可以选择统计的词组单词数量,可以选择2到10个单词构成的词组。这次选3字词组。



统计结果出来了。由于很多单词的组合本身并不是词组,只是由于意义组合反复出现而被统计了出来。比如It was a这个组合。其中还是可以统计出很典型的词组,比如be able to 和out of sight等。这个网站在统计词组时会插入一些单字词,是一个bug,不管就可以了。


长篇使用技巧:

A、善用高频人名、地名,迅速熟悉小说剧情 。可以看到,排在最上面的都是一些诸如the、and、of之类的小词(small words)。对于英语学习没有多大意义。出现频率几百次的,除了一些特别常用的词之外,就是人名,比如 Ron出现704次,Hermione出现320次,Malfoy出现222 。 对于提高阅读和听力而言,这些人名地名的意义比掌握一般单词更大,因为谁是谁和哪是哪都搞不懂,你怎么能搞懂整本小说?利用wikipedia搜索这部小说,通过梗概介绍熟悉人物的基本关系,对听懂和读懂这部小说意义重大。



B、利用高频词预习、复习,提升裸听、裸读理解率,帮助单词积累。 对于学习英语,提高词汇量意义重大的词语,往往是出现5-几十次的单词,一般出现次数不会高于30次。比如上面 这些出现10次的单词。将它们找出来,在阅读和聆听之前预习,可以大大提高阅读理解率和听力理解率;在读完听完之后复习,又大大了提高单词复习针对性。由于这类单词在文本中反复出现,是可以通过大量阅读聆听自然习得的单词。有意识地重点掌握,可以如虎添翼,使得自己在短时间内增加大量单词。

2、短篇词频统计 WordCounter
网址: WordCounter

这个网站最多只能统计出现频率前200名的单词,特点是具有去小词功能。


我将2016年11月27日的yahoo新闻政治版块的头条进行统计。结果如下:


选择将小词(small words)过滤掉。


短篇使用技巧:

A、集中掌握中频词,高效轻松增长词汇量。 排在前名的依然是人名,比如川普出现22次。其他高频词太简单了,不予考虑。bedminster 和mitt出现5次,segar/reuter 出现4次,depart 和president-elect等出现3次。这样在一篇短短的文章里出现3到5次的单词是特别重要的,因为一般出现7次左右就可以保留在长期记忆里了。

B、善用多篇统计,捕捉特定话题高频词。 这个网站比较适合进行短篇文章的词频排序。比第一个网站优势在于可以去掉一些小词。其实,如果对于特定题材的文章,可以输入同一主题的文章,比如将有关川普英语文章输入几十篇,看看那些是高频词。


学习者总是要接触难度高于目前水平的英语素材。这些素材,有时像一堆无法破译的拼图碎片。统计出来的高频词汇,像打开听力阅读口语的钥匙,可将通用拼图片找出来,恢复原图的样貌,大大提高学习的针对性。


以上两个网站都不需要翻墙。善用词频统计网站进行英语学习,真的是无敌利器;每次英语学习前后常用词频统计,会受益不穷、效率大增。


关注妙面爸微信公众号,就可免费获得英语学习方法、自我提升和教育学习文章全集,包含上百篇干货文章,让你英语水平和自我高度进步神速。


首先我们请出炒鸡长篇的GRE超级阅读习题集:传说中的2772

这货是纽伊斯特学院各种老师常年收集的GMAT GRE LAST阅读习题集。

打开看一下


总共四十万个单词,恩足够大家统计词频了。

首先另存为txt格式,并且删掉目录

然后用这个替换功能

把所有的数字,符号,全部替换成空格。

需要替换1234567890`~!@%^&*()_+-=[]\;',./{}|:"<>?

然后重复多次,把双空格替换成单空格:

全部完成之后,你的文件大概长这样:

这时候我们做一个丧心病狂的事情,把所有的空格替换成转行符 ^|

替换完成之后你的文档变成了这样。。。。= =

之后用excle读取这个伟岸的txt文档:

然后在每个单词右侧增加一个 1(用拖的就好啦,把窗口缩小,拖的时候鼠标离窗口下沿远一点,拖得会更快)

然后创建数据透视表(插入--->数据透视表)

按照这样配置:

注意看“行“与”计数值“两项,行这一项选成你的单词列,sigma值这一项选成你拉出来的1.

具体细节不是特别清楚的可以参考这篇教程: jingyan.baidu.com/artic


缩短列宽度,再把计数区排一下序,你的私人词频表就出现啦!!!