如何统计长篇英文材料中的词频?
34 个回答
本文转自微信公众号『妙面爸』
……………………………………………………………………
各位爷,你们也太麻烦了吧。
介绍两个在线网站,轻松解决这个问题。
………2016年11月30日更新了 词组统计功能 的分割线………
1、长篇词频统计 writewords
网址
Word Frequency Counter
这个软件可以统计几十万字的英文素材,按单词出现次数的高低排列。
举个栗子。统计一部我听过的英文版小说——《哈利波特与密室》
J.K. Rowling - HP 2 - Harry Potter and the Chamber of Secrets ,
这部小说共计十万词左右。咦,你怎么知道是十万词?
复制粘贴到word文档里面,下面就显示出来总字数啦。
全部文本
粘贴输入对话框,以下是词频统计结果。
(1)单词词频统计
(2)词组词频统计
将点击Phrase Frequency counter,就讲单词词频统计转换成词组统计了。上图中可以选择统计的词组单词数量,可以选择2到10个单词构成的词组。这次选3字词组。
统计结果出来了。由于很多单词的组合本身并不是词组,只是由于意义组合反复出现而被统计了出来。比如It was a这个组合。其中还是可以统计出很典型的词组,比如be able to 和out of sight等。这个网站在统计词组时会插入一些单字词,是一个bug,不管就可以了。
长篇使用技巧:
A、善用高频人名、地名,迅速熟悉小说剧情 。可以看到,排在最上面的都是一些诸如the、and、of之类的小词(small words)。对于英语学习没有多大意义。出现频率几百次的,除了一些特别常用的词之外,就是人名,比如 Ron出现704次,Hermione出现320次,Malfoy出现222 。 对于提高阅读和听力而言,这些人名地名的意义比掌握一般单词更大,因为谁是谁和哪是哪都搞不懂,你怎么能搞懂整本小说?利用wikipedia搜索这部小说,通过梗概介绍熟悉人物的基本关系,对听懂和读懂这部小说意义重大。
B、利用高频词预习、复习,提升裸听、裸读理解率,帮助单词积累。 对于学习英语,提高词汇量意义重大的词语,往往是出现5-几十次的单词,一般出现次数不会高于30次。比如上面 这些出现10次的单词。将它们找出来,在阅读和聆听之前预习,可以大大提高阅读理解率和听力理解率;在读完听完之后复习,又大大了提高单词复习针对性。由于这类单词在文本中反复出现,是可以通过大量阅读聆听自然习得的单词。有意识地重点掌握,可以如虎添翼,使得自己在短时间内增加大量单词。
2、短篇词频统计 WordCounter
网址:
WordCounter
这个网站最多只能统计出现频率前200名的单词,特点是具有去小词功能。
我将2016年11月27日的yahoo新闻政治版块的头条进行统计。结果如下:
选择将小词(small words)过滤掉。
短篇使用技巧:
A、集中掌握中频词,高效轻松增长词汇量。 排在前名的依然是人名,比如川普出现22次。其他高频词太简单了,不予考虑。bedminster 和mitt出现5次,segar/reuter 出现4次,depart 和president-elect等出现3次。这样在一篇短短的文章里出现3到5次的单词是特别重要的,因为一般出现7次左右就可以保留在长期记忆里了。
B、善用多篇统计,捕捉特定话题高频词。 这个网站比较适合进行短篇文章的词频排序。比第一个网站优势在于可以去掉一些小词。其实,如果对于特定题材的文章,可以输入同一主题的文章,比如将有关川普英语文章输入几十篇,看看那些是高频词。
学习者总是要接触难度高于目前水平的英语素材。这些素材,有时像一堆无法破译的拼图碎片。统计出来的高频词汇,像打开听力阅读口语的钥匙,可将通用拼图片找出来,恢复原图的样貌,大大提高学习的针对性。
以上两个网站都不需要翻墙。善用词频统计网站进行英语学习,真的是无敌利器;每次英语学习前后常用词频统计,会受益不穷、效率大增。
关注妙面爸微信公众号,就可免费获得英语学习方法、自我提升和教育学习文章全集,包含上百篇干货文章,让你英语水平和自我高度进步神速。 ↓
首先我们请出炒鸡长篇的GRE超级阅读习题集:传说中的2772
这货是纽伊斯特学院各种老师常年收集的GMAT GRE LAST阅读习题集。
打开看一下
总共四十万个单词,恩足够大家统计词频了。
首先另存为txt格式,并且删掉目录
然后用这个替换功能
把所有的数字,符号,全部替换成空格。
需要替换1234567890`~!@%^&*()_+-=[]\;',./{}|:"<>?
然后重复多次,把双空格替换成单空格:
全部完成之后,你的文件大概长这样:
这时候我们做一个丧心病狂的事情,把所有的空格替换成转行符 ^|
替换完成之后你的文档变成了这样。。。。= =
之后用excle读取这个伟岸的txt文档:
然后在每个单词右侧增加一个 1(用拖的就好啦,把窗口缩小,拖的时候鼠标离窗口下沿远一点,拖得会更快)
然后创建数据透视表(插入--->数据透视表)
具体细节不是特别清楚的可以参考这篇教程: http:// jingyan.baidu.com/artic le/eb9f7b6d8758ae869364e8fd.html
缩短列宽度,再把计数区排一下序,你的私人词频表就出现啦!!!