如何做词频统计?

我已经提取出了每个英文单词及出现次数,但是同一个单词有多种形式(比如时态),如何将这些不同的形式合并? Word的查找里面有“查找单词的所有形式”,但…
关注者
92
被浏览
112,565

12 个回答

Antconc,加载一个lemma list(官网有),就可以消除了。

时态、单复数、英美拼写、变体等情况可以用

Version 6 of the 12dicts word lists

提供的 2+2+3 lem list (

wordlist.aspell.net/12d

) 来转换。

顺带安利一下我用 Python 写的词频统计脚本:

英语文本词频统计 in Python - 魏华的文章 - 知乎专栏