【文本处理】常用的文本处理过程

一些常用的文本处理过程总结(不断更新与补充)。

分词

剔除一些无用的符号,词

三种统计词频的方式

直接使用 dict

1
2
3
4
5
6
7
8
9
text = "I'm a handsome boy!"

frequency = {}

for word in text.split():
if word not in frequency:
frequency[word] = 1
else:
frequency[word] += 1

使用 defaultdict

1
2
3
4
5
6
7
8
import collections

frequency = collections.defaultdict(int)

text = "I'm a handsome boy!"

for word in text.split():
frequency[word] += 1

使用 Counter

1
2
3
4
import collections

text = "I'm a handsome boy!"
frequency = collections.Counter(text.split())