【分词】日文分词工具-Mecab

主要介绍了日文分词工具 Mecab 的基本使用。

安装与配置

  • 下载好 mecab-0.996.exe (for windows
    • 注意安装时编码格式 UTF-8
    • 安装路径默认即可
  • 安装好 mecab-python:pip install mecab-python3 参考 mecab-python3

测试

词性标注

1
2
3
4
import MeCab
mecab = MeCab.Tagger ("-Ochasen")
sentence = '太郎はこの本を二郎を見た女性に渡した。'
print(mecab.parse(sentence))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
太郎	タロウ	太郎	名詞-固有名詞-人名-名		
は ハ は 助詞-係助詞
この コノ この 連体詞
本 ホン 本 名詞-一般
を ヲ を 助詞-格助詞-一般
二 ニ 二 名詞-数
郎 ロウ 郎 名詞-一般
を ヲ を 助詞-格助詞-一般
見 ミ 見る 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
女性 ジョセイ 女性 名詞-一般
に ニ に 助詞-格助詞-一般
渡し ワタシ 渡す 動詞-自立 五段・サ行 連用形
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点
EOS

分词

1
2
3
4
import MeCab
mecab = MeCab.Tagger ("-Owakati")
sentence = '太郎はこの本を二郎を見た女性に渡した。'
print(mecab.parse(sentence))
1
太郎 は この 本 を 二 郎 を 見 た 女性 に 渡し た 。 

参考