菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
27
0

python使用jieba实现中文文档分词和去停用词

原创
05/13 14:22
阅读数 618

分词工具的选择:

  现在对于中文分词,分词工具有很多种,比如说: jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。

分词前的准备:

待分词的中文文档

存放分词之后的结果文档

中文停用词文档(用于去停用词,在网上可以找到很多)

分词之后的结果呈现:

图 1   去停用词和分词前的中文文档

图 2去停用词和分词之后的结果文档

分词和去停用词代码实现:

发表评论

0/200
27 点赞
0 评论
收藏