Python 中文去标点

发布时间：2019-09-10 08:45:23编辑：auto阅读（3009）

老师让把每一次写东西遇到的问题都记录下来，个人觉得很有用，就以此为第一篇博文吧⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄
在写K-Means聚类时，对文本分词处理遇到去标点的问题，之前一直使用的是
.translate(None, string.punctuation)
方法，(⊙v⊙)嗯，我就是学得太粗糙，不管中英文（捂脸）。在百度之后，发现
string = re.sub("[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”！，。？、~@#￥%……&*（）]+', "",line)
方法并不管用，最后参考
[(http://www.cnblogs.com/arkenstone/p/6092255.html)]找到了解决办法

from zhon.hanzi import punctuation
line='！今天写了个爬虫。、？'
print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8"))

运行结果为

今天写了个爬虫

等我写好了K-Means，一定要好好上传~

关键字：

上一篇： python实现一个简易hashmap

下一篇： python中Return浅析



搜索

热门推荐

最新文章

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客