发布时间:2019-09-10 08:45:23编辑:auto阅读(2393)
老师让把每一次写东西遇到的问题都记录下来,个人觉得很有用,就以此为第一篇博文吧⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄
在写K-Means聚类时,对文本分词处理遇到去标点的问题,之前一直使用的是
.translate(None, string.punctuation)
方法,(⊙v⊙)嗯,我就是学得太粗糙,不管中英文(捂脸)。在百度之后,发现
string = re.sub("[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”!,。?、~@#¥%……&*()]+', "",line)
方法并不管用,最后参考
[(http://www.cnblogs.com/arkenstone/p/6092255.html)]找到了解决办法
from zhon.hanzi import punctuation
line='!今天写了个爬虫。、?'
print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8"))
运行结果为
今天写了个爬虫
等我写好了K-Means,一定要好好上传~
上一篇: python实现一个简易hashmap
下一篇: python中Return浅析
48802
47840
38613
35800
30223
26971
26007
20842
20626
19003
411°
489°
519°
527°
514°
496°
566°
629°
746°
786°