需求描述
爬取推特内容,需要留下只有中文/英文的内容,日文/韩文不要。
实现思路
用正则表达式。 本来想能不能单独匹配中文或者英文,但是好多符号不想弄了… 就直接搜了匹配日文/韩文的正则表达式。
备注:匹配日文的好像只能匹配假名,如果是日文汉字就不行。
参考代码
import re
str = '输入需要匹配的字符'
jap
= re
.compile(r
'[\u3040-\u309F\u30A0-\u30FF\uAC00-\uD7A3]')
if jap
.search
(str):
print('Yes')