正则表达式提取文本中的数字
这里演示一下文本中提取中文年份
import re m0 = "在一九四九年新中国成立比一九九零年低百分之五点二人一九九六年击败俄军,取得实质独立" pattrern1 = '[零一二三四五六七八九]{4,}' pattrern2 = '[〇一二三四五六七八九零壹贰叁肆伍陆柒捌玖貮两]{4,}' time1 = re.findall(pattrern1,m0)#转化数字
提取年份如:‘1949′, ‘1990′, ‘1996′
这里给出许多正则表达式的样例:example
中文转化成阿拉伯数字
创建一个字典然后讲数字进项匹配:
CN_NUM = { '〇': 0, '一': 1, '二': 2, '三': 3, '四': 4, '五': 5, '六': 6, '七': 7, '八': 8, '九': 9, '零': 0, '壹': 1, '贰': 2, '叁': 3, '肆': 4, '伍': 5, '陆': 6, '柒': 7, '捌': 8, '玖': 9, '貮': 2, '两': 2,} for i in range(len(time1)): new_str = '' for j in time1[i]: new_str += str(CN_NUM[j]) time1[i] = new_str time1
这样结果就出来啦,成功将上文例子中文年份转化成阿拉伯数字:‘1949′, ‘1990′, ‘1996′
完整代码
# 2、将句子中年份的大写数字改为阿拉伯数字 import re m0 = "在一九四九年新中国成立比一九九零年低百分之五点二人一九九六年击败俄军,取得实质独立" pattrern1 = '[零一二三四五六七八九]{4,}' pattrern2 = '[〇一二三四五六七八九零壹贰叁肆伍陆柒捌玖貮两]{4,}' time1 = re.findall(pattrern1,m0)#转化数字 CN_NUM = { '〇': 0, '一': 1, '二': 2, '三': 3, '四': 4, '五': 5, '六': 6, '七': 7, '八': 8, '九': 9, '零': 0, '壹': 1, '贰': 2, '叁': 3, '肆': 4, '伍': 5, '陆': 6, '柒': 7, '捌': 8, '玖': 9, '貮': 2, '两': 2,} for i in range(len(time1)): new_str = '' for j in time1[i]: new_str += str(CN_NUM[j]) time1[i] = new_str time1
总结
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)