最近做OCR的时候,为了方便,使用代码生成所需要的数据,因此,需要使用多种字体文件,记录下遇到的一些问题: 使用的模型:AttentionOCR 使用的生成器:TextRecognitionDataGenerator
https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py
# 先将上面两个文件放在同一目录下 from langconv import * def simple2tradition(line): # 将简体转换成繁体 line = Converter('zh-hant').convert(line) return line def tradition2simple(line): # 将繁体转换成简体 line = Converter('zh-hans').convert(line) return line lines = [] with open('../c2s/text-01.txt', 'r') as f: for line in f: new_line = tradition2simple(line.strip()) with open('../text-01.txt', 'a') as fw: fw.write('{}\n'.format(new_line))