opencv+tesseract实现验证码识别的示例

一、需要识别的内容

需要识别的验证码内容如下验证码下载下载地址。

二、直接调用tesseract来完成识别（识别率很差）

识别的图片内容为： opencv+tesseract实现验证码识别的示例

在window系统钟打开cmd命令窗口，执行识别命令如下：

tesseract.exe 01.png output.txt -l eng

识别结果为：519} 该识别准确率远远达不到预期

三、训练数据样本，提升识别率

1、下载10份样本（样本数量越多，识别率越高），然后通过jTessBoxEditor来进行样本数据矫正（该步骤耗时较长）。

opencv+tesseract实现验证码识别的示例

2、打开 jTessBoxEditor，将所有的样本数据生成一个总的tif文件（tif就是所有图片的集合）。操作如下：

1）jTessBoxEditor->Tools->Merge TIFF

opencv+tesseract实现验证码识别的示例

2 ）全选所有的样本文件，之后生成的tif命名为 jtbnum.font.exp0.tif

opencv+tesseract实现验证码识别的示例

3）进行数据识别调整，如下图：

opencv+tesseract实现验证码识别的示例

四、生成样本库字体

将所有的样本识别内容都调整正确后（调整的参数保存在jtbnum.font.exp0.box文件钟），我们需要将我们生成的样本文件封装成我们的 jtbnum.traineddata 字体库，生成方式如下:

1)创建 font_properties 文件，内容为 font 0 0 0 0 0

2）在同级目录创建 run.bat 文件内容如下

rem 执行改批处理前先要目录下创建font_properties文件  
  
echo Run Tesseract for Training..  
tesseract.exe jtbnum.font.exp0.tif jtbnum.font.exp0 nobatch box.train  
  
echo Compute the Character Set..  
unicharset_extractor.exe jtbnum.font.exp0.box  
mftraining -F font_properties -U unicharset -O jtbnum.unicharset jtbnum.font.exp0.tr  
  
echo Clustering..  
cntraining.exe jtbnum.font.exp0.tr  
  
echo Rename Files..  
 
del jtbnum.normproto
rename normproto jtbnum.normproto
 
del jtbnum.inttemp
rename inttemp jtbnum.inttemp
 
del jtbnum.pffmtable
rename pffmtable jtbnum.pffmtable
 
del jtbnum.shapetable
rename shapetable jtbnum.shapetable
  
echo Create Tessdata..  
combine_tessdata.exe jtbnum. 
 
pause

3）双击执行 run.bat 文件，系统执行完成后，将会生成 jtbnum.traineddata 文件。

4）将 jtbnum.traineddata 拷贝到tesseract安装目录下的tessdata文件夹下。

5）测试识别率：

识别的图片内容为： opencv+tesseract实现验证码识别的示例

tesseract.exe 01.png output.txt -l jtbnum

识别结果为：51915 识别结果已经很准确率，但是验证码图片中的杂质没有清除，导致会识别出多余内容来。

五、通过Opencv清除图片的多余杂质（Java实现）

if(!hasLoad){
            System.load(opencvPath+"/build/java/x64/opencv_java440.dll");
            hasLoad = true;
        }
 
        byte [] bytes = Base64Utils.decodeFromString(base64);
        String path = savePath+"/"+System.currentTimeMillis()+".png";
        try {
            OutputStream outputStream = new FileOutputStream(new File(path));
            outputStream.write(bytes);
            outputStream.flush();
            outputStream.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
 
        Mat image0 = Imgcodecs.imread(path);
        Mat image1 = new Mat();
        //灰度处理
        Imgproc.cvtColor(image0, image1, Imgproc.COLOR_BGR2GRAY);
        Imgproc.adaptiveThreshold(image1,image1,255,Imgproc.ADAPTIVE_THRESH_MEAN_C,Imgproc.THRESH_BINARY,11, 2);
        Core.bitwise_not(image1,image1);
        Mat kernel = Imgproc.getStructuringElement(Imgproc.MORPH_RECT, new Size(2, 2), new Point(-1, -1));
        Mat temp = new Mat();
        Imgproc.erode(image1, temp, kernel);
        Imgproc.dilate(temp, temp, kernel);
        String newPath = path.substring(0,path.lastIndexOf(".")) +"_1.png";
        Imgcodecs.imwrite(newPath,temp);

图片处理结果如下（杂质已经清除）:

opencv+tesseract实现验证码识别的示例

5）测试识别率：

识别的图片内容为： opencv+tesseract实现验证码识别的示例

tesseract.exe 01.png output.txt -l jtbnum

识别结果为：5191 识别已经很精确

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

opencv+tesseract实现验证码识别的示例

目录

一、需要识别的内容

二、直接调用tesseract来完成识别（识别率很差）

三、训练数据样本，提升识别率

四、生成样本库字体

五、通过Opencv清除图片的多余杂质（Java实现）

评论(0)

提示：请文明发言取消回复

作者信息

本站推荐

OpenCV全攻略C++计算机视觉项目实践含源码

何伟元素流瑜伽系统基础师资培训67GB

移动端APP渗透测试（价值199元）网络攻防

Python高级编程实战及应用[前后端开发]

清栀老师AI风景短视频剪辑自学课入门到进阶

阿炳老师·2026Coze平台搭建智能体课程

热门资源

苹果cms海螺影视模板/大橙子模板/仿B站模板/v7模板/带手机移动端+详细安装使用说明

【已测】修复版H5骰子微信竞猜游戏骰宝免公众号版修复登录ID相同完美全套源码对接免签支付

网页游戏卧龙吟一键服务端加远程工具带架设教程

邪风曲单机版 2D回合制网络游戏源码一键安装即玩服务端公益服+GM工具

完整可用版本去水印小程序源码带教程源码

仙侠H5【苍穹剑诀】一键即玩端+授权后台+外网教程

opencv+tesseract实现验证码识别的示例

目录

一、需要识别的内容

二、直接调用tesseract来完成识别（识别率很差）

三、训练数据样本，提升识别率

四、生成样本库字体

五、通过Opencv清除图片的多余杂质（Java实现）

评论(0)

提示：请文明发言 取消回复

相关文章

作者信息

本站推荐

热门资源

提示：请文明发言取消回复