在我们单位文件是特别多的,图片转文字、PDF转文字等这类的工具是很常用的,特别是年底要做报告的时候,基本上天天都在写报告。
把一份文件重头手动打到尾的这种傻事,几乎每个人都干过。
我在我公众号里面曾经发表过一篇文章:我受够了
这篇文章中记录了我是如何实现,文件扫描完毕后如何自动提取文件中的文字,无需转化为图片再上传平台转换。
请看效果图:
这个软件采用的是VB.NET开发,之所以使用VB,是因为小项目使用VB做起来非常高效。
这个软件的界面非常的简单,分为文本显示区、扫描文件显示区、参数设置区三个部分:
1、文本显示区
主要用于显示电子扫描件中的文本。
2、扫描文件显示区
主要用于扫描件预览,方面对照误差。
3、设置区
主要用于扫描仪的选择:
3-1、选择扫描仪-因为每个人的扫描仪可能型号不同,所以这个功能从程序中开放了出来,方便不同用户选择。
3-2、双面扫描-这个功能基本上没用,刚开始设计的时候初衷是为了,避免单页面文件扫描的时候,如果扫描仪设置的是双页面扫描模式,会有一个空白页出现,所以开放了这个功能出来。但是实际使用过程中它并没有起到多大的作用,因为一份完整的文件里面可能有三张纸,其中只有两张是双面,剩余的那一张是单面,总不能扫完双面文件再单独扫描单页面文件吧?这样很不科学,之后我直接在程序里面做了空白图片自动过滤功能,所以这个功能开不开启基本上没什么用。
3-3、扫描仪设置-主要用于扫描仪的参数设置。
这个小工具实际使用上还是很方便的,到目前为止,我自己还在使用中。
相比较网络上的不可复制的文本,及DPF文件的话,之前在公众号发布过截图版的OCR识别工具,在本站也发布过:
公众号:这是你想要的吗?
本站发布:文字识别开发:截图版
截图版的话相对于扫描版比较灵活,它支持应用的场景较多。
好了,关于文字识别今天就介绍到这里。