用百度API 实现高精度文字识别

  • 来源:电脑报
  • 关键字:百度API ,高精度,文字识别
  • 发布时间:2023-08-11 11:57

  陈新龙

  最近科技圈可谓掀起了一波AI 的高潮。OpenAI 推出的新聊天机器人模型ChatGPT,可以与人类交互并解决问题,且回答的效果也不错,体验感十足, 由StabilityAI 带火的AI 绘画已经抢了一些人的饭碗。国内知名的大厂也在开发AI 类的产品,比如百度的“文心一言”,阿里的“通义千问”等。

  很多同学都想知道如何第一时间去了解到这些信息,如何去体验新功能,开发创作一些作品。这里小陈老师推荐大家去一些知名网站技术平台浏览学习,比如阿里云平台、百度云平台等,学会查找研究文档,今天小陈老师就教大家如何通过平台网站学习一些前沿的技术知识(图1)。

  以百度智能云为例,它是以“云智一体”为核心赋能千行百业,为开发者提供全球领先的人工智能、大数据和云计算服务及易用的开发工具。凭借先进的技术和丰富的解决方案,全面赋能各行业,加速产业智能化。

  这里包含了很多热门的技术与产品,假设我们现在有个人脸识别或者语言识别的需求,可能对于基础的开发者来说需要去学习一门新的技术,甚至新的开发语言等。但是我们借助百度或其他平台为我们提供的一些技术解决方案的话就会大大降低使用门槛,提高开发效率,节约时间成本。

  正好小陈老师接到了一个业务需求,需要将PDF 文档中的文字提取出来,识别精准度要求较高,最后将提取出来的内容保存到数据库中。

  当然我不会为了这个任务自己开发OCR 系统,可以用百度云的OCR 识别技术,每个月有1000 次文字识别限制只能做低数据量测试。马上去官网查阅相关技术文档。

  登录智能云平台,点击右上角的扩展按钮,选择产品服务一览,会弹出很多的产品以及相关服务,我们只需要找到我们所需对应的信息即可,选择人工智能“文字识别”就会跳转到相应的技术页面,页面中涵盖的内容也是非常全面和详细的,包括了服务列表(适用场景列表:图片、表格、二维码等),也包含了对应的开发服务API 文档。API 能够利用互联网上的高算力设备快速运算,优化用户体验。API 开发成本低,对接比较简单,无须访问源码,或理解内部工作机制的细节即可快速验证商业模式和用户体验(图2、图3)。

  每一个API 文档都包含了接口的描述,使用场景,在线调试,请求说明,请求参数,以及示例代码(目前市面上主流的语言Python、Java、C++、 PHP、C# 等),我们只需要看懂文档说明,找到对应示例代码位置模仿即可完成。我们以Python 语言为例(通用文字识别【高精度含位置版】)(图4)。

  在示例代码中已经包含了一些提示信息,比如我们在使用过程中需替换token 的信息,token 信息相当于用户进行一些权限操作时的许可凭证,里面包含了用户信息、过期时间、加密方式等等。以及图片地址或base64 信息, 包括有些代码可能涉及语言依赖的类和库,文档中的说明已经是非常全面和详细了。而且大部分代码还是比较容易理解的,只需要请求对应的接口地址https://aip.baidubce. com/rest/2.0/ocr/v1/accurate 将本地的文件以二进制的方式打开,并且转化为base64 格式,传入access_ token(关键信息)得出最后的响应结果就是我们所需要的内容(图5)。

  这里小陈老师首先将本地的PDF 先手动转化为了图片文件,然后通过调用百度OCR 的方式将图片中的文字进行了读取解析,获得了最后包含位置坐标的内容(图6)。

  通过这个实例,小陈老师希望大家有一个积极探索发现的精神,遇到困难不要害怕,通过寻找一些技术文档以及搜索一些解决方案帮助我们去克服这些困难。大家可以尝试去探索一下百度的“智能创作平台”,它是一个智能的AI 多模态技术,集成文本生成视频、模板视频、图片生成和图文写作等智能创作工具。里面包含了自动创作、辅助创作、多模态创作等,大家通过查阅技术文档的方式看看能否创作一些有意思的作品。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: