轻松拥有网店,注册有礼
使用 "HP 解决方案中心" 实现文字识别、表格识别的方法
来源:中国耗材网 作者:中国耗材网 2007-8-3 11:40:00 责任编辑:刘欣

文章简介

适用机型:适用于 v5.x 版本的驱动软件

  • Officejet 5608 、 5609 , Photosmart 2578 、 3108 、 3308 的随机软件光盘即为 5.3 版本
  • PSC 1118 、 1218 、 1318 、 1350 、 1406 、 1408 、 1508 、 1608 、 2110 、 2310 、 2358 、 2410 将来升级到 5.x 版本的驱动软件
  • Offciejet 4110 、 4255 、 4256 、 5510 、 6110 、 6208 、 7208 将来升级到 5.x 版本的驱动软件
  • Photosmart 2608 将来升级到 5.x 版本的驱动软件

本文以在 Windows 操作系统下使用 CUE 5.3 进行 OCR 文字识别为例,介绍了如何使用一体机随机软件 "HP 解决方案中心 " 来进行文字识别的方法及注意事项。

什么是文字识别 ?

如果您有张稿件,仅仅是为了保存到电脑里备份,通常会用一体机或扫描仪扫描到电脑里成一幅图,如 " 合同 .jpg " 文件什么的。这样成图文件的扫描方式优点是格式完整,文字全对,想用的时候再打开此文件并打印出来即可。但缺点是无法修改其某一部分内容,比如其中一句话想删除,某个标点修改一下位置等。所以我们就可以在软件中选中进行文字识别的相关选项,这样扫描出来的结果不会是个图文件,而是用 Word 等软件可以打开的电子文档,如 " 合同 .rtf " ,原稿中的每个文字和段落都互相独立,且可以分别修改。本文就以在 Windows 操作系统下使用 Photosmart all-in-one 3308 进行 OCR 文字识别为例,介绍了如何使用 " HP 解决方案中心 " 来进行文字识别的方法及注意事项。

若想提高识别率,扫描前该注意些什么 ?

  1. 原稿尽量使用单面且是打印的文件,而不要用背面有字的报纸,传真稿件等;放置原稿要放正,否则识别率会大大降低。
  2. 原稿字体一定要是标准字体,例如宋体,且字体大小最好在 4 号左右,且此软件只支持打印稿识别,不支持手写字体。
  3. 扫描时,在预览图片上圈选保存范围的时候尽量只圈住字体大小相同的部分,有助于提高识别率。
  4. 扫描表格圈选保存范围的时候只圈住表格边框及里面的部分,不要圈表格之外的文字。

:

尤其是对于表格部分过于复杂或包含彩色图像过多的原稿,若圈选过多的彩色图形,会导致软件报内部错误的现象,请一定注意。

 5.此外,对于表格识别还要求表格内不能包含合并或拆分单元格,如图 1 所示,否则识别效果可能会特别差,甚至识别不出整个表格。

 6.一体机随机软件的识别率不会太高,一般在 70 %- 95 % 就已经不错了,表格识别效果可能会更差一些。

为了保证扫描效果,扫描前该设置什么?

  1. 直接打开桌面上的 " HP 解决方案中心 ” 。
  2. 点击 " 设置 " → " 扫描设置和首选项 " → " 扫描文档设置 " 如图:

 3.出现 " 按钮设置 " 窗口,如果您要 OCR 识别文本的话, " 要扫描的内容 " 选择 " 文档 " 选项, " 扫描至 " 您可以选择 "Microsft Word" (如果您有别的文字编辑软件,只要列表里边有的,都可以选择)。如下图:

 4.点击右下角 " 扫描文档设置 " 进入可编辑文本设置。在这里我们可以选择识别语言( OCR 语言),由于识别语言只能选择一种,所以原文件最好是单一文字,这样识别效果才好。当我们把文件扫描至 Word 的时候,选择 " 保持页面格式 " 可以大部分地保留原文件的版面,这是默认选项,而选择 " 不保持页面格式 " 的话,原文件的版面格式不被保留(如居中的标题可能会变为居左等等),我们还需要重新修改大量板式。如下图:

设置完成之后,点击 " 确定 " 按钮,回到 "HP 解决方案中心 " 。

文字和表格识别基本操作步骤

  1. 进行完上述设置之后,我们就可以点击最初的 " HP 解决方案中心 " 中的 " 扫描文档 " 按钮开始扫描和识别工作了。此时会出图所示,由于在上一步骤中已进行了设置,所以按默认设置即可, " 扫描至 " 选 Word 最好。当然,如果您希望扫成 .PDF 格式的文件,可以选择扫描至 " 文件 " ,这样扫描后默认就会生成一个 PDF 格式的文件了。

 2.点击 " 扫描 " 后开始扫描:

 3.我们可以用鼠标调整圈住要识别的部分,建议把周围的白边圈在外面这样可以提高识别率,然后点击 " 接受 " , 开始扫描,出现对话框,之后软件会提示 " 是否将另一页扫描到当前的文档中 " 。如果有多页文档需要识别,我们可以将第二页文件放到玻璃板上,点击 " 是 " 。软件会回到预览的界面,请点击 " 新扫描 " 按钮开始第二页的扫描。完成第二页的预览扫描后,可把第二页文件里面要识别的部分圈住,再点击 " 接受 " (此步骤同上)。通过这种方式,就可以把很多页文件里面的内容识别到同一个 Word 文档里面。

 4.识别完最后一张后点击 " 否 " ,完成扫描。经过页面处理之后会将识别后的文档以 Word 文档的形式自动打开

 5.识别效果图

:

由于默认的是把表格识别到 Word 中,所以如果您希望在 Microsoft Excel 软件中编辑表格,通过 Word 软件打开扫描好的表格,全选,拷贝到 Microsoft Excel 就可以了。

小技巧:在 Microsoft Excel 软件中编辑识别后的表格

由于默认的是把表格识别到 Word 中,所以如果您希望在 Microsoft Excel 软件中编辑表格,可以看看以下的小技巧:

:

如果原文件是表格,也可以按照上面的方法去操作,同样可以识别,只不过默认把识别结果发送到 Word 而不是常用的表格编辑工具 Excel 而已。

  1. 通过 Word 软件打开扫描好的表格,全选,拷贝。
  2. 再打开 Excel 软件,通过 Excel 菜单栏的 “ 编辑 ” -> “ 粘贴 ” 命令把识别的内容粘贴过来,也许表格的行高行宽等会发生变化,所以您还要稍微编辑一下,例如直接拉动表格线到您要的宽度和高度,或者右键点中某一行或某一列,在出现的菜单中选择 “ 列宽 ” 或 “ 行高 ” 选项,输入数值进行调节以达到最好的效果。
  3. 随后您就可以在 Excel 中随意编辑表格了。
搜索关键字:文字 表格 识别 一体机
  • 相关评论
  • 枫叶红了 2007-08-31
  • 不错
  • 枫叶红了 2007-08-31
  • 不错
相关产品经销商
频道精选
视频中心推荐