亲爱的读者,
希望您身体健康
请欢迎“如何测试OCR SDK”的第三部分:
有几种方法可以计算一组文档的平均准确度:
1. 确定被正确识别的符号/单词在整个测试文档中占的百分比。
2. 首先计算在每个文档中找到多少个正确的符号/单词,然后计算一组中全部文档的平均百分比。
3. 对于多页文档:首先分别测量每页的准确度,然后计算文档中所有页面的平均准确度,最后是计算测试集中所有文档的平均准确度。
还有一个值得一提的方面 —— 错误处理逻辑。 通常,每个未正确识别的符号/单词将意味着被减1分。 然而,某些类型的错误不那么重要甚至可以忽略,而其他类型的错误可能在计划的处理场景中会产生严重后果,并且应该减超过 1 分来处理。
选择合适的方法:计算方法和错误处理逻辑的选择取决于预期方案。
可搜索的PDF。 如果将您的方案转换为可搜索的PDF,最好首先计算每个文档中找到的正确识别的符号/单词的百分比,然后计算一组中所有文档的平均百分比。 重要的是要了解用户能够找到多少包含特定关键字的文档。 错误处理:错误处理逻辑中应忽略标点符号,因为它不用于搜索。
数据捕获。 对于此方案,最好计算正确识别的关键字的百分比和在每个文档中找到的正确提取的字段值,然后计算集合中所有文档的平均百分比。 通过这些数字,您可以了解以100% 精确自动捕获的文档的数量以及需要审核的字段数量。
对于文档内关键字段值中发现的错误,结果应该更严格地处理。 另一方面,如果可以正确地找到这些关键词并且这些错误在一个文档到另一个文档中或多或少地存在重复错误,则用于定位字段的关键字中的错误就不那么关键了。 这些关键词后来可以使用 Two-Pass OCR方法重新OCR 扫描
可编辑的格式。 对于这种情况,建议计算多少单词、表格、页脚等等,对于集合中所有被正确识别的文档,在计算每个文档的这些度量标准时是没有用的,因为在这种情况下唯一重要的事情是估计使用应用程序的用户总共需要做多少次更正。
记住 OCR 过程需要以下步骤很重要:
1. 初始化引擎
2. 图像处理 (包括预处理,分析,识别和合成)
3. 取消初始化引擎
这些步骤中的每一个都可能显著影响最终速度标准。 但是,并非所有这些步骤都适用于所有方案。
例如,当一次处理大量文档 (批处理) 时,不需要为每个文档初始化引擎,因此不需要测量每个文档处理的初始化时间。如果在处理中图像将通过RAM传输进行处理 (以确保高速),那么应在测试算法中实现相同的逻辑。在这种情况下从磁盘打开图像时,就不适用于测试的条件,因为最终速度标准会有很大差异。
这就是为什么只测量您在处理中预期的那些步骤的速度很重要。 小提示:
1. 为了获得更可靠的结果,建议多次运行速度测试并计算平均时间,因为根据与操作系统的交互,结果可能会有多个百分点变化。
2. 始终使用您要在工作中处理文档的真实样本,在现实生活中进行测试。 例如,如果您计划处理BMP文件,请不要在测试集中使用JPG文件,因为速度可能会有很大差异。
3. 确保您正在学习在测试的OCR SDK的API、代码示例和教程 (如果有)、以了解它为速度优化提供的工具 (例如,对象重用)。 如果速度对您至关重要,需要根据您的需要进行优化,切勿使用引擎的默认设置。
4. 尝试各种设置以查看可以关闭的选项以提高运行速度。
仅剩一部分。 敬请关注!
如有任何疑问,请填写 我们的网站上的表格或联系您的销售经理
产品
开发者工具
© 2025 ABBYY。所有的权利都得到保障
本网站使用cookies
我们使用 cookie 来创建相关内容和广告, 提供社交媒体功能并分析我们的流量。我们还分享以下信息 您与我们的社交媒体、广告和分析合作伙伴一起使用我们的网站,他们可能会 将其与您提供给他们或他们收集的其他信息结合起来 从您使用他们的服务.
本网站使用cookies
我们使用 cookie 来创建相关内容并 广告,提供社交媒体功能并分析我们的流量。我们还分享 有关您通过我们的社交媒体、广告和分析使用我们网站的信息 合作伙伴可能会将其与您提供给他们的其他信息或 他们从您使用他们的服务中收集的信息.
我们使用这些 cookie 来 分析和评估您的行为和偏好,以更好地了解您的 兴趣,创建营销材料和产品广告。当您访问时 我们的网站或阅读我们的电子邮件,我们会计算您在设备上执行的操作。
Cookie consent
Stores user cookie consent status for the current domain
最长储存时间: 1 年
类别 :HTTP Cookies
_cfuvid [x2]
This cookie is a part of the services provided by Cloudflare - Including load-balancing, deliverance of website content and serving DNS connection for website operators.
最大存储时长:: 临时
类别 : HTTP Cookies
XSRF-TOKEN
Ensures visitor browsing-security preventing by cross-site request forgery. This cookie is essential for the security of the website and visitor.
最大存储时长 :临时
类别 : HTTP Cookies
_noRedirectOffer
待定
最大存储时长:7 天
类别 : HTTP Cookies
Cookies-policy
Remember what cookies you consent to use
最大存储时长 :30 天
类别 : HTTP Cookies
mktoFormSent
Remembers that user filled out request form
最大存储时长 : 7 天
类别 : HTTP Cookies
__cf_bm [x3]
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长: 1 天
类别 : HTTP Cookies
_grecaptcha
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 永久
永久 : HTML 本地存储
rc::a
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 永久
类别 : HTML 本地存储
rc::brc::b
This cookie is used to distinguish between humans and bots.
最大存储时长 : 临时
类别 : HTML 本地存储
rc::c
This cookie is used to distinguish between humans and bots.
最大存储时长: 临时
类别 : HTML 本地存储
_GRECAPTCHA
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 180 天
类别 : HTTP Cookies
These cookies allow us to make our website more user friendly, for example, if you visit abbyy.com from the UK , we can show you the UK area of abbyy.com the next time you visit.
yt/youkuplayer.fdl.playerckey
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: :临时
类别 : 像素追踪器
yt/youkuplayer.fdl.ykplayer_process
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: 临时
类别 : 像素追踪器
YK_PSL_SETTINGS
Used to save information about the visitor's video settings.
最大存储时长: 永久
类别 : HTML 本地存储
We use these cookies to measure the statistics and performance of the website. If you do not agree to the use of these cookies, we will not be able to measure the performance of the website and make improvements.
atpsida
Registers a unique ID that identifies the user's device during return visits. Used for conversion tracking and to measure the efficacy of online ads.
最大存储时长: 临时
类别 : HTTP Cookies
sca
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_ga
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 2 年
类别 : HTTP Cookies
_ga_#
Used by Google Analytics to collect data on the number of times a user has visited the website as well as dates for the first and most recent visit.
最大存储时长: 2 年
类别 : HTTP Cookies
_gat
Used by Google Analytics to throttle request rate
最大存储时长: 1 天
类别 : HTTP Cookies
_gid
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 1 天
类别 : HTTP Cookies
APLUS_LS_KEY
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
APLUS_CNA
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
x5secdata
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 1 天
类别 : HTTP Cookies
cna [x2]
Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
最大存储时长:1 年
类别 : HTTP Cookies
__utmz
Collects data on where the user came from, what search engine was used, what link was clicked and what search term was used. Used by Google Analytics.
最大存储时长: 180 天
类别 : HTTP Cookies
We use these cookies to analyze and evaluate your behavior and preferences to better understand your interests, create marketing materials and product advertisements. When you visit our website or read our emails, we count the actions you take on your device.
tfstk [x2]
Necessary for the implementation of video-content on the website.
最大存储时长 180 天
类别 : HTTP Cookies
isg
Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
最大存储时长: 180 天
类别 : HTTP Cookies
Hm_ck_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 1 年
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 临时
类别 : HTML 本地存储
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 永久
类别 : HTML 本地存储
Hm_unsent_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTML 本地存储
HMACCOUNT [x2]
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 4824 天
类别 : HTTP Cookies
HMACCOUNT_BFESS
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 400 天
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_gcl_au
Used by Google AdSense for experimenting with advertisement efficiency across websites using their services.
最大存储时长: 3 月
类别 : HTTP Cookies
IDE
Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
最大存储时长: 400 天
类别 : HTTP Cookies
test_cookie
Used to check if the user's browser supports cookies
最大存储时长:1 天
类别 : HTTP Cookies
pagead/1p-user-list/#
Tracks if the user has shown interest in specific products or events across multiple websites and detects how the user navigates between sites. This is used for measurement of advertisement efforts and facilitates payment of referral-fees between websites.
最大存储时长: 临时
类别 : 像素追踪器
xlly_s
Collects data on visitor interaction with the website's video-content. This data is used to make the website's video-content more relevant towards the visitor.
最大存储时长: 3 天
类别 : HTTP Cookies
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 天
类别 : HTTP Cookies
YSC
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 临时
类别 : HTTP Cookies
auyst
Necessary for the implementation of video-content on the website.
最大存储时长 : 永久
类别 : HTML 本地存储
yt/youkuplayer.fdl.h5send
Required for the embedded media player to operate.
最大存储时长: 临时
类别 : 像素追踪器
__arpvid [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ayft [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__aypstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__ayscnt [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__aysid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__ayspstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__aysvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 2 天
类别 : HTTP Cookies
__ayvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ysuid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 1 年
类别 : HTTP Cookies
YK_PSL_RECORDS
Necessary for the implementation of video-content on the website.
最大存储时长: 永久
类别 : HTML 本地存储
rc::f
This cookie is used to distinguish between humans and bots.
最大存储时长 : 永久
类别 : HTML 本地存储
Uncategorized cookies are cookies that we are categorizing with individual cookie providers.
_visits
To be 待定
最大存储时长 : 1 天
类别 : HTTP Cookies
HMACCOUNT
待定
最大存储时长: 临时
类别 : HTML 本地存储
ts
待定
最大存储时长: 临时
类别 : 像素追踪器
x5sectag
待定
最大存储时长 : 1 天
类别 : HTTP Cookies
APLUS_S_CORE_1.0.1_20240910171434_7d560148
待定
最大存储时长 : 永久
类别 : HTML 本地存储
ETLCD
待定
最大存储时长: 永久
类别 : HTML 本地存储
syfhs
待定
最大存储时长: 永久
类别 : HTML 本地存储
web_behavior_time
待定
最大存储时长 : 永久
类别 : HTML 本地存储
yt/vp.vdoview
待定
最大存储时长 : 临时
类别 : 像素追踪器
HideModalFC
待定
最大存储时长:3 天
类别 : HTTP Cookies
HideModalFCE
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCI
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCILP
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFRE
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalFRS
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalTL
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalVant
待定
最大存储时长: 3 天
类别 : HTTP Cookies
IpDetection
待定
最大存储时长: 7 天
类别 : HTTP Cookies
viewCount
待定
最大存储时长: 1 年
类别 : HTTP Cookies
Cookie 是小文本文件, 网站用于使使用我们的用户体验更加高效。该网站使用 各种不同类别的 cookie。有些cookie是由第三方放置的 我们网站上显示的服务。
您可以更改或撤回您的同意 随时从我们网站的 Cookie 声明中获取。
详细了解我们是谁、如何 联系我们以及我们的隐私政策如何处理个人数据.