建设管理数据(CMD)公司旨在通过网站为建筑公司提供海量过往、目前在建和筹划中的建设项目的信息。为此,公司需要收集繁杂的纸质和电子文档,并将其转换为可搜索的图纸和规范化文档,粗略统计,每年CMD需要处理大约3500万页此类文件。但由于CMD自身创建可搜索PDF文档的解决方案前期需要手动输入文档,而且无法处理大型建筑图纸。此外,它无法进行扩展,以适应在处理过往项目数据并转换为可搜索格式的同时,应对当前项目日益增长的文件量及工作量。为此,CMD试图寻找一种能够提高生产率、实现自动化并具有可扩展性的方法,最终它在ABBYY Recognition Server中找到了解决方案。
“我们的产品愿景是为客户提供可搜索文件,并在公司内部实现文档自动化处理,而ABBYY是实现这个愿景的关键所在。”CMD数据策略副总裁Dan DuBois
大规模转换以及超大文件的处理依赖于强大的可扩展OCR技术
北美各地的建筑公司在寻求有关市场的商业情报、寻找新的项目线索或寻找投标建议时,都会首先向CMD咨询所需信息。CMD致力于非住宅型商业建设项目,通过网站为用户提供一个拥有大量可搜索项目计划的数据库。“我们收集项目各个阶段的数据——从早期规划,直到签订合同为止。”CMD数据策略副总裁Dan DuBois解释说,“我们的研究人员从各种格式的资料,纸质文档和电子文档中获取数据,利用OCR技术将其转换为可检索的PDF文件,以便汇总到我们的数据库之中。”
正如DuBois所说,CMD每年需要转换海量的繁杂文档:
“每年我们要处理大约10万份文件,总共大约3500万页,每页文件都可能包含文字、图表、图画和插图。”许多文件的物理尺寸也非常大。CMD高级软件开发人员Vic Mykulowycz称,公司先前的OCR技术不足以满足建筑行业的需求。“举例来说,它无法处理较大尺寸的文件,而我们需要处理大量44”X36“大小的建筑图纸。所以我们不得不在前期手工录入数据和准备数据。”另外,旧软件的准确度较低,需要进行大量的手工验证。Mykulowycz说:“我们需要通过自动化方案简化流程,减少人工干预。”
寻求大规模自动化OCR实施方案
对于CMD来说,新OCR解决方案需要针对所有文件——不管文本和图形如何组合——提供准确的全文搜索功能,这是至关重要的。有鉴于此,他们收到了各种颇具竞争力的解决方案提供商的试用版本,并开始进行一系列的测试。“我们采用多个解决方案处理相同的页面,”Mykulowycz说,“我们会仔细比对导出文本,查看其准确度,并计算每种解决方案的错误次数。结果,ABBYY Recognition Server更准确,速度更快,还有非常重要的是,它可以处理大量的页面。”
鉴于需要进行转换的文档数量巨大,CMD需要对ABBYY Recognition Server进行严格的测试。因此,他们通过ABBYY合作伙伴——在OCR和文档管理解决方案领域非常知名的CONARC公司——获得了扩展许可证。
“因为CMD的处理量巨大,”CONARC的高级软件开发人员Ben Holton说,“我们设法获得了远远超过常规页面处理量的试用许可证。”获得扩展许可证之后,CMD安装了11个新的物理服务器,开始使用它们运行ABBYY Recognition Server。
“我们需要看到该解决方案的实际处理能力有多大,” Mykulowycz回忆说,“以及在十几个服务器上运行核心许可时如何实现优化配置。紧接着,我们进行了广泛的测试。然后,在实施过程中,由于我们的内部软件和新的ABBYY解决方案之间存在技术差异,我们需要进行适当的变更,以适应ABBYY Recognition Server。”按照Mykulowycz的说法,CONARC和ABBYY迅速给予了支持。“他们作出了非常积极的反应。ABBYY甚至开发了特殊的一次性版本,以解决我们的问题。”
最初,CMD购买了72核的ABBYY Recognition Server许可证——通过单一的服务器协调管理所有的分布式CPU处理。按照Mykulowycz的说法,结果“符合预期”。但不到1年,该公司决定为先前未转化的材料创建历史档案。正如Ben Holton所说,“这需要大大完善资源。此外,建筑行业的反弹意味着,我们终需使用这些资源来满足当前的建筑需求,还需要进行大幅扩展。”
根据Mykulowycz的说法,新项目需要将一年半的历史数据转换为可搜索的PDF文件,这是一项艰巨的任务:“要处理3500多万页资料,同时要保证我们当前的生产负荷所要求的自动化OCR精度。”
为了完成历史数据的转换任务,CMD又购买了一个88核许可证,并专门用于该项目。转换任务如期完成;此时又出现了两个此前未考虑到的因素:“我们的业务是季节性的,”Mykulowycz解释说,“从二月到六月,我们都非常繁忙。我们目前的文档处理任务大多发生在这一时期。加上建筑行业回暖,待处理数据将日益增多,这意味着目前的配置不能实现我们所需的高处理量。”
为了处理日益增多的图纸和说明书等文档,CMD将目前所有核心许可证集合到单个主机之下,从而获得了专门用于当前生产的解决方案。这个解决方案仅包含一个系统,该系统采用多个服务器,共包含156个联网内核。Mykulowycz证实说:“事实证明,利用单个服务管理器来处理所有项目工作的做法是成功的。”
在实施CMD基于ABBYY Recognition Server的解决方案7个月之后,公司完成了上述存档转换项目,主生产系统的处理能力也提升了。“目前,该系统处理文件的速度较以前快得多,”Mykulowycz说,“我们的文档转换流程已实现高度自动化,将人工干预降到最低程度。另一个好处是,ABBYY Recognition Server提供了单词在页面中的坐标位置。当我们搜索文字时,找到的文字周围会出现红色框——这为用户凸显了搜索结果。”
正如Dan DuBois 证实的那样,ABBYY Recognition Server帮助CMD实现了长期目标:“ABBYY对于我们实现产品愿景和蓝图,无疑起到了重要作用。无论是在为客户提供可搜索文件的能力方面,还是实现文档自动化内部处理方面,都是如此。”
建设管理数据(CMD)是北美的建筑信息领先供应商。CMD的多元化创新产品和服务组合包括:国家、区域和地方项目线索;营销解决方案;以及为美国和加拿大建筑专业人士提供深度洞察的市场情报。
产品
开发者工具
© 2025 ABBYY。所有的权利都得到保障
本网站使用cookies
我们使用 cookie 来创建相关内容和广告, 提供社交媒体功能并分析我们的流量。我们还分享以下信息 您与我们的社交媒体、广告和分析合作伙伴一起使用我们的网站,他们可能会 将其与您提供给他们或他们收集的其他信息结合起来 从您使用他们的服务.
本网站使用cookies
我们使用 cookie 来创建相关内容并 广告,提供社交媒体功能并分析我们的流量。我们还分享 有关您通过我们的社交媒体、广告和分析使用我们网站的信息 合作伙伴可能会将其与您提供给他们的其他信息或 他们从您使用他们的服务中收集的信息.
我们使用这些 cookie 来 分析和评估您的行为和偏好,以更好地了解您的 兴趣,创建营销材料和产品广告。当您访问时 我们的网站或阅读我们的电子邮件,我们会计算您在设备上执行的操作。
Cookie consent
Stores user cookie consent status for the current domain
最长储存时间: 1 年
类别 :HTTP Cookies
_cfuvid [x2]
This cookie is a part of the services provided by Cloudflare - Including load-balancing, deliverance of website content and serving DNS connection for website operators.
最大存储时长:: 临时
类别 : HTTP Cookies
XSRF-TOKEN
Ensures visitor browsing-security preventing by cross-site request forgery. This cookie is essential for the security of the website and visitor.
最大存储时长 :临时
类别 : HTTP Cookies
_noRedirectOffer
待定
最大存储时长:7 天
类别 : HTTP Cookies
Cookies-policy
Remember what cookies you consent to use
最大存储时长 :30 天
类别 : HTTP Cookies
mktoFormSent
Remembers that user filled out request form
最大存储时长 : 7 天
类别 : HTTP Cookies
__cf_bm [x3]
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长: 1 天
类别 : HTTP Cookies
_grecaptcha
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 永久
永久 : HTML 本地存储
rc::a
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 永久
类别 : HTML 本地存储
rc::brc::b
This cookie is used to distinguish between humans and bots.
最大存储时长 : 临时
类别 : HTML 本地存储
rc::c
This cookie is used to distinguish between humans and bots.
最大存储时长: 临时
类别 : HTML 本地存储
_GRECAPTCHA
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 180 天
类别 : HTTP Cookies
These cookies allow us to make our website more user friendly, for example, if you visit abbyy.com from the UK , we can show you the UK area of abbyy.com the next time you visit.
yt/youkuplayer.fdl.playerckey
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: :临时
类别 : 像素追踪器
yt/youkuplayer.fdl.ykplayer_process
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: 临时
类别 : 像素追踪器
YK_PSL_SETTINGS
Used to save information about the visitor's video settings.
最大存储时长: 永久
类别 : HTML 本地存储
We use these cookies to measure the statistics and performance of the website. If you do not agree to the use of these cookies, we will not be able to measure the performance of the website and make improvements.
atpsida
Registers a unique ID that identifies the user's device during return visits. Used for conversion tracking and to measure the efficacy of online ads.
最大存储时长: 临时
类别 : HTTP Cookies
sca
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_ga
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 2 年
类别 : HTTP Cookies
_ga_#
Used by Google Analytics to collect data on the number of times a user has visited the website as well as dates for the first and most recent visit.
最大存储时长: 2 年
类别 : HTTP Cookies
_gat
Used by Google Analytics to throttle request rate
最大存储时长: 1 天
类别 : HTTP Cookies
_gid
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 1 天
类别 : HTTP Cookies
APLUS_LS_KEY
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
APLUS_CNA
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
x5secdata
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 1 天
类别 : HTTP Cookies
cna [x2]
Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
最大存储时长:1 年
类别 : HTTP Cookies
__utmz
Collects data on where the user came from, what search engine was used, what link was clicked and what search term was used. Used by Google Analytics.
最大存储时长: 180 天
类别 : HTTP Cookies
We use these cookies to analyze and evaluate your behavior and preferences to better understand your interests, create marketing materials and product advertisements. When you visit our website or read our emails, we count the actions you take on your device.
tfstk [x2]
Necessary for the implementation of video-content on the website.
最大存储时长 180 天
类别 : HTTP Cookies
isg
Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
最大存储时长: 180 天
类别 : HTTP Cookies
Hm_ck_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 1 年
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 临时
类别 : HTML 本地存储
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 永久
类别 : HTML 本地存储
Hm_unsent_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTML 本地存储
HMACCOUNT [x2]
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 4824 天
类别 : HTTP Cookies
HMACCOUNT_BFESS
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 400 天
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_gcl_au
Used by Google AdSense for experimenting with advertisement efficiency across websites using their services.
最大存储时长: 3 月
类别 : HTTP Cookies
IDE
Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
最大存储时长: 400 天
类别 : HTTP Cookies
test_cookie
Used to check if the user's browser supports cookies
最大存储时长:1 天
类别 : HTTP Cookies
pagead/1p-user-list/#
Tracks if the user has shown interest in specific products or events across multiple websites and detects how the user navigates between sites. This is used for measurement of advertisement efforts and facilitates payment of referral-fees between websites.
最大存储时长: 临时
类别 : 像素追踪器
xlly_s
Collects data on visitor interaction with the website's video-content. This data is used to make the website's video-content more relevant towards the visitor.
最大存储时长: 3 天
类别 : HTTP Cookies
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 天
类别 : HTTP Cookies
YSC
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 临时
类别 : HTTP Cookies
auyst
Necessary for the implementation of video-content on the website.
最大存储时长 : 永久
类别 : HTML 本地存储
yt/youkuplayer.fdl.h5send
Required for the embedded media player to operate.
最大存储时长: 临时
类别 : 像素追踪器
__arpvid [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ayft [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__aypstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__ayscnt [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__aysid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__ayspstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__aysvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 2 天
类别 : HTTP Cookies
__ayvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ysuid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 1 年
类别 : HTTP Cookies
YK_PSL_RECORDS
Necessary for the implementation of video-content on the website.
最大存储时长: 永久
类别 : HTML 本地存储
rc::f
This cookie is used to distinguish between humans and bots.
最大存储时长 : 永久
类别 : HTML 本地存储
Uncategorized cookies are cookies that we are categorizing with individual cookie providers.
_visits
To be 待定
最大存储时长 : 1 天
类别 : HTTP Cookies
HMACCOUNT
待定
最大存储时长: 临时
类别 : HTML 本地存储
ts
待定
最大存储时长: 临时
类别 : 像素追踪器
x5sectag
待定
最大存储时长 : 1 天
类别 : HTTP Cookies
APLUS_S_CORE_1.0.1_20240910171434_7d560148
待定
最大存储时长 : 永久
类别 : HTML 本地存储
ETLCD
待定
最大存储时长: 永久
类别 : HTML 本地存储
syfhs
待定
最大存储时长: 永久
类别 : HTML 本地存储
web_behavior_time
待定
最大存储时长 : 永久
类别 : HTML 本地存储
yt/vp.vdoview
待定
最大存储时长 : 临时
类别 : 像素追踪器
HideModalFC
待定
最大存储时长:3 天
类别 : HTTP Cookies
HideModalFCE
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCI
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCILP
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFRE
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalFRS
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalTL
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalVant
待定
最大存储时长: 3 天
类别 : HTTP Cookies
IpDetection
待定
最大存储时长: 7 天
类别 : HTTP Cookies
viewCount
待定
最大存储时长: 1 年
类别 : HTTP Cookies
Cookie 是小文本文件, 网站用于使使用我们的用户体验更加高效。该网站使用 各种不同类别的 cookie。有些cookie是由第三方放置的 我们网站上显示的服务。
您可以更改或撤回您的同意 随时从我们网站的 Cookie 声明中获取。
详细了解我们是谁、如何 联系我们以及我们的隐私政策如何处理个人数据.