准确的OCR结果对于信息安全系统的发展至关重要。虽然我们的DjVu产品捆绑了第三方OCR引擎,但ABBYY FineReader展示出更高的准确度。此外,ABBYY FineReader Engine可以处理任何一种语言的文件,所以,ABBYY FineReader Engine非常适于集成到我们的DjVu解决方案之中。我们正在考虑扩大业务,利用ABBYY FineReader Engine来开发传真信息搜索解决方案。
Heungsik Choi,DjVu科技公司技术总监, 背景
由于信息是机构之中最宝贵的资源,机密数据丢失的风险已成为许多企业面对的关键问题。随着不同通信渠道(如IM、USB、移动电话)技术的迅速发展,被外界盗取的公司数据的风险显著增加。机构的机密数据或专有信息可以通过电子邮件、U盘、即时消息、网络邮件、新移动技术、HTTP和FTP链接,以及很多其他途径泄露出去。
随着越来越多的敏感数据被盗窃和误用,以及合规管理变得更加严格,重要公司的信息安全显得尤为重要。近年来,市场对透明度的要求日益增高,企业需要与客户、业务合作伙伴和供应商共享信息。因此,保护机密数据,使之不被恶意或意外地泄露出去,这已经成为当今各组织所面临的首要的安全挑战。应当指出的是,大规模的数据丢失案例,是由雇主疏忽和无意错误而导致的,并非是由故意盗窃引起的。
为了确保内容传送和管理的安全,人们发明了各种预防数据泄漏的技术工具(也称为防数据泄漏产品)。这些工具为机构提供了大量让人信服的优点,让人们更好地了解何为敏感信息,应该如何使用这些信息,以及如何防止这些数据流失。防数据泄漏产品通常部署于整个组织之内,以便识别和分类敏感数据,监控未经授权的数据披露,并采取适当的措施来防止数据泄露。
因此,当韩国的主要建筑公司“现代建筑”决定保护其敏感数据并引入数据安全系统的时候,它购买了出站内容管理解决方案。为了保护企业的信息安全,DjVu科技公司为之提供了完整的数据安全解决方案,并设计了数据分类方案和存储架构体系。
为了创建文档集中管理系统并简化业务流程,该项目在现代建筑公司内安装了大约50台多功能一体机。经过这些多功能硬件处理的企业信息被汇集到一起,因此可以全面监控网络上的所有机密数据。雇主可以追踪打印机和多功能一体机上的操作,通过维护安全信息系统,来阻止重要的宝贵信息被泄露出去。
DjVu科技有限公司是韩国的一家软件集成和分销公司,专门从事数字图像压缩、可扩展图像浏览,以及内容访问和管理安全业务。该公司负责实施数据泄露防护解决方案。为此,它为现代建筑公司设计了端到端的复杂解决方案,用来保护企业机密数字数据。
该项目旨在满足DjVu科技公司创建安全的内容传送和管理系统的需求,创建一个基于光学字符识别(OCR)技术的、强大的智能文档识别和数据采集系统。最后,公司选择使用多功能的软件开发工具包ABBYY FineReader Engine,它兼具了便捷的图像处理工具、文档布局分析、先进的转换和压缩功能,并能够生成优质的识别结果。DIOTEK有限公司是ABBYY在韩国的合作伙伴,也是嵌入式应用软件开发专家。它将OCR技术无缝集成到通用软件架构之中。
为确保信息安全系统稳健、高效,DjVu科技公司采用了以下机制:
l 系统架构存储机制,以存储扫描和复印的文件;
l 先进的成像技术结合强大的OCRtoolkit;
l 分类关键字监控;
l 对处理后的数据进行合并OCR搜索。
因此,该项目的主要目标是避免公司机密信息泄漏。它为公司带来了大量引人注目的好处,让用户更好地了解何为敏感信息,应该如何使用这些信息,以及如何防止它们流失。该项目以部署在整个企业中的多功能一体机为基础,将多功能一体机中集成了OCR技术,能够识别出所有的扫描和复印文件。为此,DIOTEK有限公司基于屡获殊荣的ABBYY FineReader Engine 为之提供了文档识别技术。ABBYY FineReader Engine 是一款功能强大的识别和转换软件技术开发工具包。
由于客户的特殊性,OCR软件必须满足大量要求,例如,它必须支持三种语言:英语、韩语和日语,而且必须能够识别不同的页面方向。
ABBYY FineReader Engine 非常适合这个项目,它提供了全面的OCR技术,支持上述三种语言,以及这些语言组成的多语言文件。它还提供了一系列的图像处理工具,如图像缩放和剪裁、创建预览、图像旋转、线拉直、镜像和反相等,可以改进图像质量,以便进行进一步的识别和归档。现代建筑公司需要处理大量的图片,而且这些图片的页面方向是未知的,有可能彼此不同,因此,系统必须能够自动检测页面方向(90、180和270度)。而ABBYY FineReader Engine 系统能够自动检测各页面的方向,并能够根据需要进行校正。
系统完成数字化处理及其他处理之后,将信息存储到集中的数据库,用户可以轻易地检索到这些信息。由于OCR结果非常准确,可以创建索引和监控(当特定的关键字被打印、扫描、传真、复印或发送出去时,系统会发送通知)。
在最后阶段,系统将所有的扫描图像和数字文档转换成DjVu®格式。这可以在保证图像质量的同时,尽量压缩文件大小,从而既能减少存储图像所需的空间,并使之更容易访问,又能不损害图像的完整性。
通过融合OCR、DjVu图像压缩等不同技术,实现最终解决方案——企业搜索引擎解决方案,项目取得了成功。整个项目实施花了3个月时间,先后包括以下几个阶段:
1)存储在统一数据库中。扫描或复印的所有文档图像都分别存储在不同的文件夹中,文件夹按照日期和时间命名。
2)辨识。系统辨识出新添加的图像,将它们拖拽到中央存储区,然后将它们转发给识别服务器,进行进一步处理。
3)文本识别。ABBYY FineReader Engine 安装在两台服务器上,通过进行全文识别,将数字文件转换成可搜索的可靠格式,并创建文件档案。它可以识别英语、中文和韩文,以及处理多语文件。
4)存储识别结果。系统将OCR结果存储为目标文件夹中的文本文件。
5)索引。搜索引擎监控OCR目标文件夹,查看是否有新的文本文件,并开始建立索引。
6)DjVu压缩。DjVu图像服务器将原始图像文件压缩并存储起来,以进行存档。
现代建筑公司首次引入基于OCR技术的文档泄露保护系统以后,违反信息安全的情况大大减少,公司也创建了统一的企业存储系统。
ABBYY FineReader Engine 提供了最优质的文件识别功能,由此,公司也可以监控嵌在图像中的数据信息——整个可打印文档都被纳入监控范围之内。
该系统最主要的好处是,减少了不必要的信息泄露所导致的经济损失。新的数据安全系统可防止员工泄露重要信息,减少文件复印量,并保护机密数据免遭滥用。
最后,DjVu科技公司开发了无可比拟的数据防护解决方案,为客户提供了合规的强化安全系统。
公司成立于1996年,十多年来,公司一直致力于开发高倍图像压缩和高速数字内容发布技术。公司专门研究扫描图像和数字文档管理,以及照片图像压缩、发布和安全
DIOTEK有限公司是领先的移动电话和嵌入式设备专用移动软件解决方案开发商。公司开发手写识别、移动词典软件、OCR解决方案,以及移动照片编辑软件等软件解决方案。公司还提供了手机条码软件和数字墨水解决方案。
产品
开发者工具
© 2025 ABBYY。所有的权利都得到保障
本网站使用cookies
我们使用 cookie 来创建相关内容和广告, 提供社交媒体功能并分析我们的流量。我们还分享以下信息 您与我们的社交媒体、广告和分析合作伙伴一起使用我们的网站,他们可能会 将其与您提供给他们或他们收集的其他信息结合起来 从您使用他们的服务.
本网站使用cookies
我们使用 cookie 来创建相关内容并 广告,提供社交媒体功能并分析我们的流量。我们还分享 有关您通过我们的社交媒体、广告和分析使用我们网站的信息 合作伙伴可能会将其与您提供给他们的其他信息或 他们从您使用他们的服务中收集的信息.
我们使用这些 cookie 来 分析和评估您的行为和偏好,以更好地了解您的 兴趣,创建营销材料和产品广告。当您访问时 我们的网站或阅读我们的电子邮件,我们会计算您在设备上执行的操作。
Cookie consent
Stores user cookie consent status for the current domain
最长储存时间: 1 年
类别 :HTTP Cookies
_cfuvid [x2]
This cookie is a part of the services provided by Cloudflare - Including load-balancing, deliverance of website content and serving DNS connection for website operators.
最大存储时长:: 临时
类别 : HTTP Cookies
XSRF-TOKEN
Ensures visitor browsing-security preventing by cross-site request forgery. This cookie is essential for the security of the website and visitor.
最大存储时长 :临时
类别 : HTTP Cookies
_noRedirectOffer
待定
最大存储时长:7 天
类别 : HTTP Cookies
Cookies-policy
Remember what cookies you consent to use
最大存储时长 :30 天
类别 : HTTP Cookies
mktoFormSent
Remembers that user filled out request form
最大存储时长 : 7 天
类别 : HTTP Cookies
__cf_bm [x3]
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长: 1 天
类别 : HTTP Cookies
_grecaptcha
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 永久
永久 : HTML 本地存储
rc::a
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 永久
类别 : HTML 本地存储
rc::brc::b
This cookie is used to distinguish between humans and bots.
最大存储时长 : 临时
类别 : HTML 本地存储
rc::c
This cookie is used to distinguish between humans and bots.
最大存储时长: 临时
类别 : HTML 本地存储
_GRECAPTCHA
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 180 天
类别 : HTTP Cookies
These cookies allow us to make our website more user friendly, for example, if you visit abbyy.com from the UK , we can show you the UK area of abbyy.com the next time you visit.
yt/youkuplayer.fdl.playerckey
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: :临时
类别 : 像素追踪器
yt/youkuplayer.fdl.ykplayer_process
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: 临时
类别 : 像素追踪器
YK_PSL_SETTINGS
Used to save information about the visitor's video settings.
最大存储时长: 永久
类别 : HTML 本地存储
We use these cookies to measure the statistics and performance of the website. If you do not agree to the use of these cookies, we will not be able to measure the performance of the website and make improvements.
atpsida
Registers a unique ID that identifies the user's device during return visits. Used for conversion tracking and to measure the efficacy of online ads.
最大存储时长: 临时
类别 : HTTP Cookies
sca
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_ga
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 2 年
类别 : HTTP Cookies
_ga_#
Used by Google Analytics to collect data on the number of times a user has visited the website as well as dates for the first and most recent visit.
最大存储时长: 2 年
类别 : HTTP Cookies
_gat
Used by Google Analytics to throttle request rate
最大存储时长: 1 天
类别 : HTTP Cookies
_gid
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 1 天
类别 : HTTP Cookies
APLUS_LS_KEY
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
APLUS_CNA
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
x5secdata
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 1 天
类别 : HTTP Cookies
cna [x2]
Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
最大存储时长:1 年
类别 : HTTP Cookies
__utmz
Collects data on where the user came from, what search engine was used, what link was clicked and what search term was used. Used by Google Analytics.
最大存储时长: 180 天
类别 : HTTP Cookies
We use these cookies to analyze and evaluate your behavior and preferences to better understand your interests, create marketing materials and product advertisements. When you visit our website or read our emails, we count the actions you take on your device.
tfstk [x2]
Necessary for the implementation of video-content on the website.
最大存储时长 180 天
类别 : HTTP Cookies
isg
Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
最大存储时长: 180 天
类别 : HTTP Cookies
Hm_ck_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 1 年
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 临时
类别 : HTML 本地存储
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 永久
类别 : HTML 本地存储
Hm_unsent_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTML 本地存储
HMACCOUNT [x2]
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 4824 天
类别 : HTTP Cookies
HMACCOUNT_BFESS
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 400 天
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_gcl_au
Used by Google AdSense for experimenting with advertisement efficiency across websites using their services.
最大存储时长: 3 月
类别 : HTTP Cookies
IDE
Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
最大存储时长: 400 天
类别 : HTTP Cookies
test_cookie
Used to check if the user's browser supports cookies
最大存储时长:1 天
类别 : HTTP Cookies
pagead/1p-user-list/#
Tracks if the user has shown interest in specific products or events across multiple websites and detects how the user navigates between sites. This is used for measurement of advertisement efforts and facilitates payment of referral-fees between websites.
最大存储时长: 临时
类别 : 像素追踪器
xlly_s
Collects data on visitor interaction with the website's video-content. This data is used to make the website's video-content more relevant towards the visitor.
最大存储时长: 3 天
类别 : HTTP Cookies
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 天
类别 : HTTP Cookies
YSC
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 临时
类别 : HTTP Cookies
auyst
Necessary for the implementation of video-content on the website.
最大存储时长 : 永久
类别 : HTML 本地存储
yt/youkuplayer.fdl.h5send
Required for the embedded media player to operate.
最大存储时长: 临时
类别 : 像素追踪器
__arpvid [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ayft [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__aypstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__ayscnt [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__aysid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__ayspstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__aysvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 2 天
类别 : HTTP Cookies
__ayvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ysuid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 1 年
类别 : HTTP Cookies
YK_PSL_RECORDS
Necessary for the implementation of video-content on the website.
最大存储时长: 永久
类别 : HTML 本地存储
rc::f
This cookie is used to distinguish between humans and bots.
最大存储时长 : 永久
类别 : HTML 本地存储
Uncategorized cookies are cookies that we are categorizing with individual cookie providers.
_visits
To be 待定
最大存储时长 : 1 天
类别 : HTTP Cookies
HMACCOUNT
待定
最大存储时长: 临时
类别 : HTML 本地存储
ts
待定
最大存储时长: 临时
类别 : 像素追踪器
x5sectag
待定
最大存储时长 : 1 天
类别 : HTTP Cookies
APLUS_S_CORE_1.0.1_20240910171434_7d560148
待定
最大存储时长 : 永久
类别 : HTML 本地存储
ETLCD
待定
最大存储时长: 永久
类别 : HTML 本地存储
syfhs
待定
最大存储时长: 永久
类别 : HTML 本地存储
web_behavior_time
待定
最大存储时长 : 永久
类别 : HTML 本地存储
yt/vp.vdoview
待定
最大存储时长 : 临时
类别 : 像素追踪器
HideModalFC
待定
最大存储时长:3 天
类别 : HTTP Cookies
HideModalFCE
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCI
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCILP
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFRE
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalFRS
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalTL
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalVant
待定
最大存储时长: 3 天
类别 : HTTP Cookies
IpDetection
待定
最大存储时长: 7 天
类别 : HTTP Cookies
viewCount
待定
最大存储时长: 1 年
类别 : HTTP Cookies
Cookie 是小文本文件, 网站用于使使用我们的用户体验更加高效。该网站使用 各种不同类别的 cookie。有些cookie是由第三方放置的 我们网站上显示的服务。
您可以更改或撤回您的同意 随时从我们网站的 Cookie 声明中获取。
详细了解我们是谁、如何 联系我们以及我们的隐私政策如何处理个人数据.