免费截图识别

训练高性能的人工智能

对公司和企业而言,随着人工智能(AI)技术逐渐融入生产和服务的各个方面,现在是时候考虑该如何利用这项技术分析其庞大的商业数据,以驱动业务的增长。我们与 ABBYY 公司的人工智能技术推广者 Ivan P. Yamshchikov 博士进行了访谈,探讨人工智能系统训练过程中的机遇与挑战,以及它们对商业成果的影响。


Q:为什么训练AI系统很重要?
IY:AI 系统在人们生活的各个方面都变得愈加重要。例如,AI 算法能辅助钢铁制造业,在降低生产成本的同时也更加环保安全。基于 AI 的语音识别技术,可以让司机在驾驶时不必分心看屏幕。同时,索搜引擎也要借助 AI,否则很难通过其他技术有效处理网络上的海量数据。ABBYY 专门开发了基于 AI 的解决方案,用于优化业务流程。我们开发的 AI 有助于减少官僚化,节省人们花在文档处理上的时间,使员工的工作更有成效也更快乐。可以说,大多数时候办公室职员会“厌倦工作”,正是因为他们要在重复性的文档工作上耗费大量时间和精力。而我们可以利用 AI 最大程度的减少这些工作。

Q:训练机器学习系统是否需要掌握编程的知识?
IY:这取决于你如何定义“训练”。事实上,设计一个机器学习系统需要运用数学知识,而且为了正确的实现模型还要掌握编程的技能。但机器学习的魅力正在于一旦系统建立并开始运行,它就能自己学习。对于一个设计合理的 AI 系统来说,即使普通用户也可以训练 AI 算法。如果 AI 系统出现了错误,而用户能通过某些反馈机制人为修正错误,这就是在训练 AI。

Q:哪些种类的数据对训练 AI 最有用?
IY:AI 的训练算法可以分为两大类:监督算法和非监督算法,前者使用标签,而后者则不必。例如,聚合分类算法就是非监督算法族中的典型例子。比方说你有多种类别的文档,每种类别对应不同的页面布局,如发票或账单。通过机器视觉技术,ABBYY FlexiCapture 能自动将这些不同的文档分类并排序。由于不同种类的文档有着不同的页面布局,就可以使用非监督算法,而不需要人工添加标签。但是,对于商业欺诈的自动识别或合规合同的分析等任务,则需要借助一个手工标记的示例数据集来训练你的 AI 系统。

Q:某些数据集是否会比其他的更容易标记?
IY:有很多影响因素发挥作用。通常标记一个数据集所需的人类专业知识水平越高,那么标记工作的难度就越大,成本也更高。举例来说,假如你有 1 Gb 的猫和狗的图片要手工添加分类标签,这是很容易的。但如果换成是 1 Gb 的日本漫画,要将所有文字中包含形容词的图片标记出来则会相当困难。

Q:数据分类(如 FlexiCapture 中的)和“数据标签”或“数据标记”是一样的么?
IY:某种意义上讲,它们是相同的。但是通常我们在谈到人工分类时使用标签或标记,而对于自动化的工作则使用聚合或分类。

Q:训练机器学习系统是否需要使用大量的数据集?
IY:在 AI 模型训练的最开始,你需要提供数据,但这并不意味着你需要为基于 AI 的产品提供大量训练数据。例如在 ABBYY, 我们提供了一个先进的 NLP 算法,在文档分析中有广泛的用途。为了开发这些算法,我们需要处理每种语言的海量语料库,以便用户能直接访问 NLP 系统,并将其应用于自己的数据集分析。我们的客户如果打算自己开发与 NLP 系统性能相同的技术,则要耗费数年的研发时间,并需要大量的数据支持。能够直接使用我们的技术对用户来说显然是一个福音,能够为他们免去大量的开发成本。

Q:ABBYY 有哪些技术依赖机器学习?
IY:我们现在的所有产品,都或多或少用到机器学习,但这并不意味这你需要事先拥有大量数据才能使用这些产品。比方说 FlexiCapture 利用卷积神经网络对文档进行预处理和分类,通常只需要提供几份文档样本就足以建立好流程并开始运行。我们的 NLP 技术能将一系列机器学习方法与每种语言的高级本体相结合,你并不需要事先提供大量的数据集,我们就能为你完成许多与自然语言处理相关的任务。所以,如果你在现在的业务流程中遇到任何文档处理方面的瓶颈,很可能 ABBYY 都有合适的产品可以帮助你简化和加速业务流程,同时也能让你的员工更加高效和热忱。

人工智能

电子邮件订阅

您的订阅成功!

我知道可以随时通过单击从ABBYY Solutions Ltd.或通过ABBYY数据主体访问权限表收到的任何电子邮件中的取消订阅链接来撤销我的同意。

您已成功訂閱!

請檢查信箱並確認您的訂閱。若您在幾分鐘內都未看見電子郵件,請檢查垃圾郵件資料夾。

联系我们