对公司和企业而言,随着人工智能(AI)技术逐渐融入生产和服务的各个方面,现在是时候考虑该如何利用这项技术分析其庞大的商业数据,以驱动业务的增长。我们与 ABBYY 公司的人工智能技术推广者 Ivan P. Yamshchikov 博士进行了访谈,探讨人工智能系统训练过程中的机遇与挑战,以及它们对商业成果的影响。
Q:为什么训练AI系统很重要?
IY:AI 系统在人们生活的各个方面都变得愈加重要。例如,AI 算法能辅助钢铁制造业,在降低生产成本的同时也更加环保安全。基于 AI 的语音识别技术,可以让司机在驾驶时不必分心看屏幕。同时,索搜引擎也要借助 AI,否则很难通过其他技术有效处理网络上的海量数据。ABBYY 专门开发了基于 AI 的解决方案,用于优化业务流程。我们开发的 AI 有助于减少官僚化,节省人们花在文档处理上的时间,使员工的工作更有成效也更快乐。可以说,大多数时候办公室职员会“厌倦工作”,正是因为他们要在重复性的文档工作上耗费大量时间和精力。而我们可以利用 AI 最大程度的减少这些工作。
Q:训练机器学习系统是否需要掌握编程的知识?
IY:这取决于你如何定义“训练”。事实上,设计一个机器学习系统需要运用数学知识,而且为了正确的实现模型还要掌握编程的技能。但机器学习的魅力正在于一旦系统建立并开始运行,它就能自己学习。对于一个设计合理的 AI 系统来说,即使普通用户也可以训练 AI 算法。如果 AI 系统出现了错误,而用户能通过某些反馈机制人为修正错误,这就是在训练 AI。
Q:哪些种类的数据对训练 AI 最有用?
IY:AI 的训练算法可以分为两大类:监督算法和非监督算法,前者使用标签,而后者则不必。例如,聚合分类算法就是非监督算法族中的典型例子。比方说你有多种类别的文档,每种类别对应不同的页面布局,如发票或账单。通过机器视觉技术,ABBYY FlexiCapture 能自动将这些不同的文档分类并排序。由于不同种类的文档有着不同的页面布局,就可以使用非监督算法,而不需要人工添加标签。但是,对于商业欺诈的自动识别或合规合同的分析等任务,则需要借助一个手工标记的示例数据集来训练你的 AI 系统。
Q:某些数据集是否会比其他的更容易标记?
IY:有很多影响因素发挥作用。通常标记一个数据集所需的人类专业知识水平越高,那么标记工作的难度就越大,成本也更高。举例来说,假如你有 1 Gb 的猫和狗的图片要手工添加分类标签,这是很容易的。但如果换成是 1 Gb 的日本漫画,要将所有文字中包含形容词的图片标记出来则会相当困难。
Q:数据分类(如 FlexiCapture 中的)和“数据标签”或“数据标记”是一样的么?
IY:某种意义上讲,它们是相同的。但是通常我们在谈到人工分类时使用标签或标记,而对于自动化的工作则使用聚合或分类。
Q:训练机器学习系统是否需要使用大量的数据集?
IY:在 AI 模型训练的最开始,你需要提供数据,但这并不意味着你需要为基于 AI 的产品提供大量训练数据。例如在 ABBYY, 我们提供了一个先进的 NLP 算法,在文档分析中有广泛的用途。为了开发这些算法,我们需要处理每种语言的海量语料库,以便用户能直接访问 NLP 系统,并将其应用于自己的数据集分析。我们的客户如果打算自己开发与 NLP 系统性能相同的技术,则要耗费数年的研发时间,并需要大量的数据支持。能够直接使用我们的技术对用户来说显然是一个福音,能够为他们免去大量的开发成本。
Q:ABBYY 有哪些技术依赖机器学习?
IY:我们现在的所有产品,都或多或少用到机器学习,但这并不意味这你需要事先拥有大量数据才能使用这些产品。比方说 FlexiCapture 利用卷积神经网络对文档进行预处理和分类,通常只需要提供几份文档样本就足以建立好流程并开始运行。我们的 NLP 技术能将一系列机器学习方法与每种语言的高级本体相结合,你并不需要事先提供大量的数据集,我们就能为你完成许多与自然语言处理相关的任务。所以,如果你在现在的业务流程中遇到任何文档处理方面的瓶颈,很可能 ABBYY 都有合适的产品可以帮助你简化和加速业务流程,同时也能让你的员工更加高效和热忱。
电子邮件订阅
您的订阅成功!
您已成功訂閱!
請檢查信箱並確認您的訂閱。若您在幾分鐘內都未看見電子郵件,請檢查垃圾郵件資料夾。