人工智能在专利分析中的应用
垃圾进,垃圾出 – 数据质量的关键作用
“生成式人工智能是有史以来最强大的创造力工具。它有潜力开启人类创新的新纪元。” – 埃隆·马斯克
想要理解涉及生成式人工智能(GenAI)的炒作(hype)并不难。与计算机对话,还有什么比这更简单或更明显的技术发展下一阶段呢?但炒作的问题,正如这个词所暗示的,通常是它会将人们对于 GenAI 的期望提高到超出实际交付或体验的程度。用 Gartner公司创造的术语来说,这往往会紧接着进入“幻灭的低谷(Trough of Disillusionment)”。
为了帮助人们缓解这种人工智能过山车可能带来的不适感,重要的是要理解在知识产权行业内成功开发和部署人工智能系统的基本构建模块。这一切都始于数据和数据质量。
训练数据在人工智能开发中的重要性
所有利用人工智能的应用都取决于输入数据的质量。用于训练的数据不佳必然导致输出结果不理想,这一点是显而易见的,但困难的是如何将这一基本规则应用到现在随处可见的人工智能解决方案中。以常见的机器翻译为例,输入一种语言的源文本,输出另一种语言的目标文本。现有的许多不同算法在质量上存在很大差异。其中一些差异可归因于算法的训练方式(和时间),而另一些差异则取决于所采用的技术。本文通过对比微软和谷歌的翻译算法,并比较了多个维度。记分板很长,而且取决于具体情况。例如,您是否需要它响应语音输入,或者您是否需要定制它?
在尝试将这些内容应用于知识产权之前,让我们先来谈谈人工智能技术。人工智能的发展可以追溯到图灵(1950 年)或更早。它有多种类型,包括无监督和有监督机器学习,以及现在的 GenAI。即使我们只关注 GenAI,也有许多大型语言模型(LLM)可供选择,而且它们的能力也大不相同。例如,在 Statista 2023 年的一项排名中,Claude 3 Opus(Anthropic)在解决数学问题的能力方面得分 60.1%,而 Gemini Pro(谷歌)得分 32.6%(改进后的 Gemini 1.5 Pro 得分 58.5%)。然而,如果您要解决的问题不涉及数字,这些对您来说都不重要。
为您的问题选择正确的人工智能方法
那么,当马斯克提出 GenAI 有可能开启人类创新的新时代时,这对知识产权行业意味着什么?答案是多方面的。对于研发团队的核心创新人员来说,它可能会加速项目进程或激发新的研究方向。对于专利专业人员来说,它可以实现专利撰写的自动化,或减少专利审查员处理专利申请的负担。
过去十年来,LexisNexis 知识产权解决方案一直专注于一系列非常具体的战略问题,这些问题直指与专利权相关的风险和价值的核心。这些问题包括:
- 从数量到质量的转变。
- 针对颠覆性技术的竞争情报和对标分析
- 在 NPE 活动增加和地缘政治发生重大变化时进行风险管理。
- 利用专利技术与联合国可持续发展目标的映射,证明对可持续技术的投资。世界知识产权组织最近发布了《绘制创新图景:专利与可持续发展目标》报告表明了这一数据的重要性。
- 为电信领域标准必要专利(SEP)许可促进基于证据的财务结果。
这一概述对知识产权广泛而多样的机遇并不公平。但是,这就是我们需要面对的挑战,因为这又回到了炒作的问题上。每个人都在呼吁更多的人工智能,而他们所想的是更高的效率。对于知识产权专业人士来说,这意味着大家希望获得的解决方案要比现在采用的方法更好、更快、更便宜(即所谓的铁三角)。在人工智能的世界里,铁三角有了新的维度,比如信任和透明度。
数据质量
要解决这些难题,就必须回归基础。我们可以用专利分析作为例子。尽管听起来令人难以置信,但专利的数字化检索能力始于 1998 年的 Delphion。到 2006 年随着谷歌专利的推出,专利数据已无处不在,并被认为是科学信息的重要来源。如今,已有数十种专有专利数据产品,如果将各国专利局(如美国专利商标局)和国际专利局(如欧洲专利局的 Espacenet)提供的服务也包括在内,那么专利数据相关产品的数量将翻几番。
选择正确的专利分析来源意味着要专注于重要的事情:
- 准确性:专利数据杂乱无章,虽然从各国专利局获取公共数据可能是免费的,但这些数据往往并不干净。最常见的问题是专利所有权的不透明,即没有尝试将同一集团成员所拥有的专利集中在一起。如果无法将某项专利归属于其当前所有者,那么一切都将化为乌有。
- 完整性:其中一个重要方面是专利家族的概念,即在多个司法管辖区申请的与同一发明有关的专利被视为一项发明。另一个重要方面是全球覆盖范围。
- 可访问性:最初仅有参与建立专利组合的专家对专利分析感兴趣。如今,非知识产权团队也有这方面的需求,速度和易用性变得更为重要。
随着专利数据的重要性与日俱增,人们越来越清楚地认识到,光有专利数据往往是不够的。让我们回过头来看专利分析的一些战略用例:
- 质量: 许多领先的专利评分算法,如专利资产指数(Patent Asset Index),都依赖于引用数据和国民总收入 (GNI) 数据,以调整不同经济规模国家的专利权的相对重要性。
- 风险:专利诉讼是专利风险的良好指标,需要对这些数据进行整合和调整。
- 技术:企业从技术趋势的角度思考问题,因此从这一角度分析专利的能力至关重要。
- SEP :虽然有声明 SEP 的专利数据库,但可以通过与相关标准的映射来增强这些数据。
总的来说,虽然人工智能很重要,但起点在于“为什么”。如果您知道自己想要解决的问题,那么这将成为您获得所需数据的指南。在专利领域,并非所有数据都是一样的。即使在面对表面上相同的数据集时,也需要注重数据的质量。如果您使用的是不完整或不准确的数据集,那么人工智能将无能为力。在专利分析的世界里,“输入垃圾”永远只有一种结果。无论您是手动审查数据,还是使用最新的 GenAI,结果并不会有任何区别。
关于作者
Nigel Swycher 是 LexisNexis 知识产权解决方案的战略顾问。他是领先的人工智能分类平台 Cipher 的联合创始人,该平台于 2023 年被 LexisNexis 知识产权解决方案收购。Nigel 长期从事法律工作,曾在著名律师事务所 Slaughter and May 领导知识产权业务。他多年来一直被 IAM 300 评为知识产权战略领域的领军人物,是 LexisNexis Evolving IP 播客系列的主持人,在此之前,他还是屡获殊荣的 Cipher Vision 播客的主持人。