如何面对海量数据筛选和分析

作为一个每天都会处理各种专利数据分析的专业公司，我们经常遇到的问题是如何整理海量的充满各种错误的专利数据，今天我们将和大家一起分享一下我们的点滴工作经验，关于如何获取高质量的数据来进行可靠的分析。

“干净”的数据是前提

我们经常在专利原始数据中看到非常明显的错误，当下的主流数据库已经涵盖超过一百个国家和地区的专利数据，其中的错误也随不断增加的数据而显著增加。正因为这样，我们才必须直接使用原始数据，而避免依赖任何分析软件，没有经历人力分析，直接依靠原始数据自动生成的分析是缺乏可信度的。

例如，大多数的专利分析需要考虑专利权人信息，对某个公司的专利库的调查，或者对几个竞争对手的专利做全景调查，等等。然而，不规范的专利权人信息是对海量数据分析项目的最大挑战。比如：[list=disc][li]名称使用不恰当的缩写，例如：Minnesota Mining & MFG[/li][li]拼写错误，例如：Minnesoda Mining& Manufacturing[/li][li]不同的译名，例如：Tsinghua University vs. Qinghua University.[/li]
在专利检索中，我们可以用相应设置来解决这个问题（参见该主题文章)。但是当涉及到数据的筛选和标准化，计算机可能需要一些辅助才能工作。我们可以选择使用蛮力来进行数据筛选，但是更聪明的办法是将数据从商业数据库内导出到本地文件。大多数的商业数据库都能支持用表单格式导出数据，比如csv格式。然后在本地系统上对数据进行操作可以避开商业数据库上的诸多限制。

可以使用诸如VantagePoint之类的数据清理产品，将csv数据导入后，这些产品能运用模糊逻辑过滤的计算方式，建议一组可能的名称匹配，让分析人员做最后选择。
不过，如果你手头没有堪用的数据筛选软件，MSExcel也是个不错的初学者工具，Excel包含的 Text-to-Columns, Filters, 以及PivotTables等功能，如果使用得当，也能起到一定的辅助作用。比如，使用Text-to-Columns功能，一个专利号列US6666666A可以轻松变成:
US6666666A
↓

Country Code	Publication Number	Kind Code
US	6666666		A

类似地，该功能还可以用于处理一个专利的多个权利人：

根据项目需求，分析员可能需要单独统计专利权人，如果我们把这些名字分开，就能大大方便统计。

Publication Number	Assignee
JP19920140811	NAT RESEARCH INST FOR METALS T ;FUJI ELECTRIC CO LTD ; CHUBU ELECTRIC POWER ;

↓

Publication Number	Assignee	Assignee 2	Assignee 3
JP19920140811	NAT RESEARCH INST FOR METALS T	FUJI ELECTRIC CO LTD	CHUBU ELECTRIC POWER

结论
源数据的独特性在于它不能被轻易地转成清晰准确的数据，因此专利分析人员必须避免使用“黑匣子”类的检索工具，虽然轻轻一按就能得到漂亮的图案，但其源数据的不准确性会令大量有用的数据被排除到分析之外，影响最终结论。

[检索/软件] 如何面对海量数据筛选和分析

浏览过的版块

社区居民

博派达人

楼主热帖