当前位置 > 火狐浏览器> 正文

火狐浏览器插件 数据处理,不可不知的常用工具 | NICAR 2016

2023-09-02 15:01:02 火狐浏览器 / 表格 / 网页 / 数据 / 插件 / 索取 /

网页和PDF中的数据采集是一个令人头疼的问题; 更不用说数据清理了。 大多数情况下,我们做数据可视化的人很难得到最干净、最全面、“现成”的数据。 我们需要在网页上“挖掘”它火狐浏览器插件,然后去另一个平台“清理”它。 下面对此进行介绍。 NICAR中提到的一些常用工具。

1.从网页获取数据-非编程方式

A、网络

Web是浏览器的一个用于网页数据检索的插件。 用户可以创建自己的数据捕获计划并命令它检索您需要的数据。 最终数据可以导出为 csv 文件。

B..io

.io是一款免费的桌面应用程序,可以帮助用户从大量网页中抓取所需的数据。 它将每个网页视为可以生成API的数据源。

C. HTML 表格插件

A)。 插件

b). 插件

D. 全部打倒

另一个浏览器插件,用于从网络下载文件,它包括一些相对简单的过滤功能。 例如,用户可以选择仅下载名称中包含“”的 xls 文件或 zip 存档 (**.zip)。

E.WGET

使用命令行检索数据的更传统但有用的方法。 例如,如果用户想要从网站请求省份信息,并且每个州都有统一格式的URL,例如and,用户可以使用包含所有这些URL的exl表并将其保存为文本文件,以便wget可以使用-ilist。 txt获取所有身份信息。

F. XML 的奇迹

很多情况下,网页的数据都是以xml的形式结构化的。 本教程可以帮助用户探索网页中潜在的数据结构,并弄清楚网页的代码源是如何组织的。

2.获取PDF中的数据

有一种很常见的情况。 当您尝试从PDF文件中复制粘贴某些数据时,您会发现复制的内容是一堆乱码,或者您发现它不是可复制的文本。 在这种情况下,您可以使用特殊的工具软件或以编程方式访问数据。

A、免费软件

A)。 它是从 PDF 中抓取表格数据的最简单、最有效的工具。 用户可以直接访问该网站,上传文件,选择输出文件类型,然后输入您的电子邮件地址。

火狐浏览器插件_插件火狐浏览器怎么用_插件火狐浏览器怎么下载

缺点:无法免费处理图片,需要订购OCR服务。

b). 它是一款免费软件,您可以直接下载并安装在您的计算机上。 它可以帮助您导入 PDF 文件并输出表单的单份副本。 导入相应的PDF文件后,您需要手动框出所需的表格并尝试在保留行和列的情况下转换数据。

缺点:无法实现光学字符识别。 它不如下面列出的商业程序准确。 比如它获取的行边距和列边距不是很准确,需要手动调整。

B、付款流程:

A)。 同样,您可以根据需要构建表格,但如果您猜错了

启航文库

,您可以轻松调整其范围。 更好的是,它具有光学字符识别版本,因此甚至可以识别图片。

插件火狐浏览器怎么下载_插件火狐浏览器怎么用_火狐浏览器插件

b). 是纽约时报图形部门最喜欢的程序,具有非常相似的界面和用法。

火狐浏览器插件_插件火狐浏览器怎么用_插件火狐浏览器怎么下载

缺点:大多数时候表现良好,但其调试系统不太好。

C)。 ABBY参考教程:

d). Adobe专业版

e). 它是这个系列中的明星软件,但是价格昂贵。 如果您正在从事长期项目并且正在从难以转换的表单获取数据,则强烈建议您这样做。 在转换报表中的数据时非常出色火狐浏览器插件,用户可以主动设计输出表格的形式。

3. 清理数据-开放

Open 是一个强大的数据清理工具。 典型的用例是当您拥有个人姓名和公司名称格式不一致的数据时。 开放是一个不错的选择。 在 NICAR 会议上,《纽约时报》数据库项目编辑、Kaas & 创始人兼首席执行官 Nils 用自己的教程解释了 Open。

教程:

辅助数据:

版权保护: 本文由 浏览器之家-浏览器下载,浏览器插件,浏览器教程 原创,转载请保留链接: /Firefox/8422.html

猜你喜欢