联邦搜索爬虫需要以包含内容的HTML元素为目标

安德鲁·弗莱明

2022年8月4日08:27
编辑

功能请求摘要:

联邦搜索爬虫的配置选项应该包含一种方法，以包含要索引的内容的HTML元素为目标。

描述/用例:

我希望爬虫只抓取我的外部内容的主要内容。

限制或缺少功能对业务的影响:

目前，该爬虫似乎会抓取在外部源上找到的文本的前一万个字符。在我们的例子中，我们的页眉和导航包含超过10,000个字符，所以抓取的结果是170个完全相同内容的页面。

这使得爬行功能无法使用，我们需要使用API构建一个集成来使用该功能。

0评论

请登录留下评论。

由Zendesk提供支亚博持