联邦搜索爬虫需要以包含内容的HTML元素为目标
功能请求摘要:
联邦搜索爬虫的配置选项应该包含一种方法,以包含要索引的内容的HTML元素为目标。
描述/用例:
我希望爬虫只抓取我的外部内容的主要内容。
限制或缺少功能对业务的影响:
目前,该爬虫似乎会抓取在外部源上找到的文本的前一万个字符。在我们的例子中,我们的页眉和导航包含超过10,000个字符,所以抓取的结果是170个完全相同内容的页面。
这使得爬行功能无法使用,我们需要使用API构建一个集成来使用该功能。
请登录留下评论。
联邦搜索爬虫的配置选项应该包含一种方法,以包含要索引的内容的HTML元素为目标。
我希望爬虫只抓取我的外部内容的主要内容。
目前,该爬虫似乎会抓取在外部源上找到的文本的前一万个字符。在我们的例子中,我们的页眉和导航包含超过10,000个字符,所以抓取的结果是170个完全相同内容的页面。
这使得爬行功能无法使用,我们需要使用API构建一个集成来使用该功能。
请登录留下评论。
0评论