欢迎访问本站!

首页头条正文

Google 推进将收集爬虫机器人范例标准化

7a57a5a743894a0e2021-01-17166

网站用来通知前来搜索内容的爬虫机械人什么地方能去,什么不能去的「Robot Exclusion Protocol」(REP)协议虽然早在 1994 年就由荷兰软体工程师 Martijn Koster 提出,并由大部份的网站与机械人所恪守,但实在 25 年来它都不是一个真正的「范例」,因此在各家的解析器(Parser)在解译时可能会有所误差,而且关于很多特别的状态都没有个明白的范例。

立法委员许毓仁:区块链的广泛使用,将使人性光辉更加放大

「区块链的广泛使用,将不只是帮助加密货币产业,更可以使人性光辉更加放大。」许毓仁今天在2019亚洲区块链高峰会(AsiaBlockchainSummit)上表示。 世界各国越来越重视区块链发展,台湾金

举例来讲,平常爬虫机械人都是去网站的根目录寻觅 robot.txt 文件,来相识网站关于爬虫机械人活动范围与频度的范例,但假如由于任何原因(比方伺服器停摆),使得底本找获得的 robot.txt 找不到了,这时候机械人应当视作无范例、照样照着末了一次读取的 robot.txt 内容举行?又或许,robot.txt 应当多久去检察一次?太频仍的话,会增添伺服器无谓的累赘,不够频仍的话,新的规格可能要良久才会反应在爬虫机械人上。这些都是在范例范例出来前很难划定的事项。

做为网路爬虫机械人的大本营的 Google,天然关于将这些事件范例化极为上心,除了将对 Internet Engineering Task Force 提出将 REP 协议范例化的提案以外,还加码把自家 Googlebot 机械人的 REP 解析器转为开放原始码,以让范例有一个架构的基本。固然,这并不是说 Google 的版本会一成不变地成为新范例,在制订的过程当中必将会有差别好处的折冲,但终究只需能有个范例出来,应当是能下降网站的保护本钱及来自机械爬虫的流量,对网站管理者来讲如何都是个好消息吧。

网友评论

1条评论
  • 2021-01-17 00:01:01

      2019年以来央行钱银政策始终坚持妥当。跟着近期实体经济数据表现出压力犹存,叠加国内钱银市场信用分层等要素,央行钱银政策保持妥当的同时,适度逆周期调治仍有必要。有创意