技术QQ/微信:565859400
速上地图采集-美团数据采集-谷歌地图采集器-美团饿了么外卖采集器
当前位置:网站首页 > 技术分享 正文 技术分享

美团商户数据采集技术分享

sushang.tech 2021-04-28 10:39:13 技术分享 2335 ℃ 1 评论

美团商户数据采集工具介绍


一、现在的大多数动态网站,都是由浏览器端通过js发起ajax请求,拿到数据后再渲染完成页面展示。


二、这种情况下采集数据,通过脚本发起http的get请求,拿到DOM文档页面后再解析提取有用数据的方法是行不通的。


三、然后又有人会想到通过F12打开浏览器控制台分析服务端api,再模拟请求相应的api来拿到我们想要的数据,这种思路在一些情况下可行,但是很多大型网站都会采取一些反爬策略,出于安全性考虑,往往对接口增加了安全验证,比如只有设置了相关的header和cookie,才能对页面进行请求;还有的对请求来源也做了限制等等,这个时候通过这种方式采集数据就更加困难了。


四、我们还有其他有效的方法吗?当然,python做爬虫非常的简单,我们先来了解一下Selenium和Selectors,然后通过爬取美团网上商家信息的例子总结一下数据采集的一些技巧:


  • Selenium 是一个开源测试框架,用来对web应用(比如网站)做自动化测试用的,因为它可以驱动浏览器,诸如Chrome,Firefox,IE等,所以可以较为真实的模拟人自动去点击网站的各个按钮,翻页,填写表单等,我们使用python驱动Selenium的webdriver,可以驱动浏览器,直接拿到的就是渲染好的DOM文档,大量节省了时间。


  • Selectors是Scrapy(Python的一套爬虫框架)提取数据的一套机制。被称作选择器,可以通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分。用它来分析提取DOM文档有效数据非常的方便。并且XPath是W3C标准,所以使用Selectors提取数据的方法是通用的。

美团商户数据采集技术分享  美团商家 美团采集 第1张

我们要抓取的第一部分数据是商家的基本信息,包括商家名称、地址、电话、营业时间,分析多个美食类商家我们可知,这些商家的web界面在布局上基本是一致的,所以我们的爬虫可以写的比较通用。为了防止对商家数据的重复抓取,我们将商家的网址信息也存储到数据表中。

微信号:565859400
添加上方QQ技术, 在线咨询
复制微信号

本文标签:美团商家美团采集

版权说明:如非注明,本站文章均为 速上地图采集软件 原创,转载请注明出处和附带本文链接

已有1位网友发表了看法:

  • 百合

    百合  评论于 [2022-12-16 13:22:33]  回复ta

    这两天我购买一下!!

欢迎 发表评论:

技术分享
搜索
«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
标签列表
网站收藏
友情链接
  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合
Copyright © 2016-2021 www.sushang.tech 速上数据. Powered By Z-Blog,Some Rights Reserved.
网站地图   网站XML