如何采集淘宝数据

2024-10-18 03:01:53

1、这里我们浅谈一下如何采集淘宝数据,我个人比较喜欢是使用熊猫采集软件,简单,方便,易懂,感兴趣的童鞋可以百度搜索熊猫采集,下载安装即可好,咱们不多说废话了,直接进入采集的步骤吧!

如何采集淘宝数据

3、输入我们要采集标题列表网址,我这里以采集淘宝上面的黄金做为范例,

如何采集淘宝数据

5、继续下一步设置:如果以前对熊猫操作的过的用户会发现,这时候我们选择内容页里面的方式1找不到我们像平时采集的页面链接,这是因为淘宝页面做了一些防采集措施。这时候我利用方式3 中介方式对列表页的源码中的网址进行抽取,如图:

如何采集淘宝数据

7、点击添加新模板,进入姗隗肆念采集内容页面,进去之后点击开始分析按钮,这个时候我们只要找到我们要采集的东西,勾选上即可。下面我们主要说明如何采集淘宝上面的枣娣空郅js加载的数据,如价格、月销量、累计评价。这些数据都是通过js加载出来,熊猫在分析这种页面的时候显示不出来数据,这时候我需要通过第三方软件,也就是抓包工具,找到我们要采集的这些数据真实存在的地方(目前大部分浏览器是自带抓包的,不是很明白看客可以百度查看一下抓包的说明)。这里我就利用浏览器抓包来获取我们要采集的部分数据了:右击浏览器空白地方会有一个审查元素。点击进入,如图:

如何采集淘宝数据

9、如在这个网站里面,评价是隐藏在http://dsr.rate.tmall.com/list_dsr_info.htm?itemId=39803304414(这个网址可以在上图抓包地方进行查找出来)这个网址栏中的。这时候我们到熊猫里面进行设置,随便选择一个空白的地方,勾选上利用中介(标签)方式添加新的链接指向,如图:

如何采集淘宝数据

11、说明:第一行的itemId={<_medi_>}&shopId 和上面说的中介方式一样,飧肇苡卫只是这时候我们看到是我们内容页的源码,用medi替换掉我们要的采集的id编号,为了就凑成我们要采集评论的那个网址。这时候我们点击添加按钮,会提示我们中介抽取的结果。然后我们勾选上该链接为指向下级子页面的(间接或直接)链接,如图

如何采集淘宝数据

13、勾选上采集即可。当然我们需要对这个结果进行一些简单的修缮,修缮规则如图

如何采集淘宝数据

15、点击分析该链接进入指向的页面:分析然后进行采集

如何采集淘宝数据

17、到此:天猫的模板部分js加载的数据我们就已经采集下来了。这个时候我们只需要添加一个淘宝的新模板,进行类似的操作,整个淘宝界面的设置就已经完成。最后:欢迎大家一起交流采集的心得。谢谢大家

猜你喜欢