<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>爬虫 on XieJava's blog</title><link>http://xiejava.ishareread.com/tags/%E7%88%AC%E8%99%AB/</link><description>Recent content in 爬虫 on XieJava's blog</description><generator>Hugo</generator><language>zh-CN</language><copyright>XieJava</copyright><lastBuildDate>Tue, 26 Mar 2024 10:33:23 +0000</lastBuildDate><atom:link href="http://xiejava.ishareread.com/tags/%E7%88%AC%E8%99%AB/index.xml" rel="self" type="application/rss+xml"/><item><title>Python爬虫如何快速入门</title><link>http://xiejava.ishareread.com/posts/ce59d1e6/</link><pubDate>Tue, 26 Mar 2024 10:33:23 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/ce59d1e6/</guid><description>&lt;p&gt;写了几篇网络爬虫的博文后，有网友留言问Python爬虫如何入门？今天就来了解一下什么是爬虫，如何快速的上手Python爬虫。&lt;/p&gt;
&lt;h2 id="一什么是网络爬虫"&gt;一、什么是网络爬虫&lt;/h2&gt;
&lt;p&gt;网络爬虫，英文名称为Web Crawler或Spider，是一种通过程序在互联网上自动获取信息的技术。它根据指定的规则，从互联网上下载网页、图片、视频等内容，并抽取其中的有用信息进行处理。简单来说，网络爬虫可以看作是在互联网上自动“爬行”的程序，它们从某个或某些初始网页开始，读取网页内容，找到其中的链接地址，然后通过这些链接地址寻找下一个网页，这样不断循环，直到按照某种策略抓取完所需的网页为止。&lt;/p&gt;</description></item><item><title>Python爬取淘宝商品评价信息实战</title><link>http://xiejava.ishareread.com/posts/913ab5e4/</link><pubDate>Sat, 16 Mar 2024 19:05:58 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/913ab5e4/</guid><description>&lt;p&gt;&lt;img alt="Python爬虫" loading="lazy" src="http://image2.ishareread.com/images/2024/20240316/0-python%E7%88%AC%E8%99%AB.png"&gt;&lt;/p&gt;
&lt;p&gt;前期出了一个《&lt;a href="http://xiejava.ishareread.com/posts/db2fbb43/"&gt;爬取京东商品评价信息实战&lt;/a&gt;》的教程，最近又有网友提到要出一个爬淘宝商品评论的教程。说实话淘宝的反爬机制做得比京东要严，所以用爬取京东商品评价信息的方式取爬取淘宝商品评价不太可行。本文还是介绍通过Selenium模拟登录后来进行淘宝商品评价信息的爬取。
Selenium安装与配置及如何模拟登录淘宝见《&lt;a href="http://xiejava.ishareread.com/posts/699b1506/"&gt;Selenium安装与配置&lt;/a&gt;》及《&lt;a href="http://xiejava.ishareread.com/posts/6e762a1a/"&gt;Selenium实战-模拟登录淘宝并爬取商品信息&lt;/a&gt;》&lt;/p&gt;
&lt;h2 id="一分析需要爬取的页面"&gt;一、分析需要爬取的页面&lt;/h2&gt;
&lt;p&gt;淘宝的商品评价信息在商品详情页面，需要登录淘宝后，访问到商品详情页，并且需要点击“宝贝评价”才能看到相应的商品评价信息。
&lt;img alt="淘宝商品评价页面分析" loading="lazy" src="http://image2.ishareread.com/images/2024/20240316/1-%E6%B7%98%E5%AE%9D%E5%95%86%E5%93%81%E8%AF%84%E4%BB%B7%E9%A1%B5%E9%9D%A2%E5%88%86%E6%9E%90.png"&gt;&lt;/p&gt;</description></item><item><title>Python爬取京东商品评价信息实战</title><link>http://xiejava.ishareread.com/posts/db2fbb43/</link><pubDate>Mon, 11 Mar 2024 15:44:10 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/db2fbb43/</guid><description>&lt;p&gt;&lt;img alt="网络爬虫" loading="lazy" src="http://image2.ishareread.com/images/2024/20240311/0%E3%80%81%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB.png"&gt;&lt;/p&gt;
&lt;p&gt;上期介绍了通过《&lt;a href="http://xiejava.ishareread.com/posts/81e07ee2/"&gt;mitmproxy实战-通过mitmdump爬取京东金榜数据&lt;/a&gt;》，能够上京东金榜的商品一般评价都是比较好的，这次介绍如何爬取京东商品的评价信息。&lt;/p&gt;
&lt;h2 id="一分析商品评价的页面信息"&gt;一、分析商品评价的页面信息&lt;/h2&gt;
&lt;h3 id="1请求参数分析"&gt;1、请求参数分析&lt;/h3&gt;
&lt;p&gt;京东的商品评价信息是在商品的详情页面，我们随便访问一个京东的商品详情页面如&lt;a href="https://item.jd.com/100087971268.html"&gt;https://item.jd.com/100087971268.html&lt;/a&gt;
在这里可以看到100087971268就是商品ID也是商品的skuId，这个是商品的唯一ID可以和很过信息关联。我们可以通过chrome浏览器的调试模式来分析商品评价信息的数据是如何获取和展示的。
通过chrome浏览器的调试模式可以看到，评价信息是通过&lt;code&gt;https://api.m.jd.com/?appid=item-v3&amp;amp;functionId=pc_club_productPageComments&amp;amp;client=pc&amp;amp;clientVersion=1.0.0&amp;amp;t=1710122207175&amp;amp;loginType=3&amp;amp;uuid=181111935.16953916127351737253418.1695391613.1709713566.1710121957.56&amp;amp;productId=100087971268&amp;amp;score=0&amp;amp;sortType=5&amp;amp;page=0&amp;amp;pageSize=10&amp;amp;isShadowSku=0&amp;amp;fold=1&amp;amp;bbtf=&amp;amp;shield=&lt;/code&gt;
这个接口来返回的，其中关键的信息包括functionId=pc_club_productPageComments，productId=100087971268，page=0&amp;amp;pageSize=10。
&lt;code&gt;productId=100087971268&lt;/code&gt;表示是获取商品ID为100087971268的商品评价，&lt;code&gt;page=0&amp;amp;pageSize=10&lt;/code&gt;表示当前页是0，每页显示10条记录。&lt;/p&gt;</description></item><item><title>mitmproxy实战-通过mitmdump爬取京东金榜排行数据</title><link>http://xiejava.ishareread.com/posts/81e07ee2/</link><pubDate>Mon, 04 Mar 2024 14:09:45 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/81e07ee2/</guid><description>&lt;p&gt;&lt;img alt="mitmproxy" loading="lazy" src="http://image2.ishareread.com/images/2024/20240304/0-mitmproxy.jpg"&gt;&lt;/p&gt;
&lt;p&gt;对于APP的数据爬取或需要构建复杂的接口参数数据的爬取可以通过mitmproxy抓包还原流量，解析流量数据包来获取。mitmproxy是一个免费的开源交互式的HTTPS代理工具。它类似于其他抓包工具如WireShark和Fiddler，支持抓取HTTP和HTTPS协议的数据包，并可以通过控制台形式进行操作。mitmproxy具有两个非常有用的组件：mitmdump和mitmweb。mitmdump是mitmproxy的命令行接口，可以直接抓取请求数据。&lt;/p&gt;</description></item><item><title>mitmproxy安装与配置</title><link>http://xiejava.ishareread.com/posts/699b1506/</link><pubDate>Thu, 29 Feb 2024 18:33:41 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/699b1506/</guid><description>&lt;p&gt;mitmproxy是一个免费的开源交互式的HTTPS代理工具。它类似于其他抓包工具如WireShark和Fiddler，支持抓取HTTP和HTTPS协议的数据包，并可以通过控制台形式进行操作。mitmproxy具有两个非常有用的组件：mitmdump和mitmweb。mitmdump是mitmproxy的命令行接口，可以直接抓取请求数据，而mitmweb是一个web程序，可以清楚地观察mitmproxy抓取的请求数据。&lt;/p&gt;</description></item><item><title>Selenium实战-模拟登录淘宝并爬取商品信息</title><link>http://xiejava.ishareread.com/posts/6e762a1a/</link><pubDate>Mon, 26 Feb 2024 14:07:55 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/6e762a1a/</guid><description>&lt;p&gt;现在很多网站要获取数据都得要先登录。Selenium是一个用于Web应用程序测试的自动化工具。它直接运行在浏览器中，模拟真实用户的操作。本文介绍如何通过Selenium来登录淘宝并自动爬取商品信息。
关于Selenium的安装与配置请参考博文《&lt;a href="http://xiejava.ishareread.com/posts/8370b2b6/"&gt;Selenium安装与配置&lt;/a&gt;》&lt;/p&gt;</description></item><item><title>Selenium安装与配置</title><link>http://xiejava.ishareread.com/posts/8370b2b6/</link><pubDate>Fri, 23 Feb 2024 11:14:44 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/8370b2b6/</guid><description>&lt;p&gt;Selenium是一个用于Web应用程序测试的自动化工具。它直接运行在浏览器中，模拟真实用户的操作。Selenium支持多种主流浏览器，如IE、Mozilla Firefox、Safari、Google Chrome、Opera和Edge等。在爬取数据的时候对于需要登录后才能爬取的情况往往可以利用Selenium来进行模拟登录，登录后进行数据的获取。这里先介绍Selenium的安装与配置，实现通过python来驱动浏览器进行操作。&lt;/p&gt;</description></item><item><title>Scrapy爬虫框架实战</title><link>http://xiejava.ishareread.com/posts/dfc313ee/</link><pubDate>Tue, 12 Sep 2023 23:00:02 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/dfc313ee/</guid><description>&lt;p&gt;Python实现爬虫是很容易的，一般来说就是获取目标网站的页面，对目标页面的分析、解析、识别，提取有用的信息，然后该入库的入库，该下载的下载。以前写过一篇文章&lt;a href="http://xiejava.ishareread.com/posts/eab21fe5/"&gt;《Python爬虫获取电子书资源实战》&lt;/a&gt;，以一个电子书的网站为例来实现python爬虫获取电子书资源。爬取整站的电子书资源，按目录保存到本地，并形成索引文件方便查找。这次介绍通过Scrapy爬虫框架来实现同样的功能。&lt;/p&gt;</description></item><item><title>Python爬虫获取电子书资源实战</title><link>http://xiejava.ishareread.com/posts/eab21fe5/</link><pubDate>Sat, 20 Nov 2021 15:41:01 +0000</pubDate><guid>http://xiejava.ishareread.com/posts/eab21fe5/</guid><description>&lt;p&gt;最近在学习Python，相对java来说python简单易学、语法简单，工具丰富，开箱即用，适用面广做全栈开发那是极好的，对于小型应用的开发，虽然运行效率慢点，但开发效率极高。大大提高了咱们的生产力。为什么python能够在这几年火起来，自然有他的道理，当然也受益于这几年大数据和AI的火。&lt;/p&gt;</description></item></channel></rss>