|
目录项目背景一、项目准备环境配置二、爬虫设计与实现爬虫设计思路目标网站分析数据获取流程代码实现1.初始化爬虫类(BingImageSpider)2.创建存储文件夹3.获取图像链接4.下载图片5.使用Proxy302代理IP6.主运行函数运行截图三、总结项目背景本篇博客详细介绍了一个网络爬虫项目的准备和实现过程。该项目的目标是从Bing图片搜索中获取图片链接并下载图片。此类爬虫项目通常用于收集大量的图片数据,以便用于训练各种人工智能模型,特别是计算机视觉模型。计算机视觉领域的研究需要大量的图像数据来训练和测试模型,以便实现图像分类、对象检测、图像生成等功能。一、项目准备环境配置在开始编写爬虫之前,确保已经完成以下环境配置:1.Python安装:确保已安装Python3.x版本。Python是一种功能强大且易于学习的编程语言,适合于各种编程任务,包括网络爬虫开发。2.需要的库ython拥有庞大的第三方库生态系统,我们将使用几个核心库来开发爬虫:requests:用于发送HTTP请求和处理响应。os:提供了与操作系统交互的功能,用于创建文件夹等文件操作。time:提供了时间相关的功能,例如休眠程序以及计时等。urllib:提供了在网络上获取数据的一些功能,主要用于URL编码。可以使用以下命令通过pip安装这些库:pipinstallrequests1如果你使用的是Anaconda等集成环境,可以使用conda命令:condainstallrequests1这些库将帮助我们处理HTTP请求、解析和存储数据,以及进行一些基本的系统操作。二、爬虫设计与实现爬虫设计思路目标网站分析在设计爬虫之前,分析目标网站是必不可少的。对于Bing图片搜索网站,我们进行如下分析:网页结构:Bing图片搜索页面的结果通常以HTML的形式呈现,其中包含了多个图片的缩略图。每张图片的缩略图通常通过标签展示,图片的真实链接保存在src属性中。动态加载:Bing的图片搜索结果可能采用了动态加载的方式。即在页面初始加载时,可能只加载部分图片,更多图片会在用户滚动页面时动态加载。Selenium可以模拟用户行为(如滚动)以加载这些动态内容。请求限制:Bing图片搜索可能对请求频率或IP地址进行限制。使用代理服务器有助于分散请求负载,避免IP被封禁。数据获取流程构建请求URL:根据用户输入的搜索关键词构建Bing图片搜索的URL。URL的格式通常为https://www.bing.com/images/search?q={搜索词},其中{搜索词}是用户的查询内容。发送GET请求:通过SeleniumWebDriver发送GET请求,加载目标网页。由于Bing图片搜索页面可能含有动态内容,Selenium能够处理这些动态加载的内容,确保图片链接完全加载。解析网页数据:使用Selenium解析网页源代码,提取所有图片缩略图的src属性。通常,缩略图链接可以通过CSS选择器找到,例如使用img.mimg选择器获取图片标签。下载图片:对于每个提取到的图片链接,使用Requests库发送GET请求以获取图片数据,并将其保存到本地目录。确保在保存时处理任何可能的下载异常,如网络问题或链接无效等。存储管理:将下载的图片保存到预先创建的目录中,目录结构可按搜索词分类,方便后续管理和使用。代码实现以下是代码的主要部分及其功能说明:1.初始化爬虫类(BingImageSpider)在爬虫开发过程中,首先需要定义一个爬虫类以实现图片的爬取功能。我们定义了一个名为BingImageSpider的类,用于处理从Bing图片搜索页面抓取和下载图片的任务。importrequestsimportosimporttimefromurllibimportparseclassBingImageSpider(object):def__init__(self):self.url='https://www.bing.com/images/search?q={}&form=HDRSC2&first=1&tsc=ImageBasicHover'self.directory=r"D:\价值一个亿\python-mini-projects\projects\bingimg\{}"self.header={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0.3029.110Safari/537.3','Accept-Language':'en-US,en;q=0.9','Referer':'https://www.bing.com'}12345678910111213142.创建存储文件夹在图片爬取的过程中,为了组织和管理下载的图片,需要创建一个专门的存储文件夹。这个文件夹的名称通常与搜索关键词相关,以便于后续查找和管理。以下是创建存储图片文件夹的代码:defcreate_directory(self,name):self.directory=self.directory.format(name)ifnotos.path.exists(self.directory)s.makedirs(self.directory)12343.获取图像链接该方法通过发送HTTP请求获取网页内容,并从Bing图片搜索结果页面获取图片的缩略图链接:defget_image_link(self,url):list_image_link=[]response=requests.get(url,headers=self.header)#解析网页内容并提取图片链接try:json_data=response.json()foriteminjson_data['value']:if'thumbnailUrl'initem:list_image_link.append(item['thumbnailUrl'])exceptExceptionase:print(f"Erroroccurred:{e}")returnlist_image_link1234567891011121314返回一个包含所有提取到的图片缩略图链接的列表,用于后续的图片下载操作。4.下载图片此段代码的主要任务是下载指定的图片并将其保存到本地存储。实现这一功能需要处理网络请求、文件操作以及错误处理等多个方面。下面是该方法的实现代码:defsave_image(self,img_link,filename):try:res=requests.get(img_link,headers=self.header)withopen(filename,"wb")asf:f.write(res.content)print("存储路径:"+filename)exceptrequests.RequestExceptionase:print(f"Errordownloadingimage:{e}")12345678下载图片:该方法接受两个参数:img_link和filename。img_link是要下载的图片的URL链接,filename是保存图片的本地文件路径。方法通过HTTP请求下载图片数据,并将其写入到指定的文件中。文件存储:下载的图片以二进制模式(“wb”)写入到本地文件系统中,确保图片数据被正确保存。通过这种方法,可以确保从网络上下载的图片被正确存储在本地,以便于后续的使用和管理。5.使用Proxy302代理IP在网络爬虫中,频繁的请求可能会被目标网站识别为异常流量,导致IP地址被封禁。为降低此风险,可以使用Proxy302等代理IP服务。Proxy302与302.AI是同一个开发团队,302.AI是一个汇集全球顶级品牌的AI超市,按需付费,无月费,全面开放使用各种类型AI。Proxy302跟302.AI的账号余额是通用的。首先我们来到proxy302.com官网注册账号,选择自己所需要的代理ip定义一个变量proxy,包含了你要使用的代理服务器的地址和端口号。在这个例子中,代理服务器的地址是proxy.proxy302.com,端口号是2222。#配置代理设置proxy="proxy.proxy302.com:2222"#代理地址:端口12创建一个Options对象,这是Selenium提供的一个配置类,用于设置Chrome浏览器的各种选项。chrome_options=Options()1chrome_options.add_argument(f'--proxy-server=http://{proxy}')1通过add_argument方法将一个新的命令行参数添加到Chrome浏览器的启动选项中。这行代码添加了--proxy-server参数,指定了要使用的代理服务器。http://{proxy}表示使用http协议连接到代理服务器,{proxy}是上面定义的代理地址和端口。最终,这个参数告诉Chrome浏览器所有的网络请求都要通过这个指定的代理服务器进行。在选择代理服务时,可靠性和灵活性是至关重要的考虑因素。Proxy302凭借其全面的代理类型、多样的支持协议,以及灵活的定价模式,成为了众多用户的首选。这些优势不仅确保了高效的数据采集,还为不同场景的应用提供了极大的便利。最全面代理类型:Proxy302提供市面上最全面的代理类型,满足各种业务需求。全球240+国家和地区,6500万个住宅IP可供选择。Proxy302支持HTTP、SOCKS5网络协议的代理。Proxy302支持动态、静态代理,代理类型分为【动态按流量扣费】、【动态按IP扣费】、【静态按流量扣费】、【静态按IP扣费】,静态代理还分为住宅IP、数据中心IP。简洁易用:用户界面简洁而不简单,易用且高效。提供浏览器扩展插件,实现一键设置代理,省去复杂配置步骤。按需付费,无月付套餐:无需套餐捆绑购买,按需付费,充值即可使用所有类型的代理IP,无阶梯式定价。使用代理ip这种方式能够有效地隐藏真实IP地址,从而规避被封禁的风险。6.主运行函数run函数是程序的入口点,负责控制整个爬虫的执行流程。它依次处理用户输入、构建请求URL、提取图片链接、下载图片,并进行适当的延时以防止过于频繁的请求。以下是run函数的具体代码:defrun(self):searchName=input("查询内容:")self.create_directory(searchName)search_url=self.url.format(parse.quote(searchName))image_links=self.get_image_link(search_url)forindex,linkinenumerate(image_links):self.save_image(link,os.path.join(self.directory,f"{index+1}.jpg"))time.sleep(1)#防止请求过于频繁12345678910通过这些方法,爬虫能够高效地从Bing图片搜索中获取并下载相关图片,实现自动化的图像数据收集。运行截图三、总结本文档介绍了如何通过Python实现一个简单的Bing图片爬虫,并解释了各部分代码的功能与逻辑。同时,为了规避频繁请求可能带来的IP封禁风险,我们还介绍了如何在爬虫中使用Proxy302代理IP服务。通过这个项目,大家可以轻松获取大量的图片数据,用于训练计算机视觉模型或其他用途。
|
|