用java做一个简易的小爬虫


前言

爬虫一直python的强项,其它语言也能做,只是没有python那么方便快捷,今天正好学到java中了一些和网络相关的知识,就做了一个小爬虫。

主要功能是:爬取百度图片中的图片,一键下载。

效果图

为了吸引大家继续看下去,先上效果图
用java做一个简易的小爬虫用java做一个简易的小爬虫
用java做一个简易的小爬虫用java做一个简易的小爬虫
用java做一个简易的小爬虫
功能就是这样,根据输入的关键字不同,自动下载不同的图片,当然,这些图片都是从百度图片中爬取出来的。

思路

    随便输入一个关键字,百度图片就会展示出很多图片
    用java做一个简易的小爬虫

    我们都知道,网络中的每个资源,都是有唯一确定的位置的。所以展示出来的每张图片,也都有一个唯一路径。在图片上点击鼠标右键,然后再点击查看图像。(我用的火狐浏览器,其它的浏览器应该也有类似的功能)
    用java做一个简易的小爬虫

就可以查看这单个图片了
用java做一个简易的小爬虫观察上面的地址栏,这就是图片的地址,但是这个地址可能被百度处理过了,很长很长,所以我们用另一种方式来观察每张图片的url:开发者模式

用java做一个简易的小爬虫摁F12,进入开发者模式,然后点击左上角的选择元素,然后再选择想要查看的图片,就能看到图片的URL了,这张图片的url是:
https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=195864913,3467183443&fm=26&gp=0.jpg
然后我们再多看几张,观察一下有什么规律
https://ss0.bdstatic.com/70cFuHSh_Q1YnxGkpoWK1HF6hhy/it/u=2204996942,2977507050&fm=26&gp=0.jpg
https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=1831886359,378289772&fm=26&gp=0.jpg
https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2495686098,3449203597&fm=26&gp=0.jpg

规律还是很容易简单的吧,写一个简单的正则表达式 https://.*?0.jpg 当然,可以写得更准确,但是这个已经够用,就不写那么精确了。

剩下的就简单了,利用java中的URL这个类和IO流,把展示很多图片的那个页面给读出成一个字符串,然后在字符串中,去查找和上面正则匹配的图片路径。然后再用匹配到的每个路径,去下载图片,就OK了。

但是这样就将要下载图片的主题固定死了,因为我们输入的关键字没变。
用java做一个简易的小爬虫仔细观察这个路径,发现我们输入的关键字,被拼接到了URL的最后。这是因为这里采用了get请求,请求数据被放在URL里,所以我们可以对这个URL做手脚,自己来手动拼接,就可以达到输入不同关键字,下载不同图片的功能了。

关键点有两个:
一是改变首页URL的提交参数
二是利用正则获取到每张图片的URL

源代码

import java.io.*;
import java.net.URL;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

@SuppressWarnings("all")
public class InetAddressTest02
{
public static void main(String[] args)
{
Scanner input = new Scanner(System.in);
System.out.println("欢迎体验这个小程序!");
while (true)
{
System.out.println("请输入您要下载图片明星的姓名(输入E\\e退出):");
String name = input.next();
if ("e".equals(name) || "E".equals(name))
{ break; }
System.out.println("正在下载,请稍等……");
downBeautyPicture(name);
System.out.println();
}
System.out.println("成功退出,欢迎下次光临!");
}

public static void downBeautyPicture(String name)
{
String targetPath = "C://"+name+System.currentTimeMillis();
new File(targetPath).mkdir();
int count = 0;

InputStream is = null;
FileOutputStream fos = null;
try
{
URL url = new URL("https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word="+name);
is = url.openStream();

int len;
byte[] buffer = new byte[1024];
StringBuilder pageText_ = new StringBuilder();
while ((len = is.read(buffer)) != -1)
{ pageText_.append(new String(buffer,0,len, StandardCharsets.UTF_8)); }

String pageText = pageText_.toString();
Pattern compile = Pattern.compile("https://.*?0\\.jpg");
Matcher matcher = compile.matcher(pageText);
ArrayList<String> URLs = new ArrayList<>();

while (matcher.find())
{
String eachURLStr = matcher.group();

if (URLs.contains(eachURLStr))
{ continue; }

count ++;
//System.out.println("正在下载第"+ count +"张图片…………");
URL eachURL = new URL(eachURLStr);
is = eachURL.openStream();
fos = new FileOutputStream(targetPath+ "\\" + System.currentTimeMillis()+".jpg");
while ((len = is.read(buffer)) != -1)
{ fos.write(buffer,0,len); }

is.close();
fos.flush();
fos.close();
URLs.add(eachURLStr);
}
}
catch (IOException e)
{
System.out.println("对不起,下载错误,请重试");
e.printStackTrace();
}
finally
{
System.out.println("下载完成,共下载了"+ count +"图片,请到 "+targetPath+" 目录下查看");
if (is != null)
{
try
{ is.close(); }
catch (IOException e)
{ e.printStackTrace(); }
}
if (fos != null)
{
try
{ fos.close(); }
catch (IOException e)
{ e.printStackTrace(); }
}
}
}
}

用到的技术也很简单,URL、正则、IO流等等,其它一些java的基础知识我就不一一列举了。

问题

    没有对图片的下载路径进行处理
    因为我懒,可以在下载图片的时候,让用户选择保存位置的,有兴趣的同学可以去实现一下。本来不想把下载到的图片默认保存到c盘的,因为c盘是系统盘。但是考虑到有的同学只有一个c盘,所以将就图片默认保存到c盘了。33行那里可以修改保存的位置,可以自己改。注意:如果不是改成在盘弧下,是在某个文件夹下,要先把这个文件夹创建出来!!!

    只能下载30张
    这个真的是技术问题了,因为百度图片展示的时候,采取了延迟加载的策略,因为一个关键字可以搜索出来很多很多图片,不可能一次性给全部加载出来,用户也不会全部都看完,所以是根据用户鼠标的滚动来加载的。他这个应该是通过JavaScript代码来控制的,因为地址栏一直没有发生改变,所以也无法再通过改变URL来加载其它图片的目的了。
    搜索一个关键字,一开始的时候,默认会加载30张,所以就只能下载到这30张。

有什么不对或不懂的地方,欢迎交流

原创:https://www.panoramacn.com
源码网提供WordPress源码,帝国CMS源码discuz源码,微信小程序,小说源码,杰奇源码,thinkphp源码,ecshop模板源码,微擎模板源码,dede源码,织梦源码等。

专业搭建小说网站,小说程序,杰奇系列,微信小说系列,app系列小说

用java做一个简易的小爬虫

免责声明,若由于商用引起版权纠纷,一切责任均由使用者承担。

您必须遵守我们的协议,如果您下载了该资源行为将被视为对《免责声明》全部内容的认可-> 联系客服 投诉资源
www.panoramacn.com资源全部来自互联网收集,仅供用于学习和交流,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。 敬请谅解! 侵权删帖/违法举报/投稿等事物联系邮箱:2640602276@qq.com
未经允许不得转载:书荒源码源码网每日更新网站源码模板! » 用java做一个简易的小爬虫
关注我们小说电影免费看
关注我们,获取更多的全网素材资源,有趣有料!
120000+人已关注
分享到:
赞(0) 打赏

评论抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

您的打赏就是我分享的动力!

支付宝扫一扫打赏

微信扫一扫打赏