python教程

python百度图片搜索API源码

我的站长站 2023-07-01 人阅读

python百度图片搜索API源码,一段简单的图片爬虫程序。通过输入关键词,在百度图片中搜索相关图片,并返回一张随机的图片。

代码使用Flask框架搭建了一个简单的Web应用,将用户输入的关键词作为参数传递给爬虫程序,然后从百度图片中获取相关图片的URL并随机选择一张返回给用户。

用户可以通过访问Web应用的首页,在输入框中输入关键词进行搜索。如果找到相关图片,则会跳转到图片的URL,如果未找到图片,则会显示无法正常查找的提示信息。

将代码发布到服务器上,就可以用markdown格式![image]服务器域名/?word=关键字来显示搜索的图片。

import argparse
import os
import re
import sys
import urllib
import json
import socket
import urllib.request
import urllib.parse
import urllib.error
import random
 
# 设置超时
import time
 
from flask import Flask, redirect, request, make_response
import random
 
timeout = 5
socket.setdefaulttimeout(timeout)
 
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
 
 
class Crawler:
    # 睡眠时长
    __time_sleep = 0.1
    __amount = 0
    __start_amount = 0
    __counter = 0
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0', 'Cookie': ''}
    __per_page = 30
 
    # 获取图片url内容等
    # t 下载图片时间间隔
    def __init__(self, t=0.1):
        self.time_sleep = t
 
    # 获取后缀名
    @staticmethod
    def get_suffix(name):
        m = re.search(r'\.[^\.]*$', name)
        if m.group(0) and len(m.group(0)) <= 5:
            return m.group(0)
        else:
            return '.jpeg'
 
    @staticmethod
    def handle_baidu_cookie(original_cookie, cookies):
        """
        :param string original_cookie:
        :param list cookies:
        :return string:
        """
        if not cookies:
            return original_cookie
        result = original_cookie
        for cookie in cookies:
            result += cookie.split(';')[0] + ';'
        result.rstrip(';')
        return result
 
    # 开始获取
    def get_images(self, word):
        search = urllib.parse.quote(word)
        pn = self.__start_amount
        image_urls = []
        while pn < self.__amount:
            url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%s&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=%s&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&force=&pn=%s&rn=%d&gsm=1e&1594447993172=' % (
                search, search, str(pn), self.__per_page)
            try:
                time.sleep(self.time_sleep)
                req = urllib.request.Request(url=url, headers=self.headers)
                page = urllib.request.urlopen(req)
                self.headers['Cookie'] = self.handle_baidu_cookie(self.headers['Cookie'],
                                                                page.info().get_all('Set-Cookie'))
                rsp = page.read()
                page.close()
            except UnicodeDecodeError as e:
                print(e)
                print('-----UnicodeDecodeErrorurl:', url)
            except urllib.error.URLError as e:
                print(e)
                print("-----urlErrorurl:", url)
            except socket.timeout as e:
                print(e)
                print("-----socket timout:", url)
            else:
                rsp_data = json.loads(rsp, strict=False, object_hook=lambda d: {k: urllib.parse.unquote(v) if isinstance(v, str) else v for k, v in d.items()})
                if 'data' not in rsp_data:
                    continue
                else:
                    for image_info in rsp_data['data']:
                        if 'thumbURL' in image_info:
                            thumb_url = image_info['thumbURL']
                            image_urls.append(thumb_url)
                pn += self.__per_page
                return image_urls
 
    def start(self, word):
        self.__per_page = 30
        self.__start_amount = 0
        self.__amount = self.__per_page
        return self.get_images(word)
 
 
app = Flask(__name__)
 
 
@app.route("/")
def index():
    word = request.args.get('word')
    if word:
        crawler = Crawler(0.1)  # 抓取延迟为 0.1
        image_urls = crawler.start(word)
        if image_urls:
            image_url = random.choice(image_urls)
            # 返回图片的 URL
            return redirect(image_url)
    return """
        <!DOCTYPE html>
        <html>
        <body>
        <h1>无法正常查找</h1>
        </body>
        </html>
    """
 
 
if __name__ == '__main__':
    app.run()


相关推荐
  • API源码
  • Python源码
  • 百度搜索
  • PHP智云V1.3全能API接口网站源码
    PHP智云V1.3全能API接口网站源码

    智云全能API接口PHP源码V1.3版本接口数据由智云平台开发及整理源码直接上传即可访问,无需数据库,不支持上传二级目录访问!源码上传后请访问:你的域名/inde.html(可以将inde.html重新修改其他名称访问)...

    php源码 554 4年前
  • 2020年最新HTML+API版防红网站模板
    2020年最新HTML+API版防红网站模板

    2020年最新HTML+API版防红网站模板,HTML+JS+API框架,打开即可使用,不需要任何环境。支持多种防红方式,多种短域名后缀。

    html模板 466 4年前
  • HTML+API美腿zipa图片瀑布流网站模板
    HTML+API美腿zipa图片瀑布流网站模板

    HTML+API美腿zipa图片瀑布流网站模板,图片采集与自葫芦侠,流量不走本地,虚拟空间都能部署,适合引流请在下载后24小时内删除,否则一切法律后果请自行承担...

    html模板 682 4年前
  • Json压缩和格式化工具,附Python源码
    Json压缩和格式化工具,附Python源码

    软件介绍一款Json压缩和格式化工具,可以在线Json压缩和格式化。基于Python库开发,附上Python源码,GUI没有美化,巨丑。软件截图Python源码import jsonimport tkinter as tkdef json_compress(json_str...

    开发软件 55 1年前
  • python打飞机小游戏源码+成品打包

    python源码用的pygame库,自带的random和os。程序运行需要的图片,声音和字体下载链接: https://pan.baidu.com/s/1KItG2usXOM_xcxcdHIixaw 提取码: qmweimport pygameimport randomimport os FPS = 60WIDTH = 500HEIGHT = 600 BLACK = (0, 0, 0)WHITE =...

    python教程 55 1年前
  • 原创力文库Python爬虫下载源码

    # !/usr/bin/python# -*- coding: UTF-8 -*-import reimport jsonimport osimport shutilimport sysimport timeimport requestsimport img2pdffrom PIL import Image from alive_progress import alive_barfrom requests.exceptions import SSLErro...

    python教程 65 1年前
  • 百度搜索快速收录重新上线
    百度搜索快速收录重新上线

    快速收录上线通告2020-05-14 11:56:25尊敬的搜索合作伙伴:您好!由于搜索资源平台移动专区天级提交将于5月18日暂停使用,为继续支持移动站点提交优质资源,新增站点快速收录功能,即日起上线。 1. 工...

    网站优化 139 4年前
  • 百度搜索下线MIP服务

    MIP Cache 服务下线通知发布日期:2020-04-24尊敬的各位站长您好,MIP Cache 服务至目前为止已上线了三年多,为 Web 生态输出了优质资源和更为快速的网页浏览体验。但由于业务调整,MIP Cache 服务将在近期下线,下线内容包括:1、关闭百度搜索资源平台(ziyuan.b...

    网站优化 146 4年前
  • 百度搜索下线关闭百度快照功能

    今天我的站长站查看网站收录情况发现,百度搜索的结果页,百度快照功能按钮没有了。根据网上知情人士透露的消息,百度确实已经下线了快照功能。在百度搜索发展早期,互联网的网站访问经常出现不稳定的情况,百度为此开发了快照功能,通过抓取并保存网站文本内容...

    网站优化 77 2年前
最新更新