模板

源码

教程

插件

运营

工具

导航 | 导航 | 抖音 | 抖音 | enewsshopdd | 小说 | 小程序 | 小说

帝国cms模板
织梦cms模板
discuz模板
ecshop模板
phpcms模板
wordpress模板
苹果cms模板
海洋cms模板
飞飞cms模板
emlog模板
zblog模板
PbootCMS模板
Typecho模板
小程序模板
psd模板
html模板

选择子栏目精准搜索 [点击关闭]

python教程

Python爬取blog文章内容代码

我的站长站 2023-11-16 共人阅读

临时写的一个，应用场景佷有限，大家凭自己再扩展吧，我是因为要把一个文章迁移，强制复制也不行，就写了个这玩意。

import re
import requests
from lxml import etree
post_url = input('请输入文章地址: ')
#根提文章地址get数据
res = requests. get(post_url)
xx= res. content. decode('utf-8')
x = etree. HTML(xx)
#需要获取父级xpath
#xpath示例: //*[@id="article-container"]
#不会的百度吧
xpath = input('请输入xpath路径, 可打开控制台查看:')
content = x. xpath(xpath + '//*')
ree = re. compile(r'class=".*"|id=".*"')
url l = re. compile(r'(?<=(src="))(/).*?(?=("))')
with open('resualt. txt', 'w', encoding='utf-8') as file:
tep1 = ''
for i in content:
tep = etree. tostring(i, encoding='utf-8'). decode('utf-8'). strip()
tep = re. sub(ree, ", tep)
strr = re. search(urll, tep)
#如果图片是想对路径，就自动背换成绝对路径，《需要自己寻找修改路径地址》
#后面不用筒,只需要找到煎面的路径就行。就像&#160;https://dreamtea.top
#需要自己实测
if strr is not None:
strr r = strr. group()
tep = re.sub(urll, '&#160;https://cdn.con'+'/'+strr,tep)
# print(tep)
strr = None
if tep != tep1 and tep in tep1:
#print(tep)
continue
file. write(tep)
tep1 = tep
print('导出完成!')

这个可以再扩展成更自动的，可是我懒，希望有闲的没事的大佬扩展一下，我要借鉴（抄）~~

Python爬取

相关推荐

Python爬取

爬取豆瓣电影top250排行榜

Python爬取豆瓣电影top250排行榜示例代码，用的parsel和re两个模块，代码如下。

python教程 84 3年前
百度图库批量爬取下载代码

本程序使用 Python + requests + re 实现百度图库关键词批量爬取图片并本地下载，模拟浏览器请求，解析页面图片地址，自动创建文件夹分类保存。代码含请求伪装、异常捕获、分页简单处理，纯控制台运行，适合爬虫入门练习。...

python教程 118 3年前
平台热搜热文爬取代码

分享一段Python爬取各大平台热搜热文信息，支持微博热搜、抖音热搜、百度实时热点、知乎热榜、虎嗅热文、哔哩哔哩全站排行、豆瓣新片，免去一个一个网站的看了，是站长编辑的福音。提示：此代码为Python代码，需要有一点基础才能运行，如果是才能，我的站长站推荐...

python教程 96 4年前

最新更新

MediaCrawler自媒体爬虫项目

MediaCrawler 是一款开源自媒体数据采集爬虫项目，项目开源地址：https://github.com/NanmiCoder/MediaCrawler，...

python教程
python爬虫
1周前
Playwright闲鱼智能监控机器人项目

Playwright闲鱼智能监控机器人项目，基于 Playwright 和AI过滤分析的闲鱼多任务实时监控与智能分析工具，配备了...

python教程 11个月前
汉字笔顺图及书写gif动画生成代码

基于Github的makemeahanzi项目开发，项目地址：https://www.skishore.me/makemeahanzi/里面提供了9574个汉字的s...

python教程
Python源码
1年前
获取彩云天气实时天气API源码

Python获取彩云天气实时天气API源码是一种高效的工具，可以帮助用户实时获取天气信息。该源码通过调用彩云天...

python教程
Python获取天气API源码
1年前
基于Django的RustDesk Api&Web Server源码分享

一个 python 实现的 Rustdesk API 接口，支持 WebUI 管理。基于Django的RustDesk Api&We...

python教程 1年前