网站首页 > 技术文章 正文
python爬虫采集的时候会需要对采集的内容进行处理行为,处理什么?简单的说就是处理多余的HTML代码跟确定文章标题跟结尾,还有内容区间,方法如下:
首先先是定位,我们先假设我们采集到了一批数据,数据里的内容是这样的<title>这里是标题</title>,<p>内容肯定是很多的,不过这里也就自己随便手打一些来随便用用。</p>,当然,我们采集到的内容肯定不会这么干净的,这样我们就需要处理一下内容的问题了。
假设<title>前面还有一些不要的HTML代码,那么我们就要处理掉,不然采集下来就挺难看的,所以我们需要处理掉:

h = html.find('<title>') #这一段是定位开头。
b = html.find('</title>') #这一段是定位结尾,我们用的是find方法。
字符串的定位都可以用find方法来处理,find方法是检测str是否包含在string里,如果指定了位置,那么他就会查找指定位置的范围内是否存在,如果有就返回索引值,没有就会返回-1。
当然,还有另一个方法,叫做index,不过这个方法如果不存在的话就会报错,不建议多用。
猜你喜欢
- 2024-12-29 cgitb,一个非常实用但容易被忽视的宝藏Python库
- 2024-12-29 Python爬虫入门(四):实战,爬取4399小游戏首页
- 2024-12-29 揭秘Python中的超强库:Hypothesis
- 2024-12-29 python+selenium做ui自动化测试用法必会
- 2024-12-29 肝了三天三夜,一文道尽Python的xpath解析
- 2024-12-29 基于opencv的轮廓匹配算法:python代码实现
- 2024-12-29 Python自动化:一键查找文件,告别手动翻找!拯救你的“文件堆”
- 2024-12-29 发掘 Python 的宝藏库:faulthandler,让你的调试轻松无比
- 2024-12-29 业余电台梅登黑德定位系统python计算程序
- 2024-12-29 wxPython - 布局管理简介及绝对位置布局
- 272℃Python短文,Python中的嵌套条件语句(六)
- 271℃python笔记:for循环嵌套。end=""的作用,图形打印
- 269℃PythonNet:实现Python与.Net代码相互调用!
- 264℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 264℃Python实现字符串小写转大写并写入文件
- 123℃原来2025是完美的平方年,一起探索六种平方的算吧
- 104℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 99℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 最近发表
-
- Python数据分析实战-dataframe分组提取每一组的首条记录
- 如何使用Python将多个excel文件数据快速汇总?
- 「Python数据分析」Pandas进阶,使用groupby分组聚合数据(二)
- 还在熬夜合并30个Excel 3个案例,带你用Python玩转Excel高阶操作
- python数据分析实战:pandas分组聚合-自定义聚合函数
- Python 知识点 #31 - 分组和聚(python分层聚类)
- 人生苦短,自学 python——pandas 的分组操作
- 利用Python进行数据分组/数据透视表
- 超实用!用Python快速实现数据分组统计与透视表
- Python 之 Pandas:数据分组聚合统计的魔法秘籍
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)