程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

python爬虫字符串定位开始跟结束(find方法的使用)

hfteth 2024-12-29 00:52:58 技术文章 16 ℃

python爬虫采集的时候会需要对采集的内容进行处理行为,处理什么?简单的说就是处理多余的HTML代码跟确定文章标题跟结尾,还有内容区间,方法如下:

首先先是定位,我们先假设我们采集到了一批数据,数据里的内容是这样的<title>这里是标题</title>,<p>内容肯定是很多的,不过这里也就自己随便手打一些来随便用用。</p>,当然,我们采集到的内容肯定不会这么干净的,这样我们就需要处理一下内容的问题了。

假设<title>前面还有一些不要的HTML代码,那么我们就要处理掉,不然采集下来就挺难看的,所以我们需要处理掉:

h = html.find('<title>') #这一段是定位开头。

b = html.find('</title>') #这一段是定位结尾,我们用的是find方法。

字符串的定位都可以用find方法来处理,find方法是检测str是否包含在string里,如果指定了位置,那么他就会查找指定位置的范围内是否存在,如果有就返回索引值,没有就会返回-1。

当然,还有另一个方法,叫做index,不过这个方法如果不存在的话就会报错,不建议多用。

最近发表
标签列表