#!/usr/bin/env python #coding:utf-8 import urllib2 import re import os def getHtml(url): #获取html源码 headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1"} req=urllib2.Request(url,headers=headers) response=urllib2.urlopen(req) html=response.read().decode('utf-8') return html def urlPages(page): #翻页 url = 'https://but/company/lists/page/' + str(page) #print url return url def findList(html): #正则匹配列表 myitems=re.findall('www.*?</td>',html,re.S) return myitems for page in range(1, 78+1): #抓取的页数 #print page html = getHtml(urlPages(page)) items = findList(html) for item in items: s = item s=item.replace('</td>','') #print s file_object = open('but.txt', 'a') file_object.writelines(s+'\n') file_object.close() print (u'\n\n本王的网站下载完毕啦!')
热门文章更多>>
标签更多>>
专题更多>>
最新文章更多>>
- 团队城市未满足要求:MSBuildTools12.0_x86_Path 存在
- 使用 MSBuild.exe 在发布模式下构建 C# 解决方案
- 当我发布 Web 应用程序时,AfterPublish 脚本不运行
- 构建时 T4 转换的产品仅在下一个构建中使用
- ASP.NET Core Application (.NET Framework) for Windows x64 only error in project.assets.json
- 新的 .csproj 格式 - 如何将整个目录指定为“链接文件"到子目录?
- 如何将条件编译符号(DefineConstants)传递给 msbuild
- MSBuild 支持 Visual Studio 2017 RTM 中的 T4 模板
- NuGet 包还原找不到包,没有源
- 使用 C# 6.0 功能运行 TFS 构建