wordpress机器人抓取

WordPress网站怎样正确设置robots.txt

经过对WordPress使用多年的经验和WordPress本身的一些规则，WordPress网站较好的robots.txt规则如下：User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /trackback/Disallow: /comments/Disallow: /attachment/Disallow: /comments/feedDisallow: /feedDisallow: /*/feedDisallow: /*/comment-page-*Disallow: /*?replytocom=*Disallow: /*/trackbackDisallow: /?s=*Disallow: /*/?s=*Disallow: /wp-*.phpSitemap: http://yourdomain.com/sitemap.html以上robots.txt内容参考资料：https://zhangzifan.com/wordpress-robots.html（版权归原作者所有）

机器人抓取时怎么定位的？用什么传感器来检测

机器人家上了解到，机器人领域的视觉（Machine Vision）跟计算机领域（Computer Vision）的视觉有一些不同：机器视觉的目的是给机器人提供操作物体的信息。

所以，机器视觉的研究大概有这几块：物体识别（Object Recognition）：在图像中检测到物体类型等，这跟 CV 的研究有很大一部分交叉；位姿估计（Pose Estimation）：计算出物体在摄像机坐标系下的位置和姿态，对于机器人而言，需要抓取东西，不仅要知道这是什么，也需要知道它具体在哪里；相机标定（Camera Calibration）：因为上面做的只是计算了物体在相机坐标系下的坐标，我们还需要确定相机跟机器人的相对位置和姿态，这样才可以将物体位姿转换到机器人位姿。

当然，我这里主要是在物体抓取领域的机器视觉；SLAM 等其他领域的就先不讲了。

由于视觉是机器人感知的一块很重要内容，所以研究也非常多了，我就我了解的一些，按照由简入繁的顺序介绍吧： 0. 相机标定这其实属于比较成熟的领域。

由于我们所有物体识别都只是计算物体在相机坐标系下的位姿，但是，机器人操作物体需要知道物体在机器人坐标系下的位姿。

所以，我们先需要对相机的位姿进行标定。

内参标定就不说了，参照张正友的论文，或者各种标定工具箱；外参标定的话，根据相机安装位置，有两种方式： Eye to Hand：相机与机器人极坐标系固连，不随机械臂运动而运动Eye in Hand：相机固连在机械臂上，随机械臂运动而运动两种方式的求解思路都类似，首先是眼在手外（Eye to Hand）只需在机械臂末端固定一个棋盘格，在相机视野内运动几个姿态。

由于相机可以计算出棋盘格相对于相机坐标系的位姿、机器人运动学正解可以计算出机器人底座到末端抓手之间的位姿变化、而末端爪手与棋盘格的位姿相对固定不变。

这样，我们就可以得到一个坐标系环而对于眼在手上（Eye in Hand）的情况，也类似，在地上随便放一个棋盘格（与机器人基座固连），然后让机械臂带着相机走几个位姿，然后也可以形成一个的坐标环。

1. 平面物体检测这是目前工业流水线上最常见的场景。

目前来看，这一领域对视觉的要求是：快速、精确、稳定。

所以，一般是采用最简单的边缘提取+边缘匹配/形状匹配的方法；而且，为了提高稳定性、一般会通过主要打光源、采用反差大的背景等手段，减少系统变量。

目前，很多智能相机（如 cognex）都直接内嵌了这些功能；而且，物体一般都是放置在一个平面上，相机只需计算物体的三自由度位姿即可。

另外，这种应用场景一般都是用于处理一种特定工件，相当于只有位姿估计，而没有物体识别。

当然，工业上追求稳定性无可厚非，但是随着生产自动化的要求越来越高，以及服务类机器人的兴起。

对更复杂物体的完整位姿估计也就成了机器视觉的研究热点。

2. 有纹理的物体机器人视觉领域是最早开始研究有纹理的物体的，如饮料瓶、零食盒等表面带有丰富纹理的都属于这一类。

当然，这些物体也还是可以用类似边缘提取+模板匹配的方法。

但是，实际机器人操作过程中，环境会更加复杂：光照条件不确定（光照）、物体距离相机距离不确定（尺度）、相机看物体的角度不确定（旋转、仿射）、甚至是被其他物体遮挡（遮挡）。

幸好有一位叫做 Lowe 的大神，提出了一个叫做 SIFT (Scale-invariant feature transform)的超强局部特征点： Lowe, David G. ＂Distinctive image features from scale-invariant keypoints.＂International journal of computer vision 60.2 (2004): 91-110. 具体原理可以看上面这篇被引用 4万+ 的论文或各种博客，简单地说，这个方法提取的特征点只跟物体表面的某部分纹理有关，与光照变化、尺度变化、仿射变换、整个物体无关。

因此，利用 SIFT 特征点，可以直接在相机图像中寻找到与数据库中相同的特征点，这样，就可以确定相机中的物体是什么东西（物体识别）。

对于不会变形的物体，特征点在物体坐标系下的位置是固定的。

所以，我们在获取若干点对之后，就可以直接求解出相机中物体与数据库中物体之间的单应性矩阵。

如果我们用深度相机（如Kinect）或者双目视觉方法，确定出每个特征点的 3D 位置。

那么，直接求解这个 PnP 问题，就可以计算出物体在当前相机坐标系下的位姿。

↑ 这里就放一个实验室之前毕业师兄的成果当然，实际操作过程中还是有很多细节工作才可以让它真正可用的，如：先利用点云分割和欧氏距离去除背景的影响、选用特征比较稳定的物体（有时候 SIFT 也会变化）、利用贝叶斯方法加速匹配等。

而且，除了 SIFT 之外，后来又出了一大堆类似的特征点，如 SURF、ORB 等。

3. 无纹理的物体好了，有问题的物体容易解决，那么生活中或者工业里还有很多物体是没有纹理的：我们最容易想到的就是：是否有一种特征点，可以描述物体形状，同时具有跟 SIFT 相似的不变性？不幸的是，据我了解，目前没有这种特征点。

所以，之前一大类方法还是采用基于模板匹配的办法，但是，对匹配的特征进行了专门选择（不只是边缘等简单特征）。

简单而言，这篇论文同时利用了彩色图像的图像梯度和深度图像的表面法向作为特征，与...

WordPress网站首页description为什么不显示引擎随即抓取展示是怎么...

展开全部 Python有各种库提供网页爬取的功能；下面我们只用python的urllib2和newspaper库来抓取文章；然后需要使用正则表达式提取你需要抓取的网页首页里所包含的文章网址；提取网页正文内容的算法思路是这样，根据文本每一行和上下文的的长度来判断它是否是正文内容，这样来降噪，也就是去除杂质文本，我们可以使用Goose、newspaper、readbilitybundle等开源库来获取正文内容；安装好newspaper后直接from newspaper import Article。

大概简要说下写爬虫的几个步骤，在学习的过程中，有成就感会给你前进莫大的动力，学习爬虫也是如此，那么就从最基础的开始： Python有各种库提供网页爬取的功能，比如： urllib urllib2 Beautiful Soup:Beautiful Soup: We called him Tortoise because he taught us.lxml:lxml - Processing XML and HTML with PythonScrapy:Scrapy | A Fast and Powerful Scraping and Web Crawling FrameworkMechanize:mechanizePyQuery:pyquery: a jquery-like library for pythonrequests:Requests: HTTP for Humans 下面我们只用python的urllib2和newspaper库来抓取文章：首先用urllib2将页面抓取下来，打印查看一下，新手就是要多print print print 重要的事情说三遍！ import urllib2 import re #re是正则表达式，用于匹配文本，提取网页首页里文章的url地址 import sys reload(sys) sys.setdefaultencoding('utf-8') #这里是设置默认的编码，一般为utf-8 url='www.example.com' req=urllib2.Request(url) html=urllib2.urlopen(req).read（) 可以用print html 查看一下获取的网站首页内容，一般包含了许多杂七杂八的东东，比如广告、版权声明等等等，所以需要使用正则表达式从杂乱无章的内容中提取url 然后需要使用正则表达式提取你需要抓取的网页首页里所包含的文章网址 url_list = re.findall('<a target=＂_blank＂ href=＂(.*) ＂ title=',html）#示例获取的文章地址一般存在一个list列表中，你可以使用print type(url_list)来查看获取的url类型，如结果输出可能是这样子： ['http://www.example.com/article1', ''http://www.example.com/article2', ''http://www.example.com/article3'', ''http://www.exampele.com/article4'，] 那么我们就可以使用for循环来获取每一篇文章的url，有了文章的url就好办啦，因为往往我们用urllib2和正则表达式结合获取的是有很多噪声内容的，也就是杂质比较多。

提取网页正文内容的算法思路是这样，根据文本每一行和上下文的的长度来判断它是否是正文内容，这样来降噪，也就是去除杂质文本，我们可以使用Goose、newspaper、readbilitybundle等开源库来获取正文内容，正文抽取的开源代码，基于文本密度的html2article：我为开源做贡献，网页正文提取——Html2Article 基于标签比例的机器学习Dragnet: GitHub - seomoz/dragnet: Just the facts -- web page content extraction 专注新闻类网页提取的Newspaper:GitHub - codelucas/newspaper: News, full-text, and article metadata extraction in Python 3 集成goose等三种算法的readbilitybundle GitHub - srijiths/readabilityBUNDLE: A bundle of html content extraction algorithms 这里我们使用newspaper，我在这里参考了网页正文提取工具这篇文章，感谢作者！安装好newspaper后直接from newspaper import Article，然后按照以下步骤几步就可以搞掂啦！ for i in url_list: a=Article(i,language='zh') a.download() a.parse() dst=a.text title=a.title print dst print title 当然文章的url列表有可能也是这样： [（'http://www.example.com/article1','lhosdoacbw'）' ('http://www.example.com/article2','e83ry97yfr7fg9') ('http://www.example.com/article3','jdoqf8yyrfrohr') ('http://www.example.com/article4','djq0u9u0qfh8q')] 要获取文章的url也很简单，使用range函数 for i in range(len(url_list)): urls=url_list[i][0] a=Article(urls,language='zh') a.download() a.parse() dst=a.text title=a.title print dst print title 也有很多坑，主要是环境配置的安装的时候会有各种不成功，比如Scrapy安装的时候会要求预装很多其他的库，烦不胜烦，Windows系统那就更麻烦了，我用ubuntu配置环境没成功，怒而转向我在搬瓦工买的vps，装了centos系统后就方便多了，当然还有python版本的问题，centos6.5默认python版本是python2.6，所以需要升级并设置默认环境和版本。

这样再结合wordpress xmlrpc就可以把爬取的内容发送到你的网站了，再使用Linux系统里的定时执行任务的程序crond，设置每个小时执行一次任务，写多个爬虫分别爬取不同的站点在不同的时间段定时执行，简直不能再酸爽！！！

转载请注明出处51数据库 » wordpress机器人抓取

WordPress网站怎样正确设置robots.txt

机器人抓取时怎么定位的？用什么传感器来检测

WordPress网站首页description为什么不显示 引擎随即抓取展示是怎么...

WordPress网站首页description为什么不显示引擎随即抓取展示是怎么...