首先做一个词库,敏感词的。可以是xml或DB存储。其次,抓取页面信息,然后用敏感词对其过滤。(如果想做的人性化需要一个分词检索的语义库)再次,在抓取的时候可以获得到页面的最后修改时间和大小,对其保存入db。最后,再次抓取的时候通过比较“Last-modified”和“page Content”来判断页面是否被修改过。(页面大小和修改时间都可以通过获取页面头文件信息得到)1000万和1亿做起来没什么区别,通过服务器组分压运算,测试单台服务器硬件+软件性能,然后合理配置硬件和软件。
写小说时,敏感词怎么查找啊
l 一级词语:
名词:妓 女、妓 院、情 妇、一 夜 情、二 奶、乳 房、罩 杯、色 狼、处 女、床 伴、青 楼、内 裤、底 裤、内 衣、亵 衣、色 魔、熟 女、避 孕 套、婊 子、波 霸、初 夜、蕾 丝、老 鸨等。
动词、形容词等:包 养、上 床、蹂 躏、采 花、偷 欢、赤 裸、猎 艳、勾 引、强 奸、迷 奸、好 色、淫 荡、高 潮、自 慰、偷精 、卖 淫、性爱 、性 骚 扰、意 淫、破 处、吹 萧、打 炮、失 身、失 禁、虐恋 、虐 爱、虐 情等。
l 二级词语:
名词:一 夜、床、情 人、小 妞、宠、玩 偶、娇 妻、流 氓、情 夫、小 寡 妇、老 公 们、禽 兽、春 色、春 光、春 梦、猛 男、艳 星、艳 行、艳 遇、艳 记、艳 事、艳 史、寡 妇、金 瓶、禁 果、小 护 士、浴 女、外 遇、欲 望等。
动词、形容词等:变 态、同 居、诱 惑、缠 绵、暧 昧、纵 情、饥 渴、出 轨、呻 吟、闷 骚、风 骚、堕 落、坠 落、沉 沦 、御 用、调 情、调 戏、调 教、风 流、不 良、寻 欢、合 欢、偷 情、偷 腥、挑 情、同 眠等。
这是我们小说阅读网的敏感词,可以参考参考。
有没有写小说可以过滤敏感词的软件?
小黑屋有这个功能。过滤敏感字,自动保存 一键排版 查阅资料 一键发送至邮箱保存等众多实用的功能 你可以去下载一个试试用
网络敏感词都有哪些?
敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语,也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词。
网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词。
扩展资料:
敏感词汇是大部分论坛,为了方便管理,都进行了关于敏感词的设定。比如,当你发贴的时候带有某些事先设定的词时,这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(X)等,或者说是被和谐掉了。
参考内容:百度百科_敏感词汇
全文检索
1. “企业级安全”的搜索引擎
严格的信息安全分级体系,保证信息可管理性
企业搜索在安全方面的要求远远高于互联网搜索。企业内部的各种信息内容带有明显的安全级别属性和部门归属属性。几乎每个企业都严格规定了什么样的信息可以给什么样的人阅读,某种信息归属哪个部门发布与存储。
起点企业搜索平台针对企业内部信息系统中,不同的用户使用权限不同的这一特点,提供针对用户、对资源进行权限分级管理和控制能力,确保企业内部信息系统的安全。各种资源在接入系统时会要求设置安全级别,便于对用户访问行为进行控制。
可靠的安全保障手段,实现系统的授权访问管理
起点企业搜索平台广泛采用了用户帐号权限控制、IP地址授权和过滤技术,保证对系统的接入安全。通过信息智能分析和过滤机制,设置敏感词表和禁查词表,对检索结果中的敏感信息提供安全管理。实现完善的日志记录机制,保证信息的访问和阅读有据可查,便于及时处理各种信息内容安全隐患。
良好的安全扩展体系,可方便的与内部系统对接
起点企业搜索平台在数据采集和获取过程中,通过安全的扩展体系,支持以授权方式访问内部信息系统、内部文档目录,保证安全的基础上,实现信息的共享服务。支持对内部某些信息系统的权限统一管理,实现系统间的权限映射。
2. 多操作系统、多平台、多数据库支持
本产品支持的操作系统、应用服务器、数据库如下:
操作系统 Windows
Linux
Unix
应用服务器 Tomcat
Weblogic
Websphere
Resin
Apache
IIS
数据库 Mysql
Sql Server
Oracle
DB2
其它……
其它必备环境 JDK1.5 以上版本
3. 支持多数据源采集
通过指定文件服务器、数据文档目录等方式,灵活管理数据来源,根据不同目录或来源划分为后续安全管理提供自动级别信息。根据内容来源,判断是否需要进行文档格式化分析,将数据库直接读取的结构化信息和半结构化网页信息通过分析模块和元数据描述进行统一。
除了基于非结构化数据进行采集外,还可对PDF、WORD、HTML、TXT、各种图片等四十多种文件格式自动采集。同时根据用户需要本系统也支持采集其它各类数据源,例如:XML文件、其它数据池等。
4. 智能化的检索服务
起点产品在全文检索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等。通过这些技术,能够满足大多数智能化搜索需求。
5. 强大的信息海量数据实时索引和管理功能
起点产品不仅提供了快速检索功能(在千万级数据下,全文检索能在1秒钟之内完成),同时也有着高效的海量数据处理能力。每小时能处理百万的数据库数据,或是几十万篇的文档。包括中文的分词和建立数据索引。我们的产品在多个大型项目中经过了实际的检验,成功实施过多个超过5千万数据规模的项目。
6. 中文语言处理技术
中文语言处理是搜索引擎必须具备的技术之一,应用中文语言处理技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,起点产品集成了中文分词技术,并有着40万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。中文分词技术的准确率和召回率都达到96%以上。
7. 健壮可靠的系统,按需扩展
针对大型应用系统和海量数据的环境,提供多机分布式或双机互备的服务体系结构,通过把企业内部各种内容分布到不同服务器,可实现用户的应用层实现透明访问,支持松耦合自动切换的双机备份策略,提高系统的运行可靠性。分布式架构允许通过增加硬件的方式增加系统处理能力。
8. 支持多种语言开发接口,与其他系统无缝集成
起点产品以标准的WebService和标准XML方式提供多种语言开发接口,支持的语言包括.NET,JAVA,PHP等。可与各类WEB应用进行无缝集成。同时提供完善的二次开发API手册帮助及应用示例。
9. 操作简易、维护方便
起点产品提供完整的后台界面,所有配置和操作都可以通过IE访问产品后台进行,操作简易,维护方便,同时也不影响服务器的安全性。
参考资料:佛山起点软件服务有限公司官方网站
如何以内容中的某个关键词来在电脑中搜索word或excell文档
1。以前用过一个GOOGEL桌面搜索,非常强大,可以对文件类别、大小、查找位置进行设定,完全可以轻松实现你的要求,实现对内容关键词的搜索,就是建立索引文件时间相当长(网上应该可以找到这个软件)。
2。Everything是现行比较通用的文件搜索查找工具,主要是针对文件名、目录名级进行搜索,用它实现通过内容的关键词来找文档有一定的困难,不过可以试试。
探探知道对方的昵称可以查找好友吗?
不可以,要用手机号或账号才行
探探介绍:
探探是一个基于大数据智能推荐、全新互动模式的社交App 。
探探根据用户的个人资料、位置、兴趣爱好等信息,计算并推送身边与你匹配的人,帮助用户结识互有好感的新朋友 。
特色功能
上线不到2年,探探已经成为中国90后最受欢迎的社交、交友平台。
探探的“左滑右滑、互相喜欢才能聊天”的核心产品机制,给年轻人带来有趣、浪漫的独特体验。此外其安全、防骚扰的特点使其成为一款非常受女性受众欢迎的社交应用。
社交模式
大数据智能推荐用户——探探不仅基于LBS,还会根据用户之间 共同兴趣爱好、共同好友、曾经共同经过的地点等十几项信息,计算并推送与之匹配的人。
隐私保护
保护女性用户体验:只要男用户的聊天中涉及到“约”或类似敏感词,系统会立刻弹出窗口,询问女用户是否遭到骚扰,如果女生回答yes,那么探探人工客服会立刻介入调查。倘若发现情况属实,男用户就会被直接封机、封号,永久不能再注册探探。
社交环境
强力清除垃圾用户:探探的专门的人工审核团队,7*24小时清理营销账号和垃圾用户,对于部分营销号,审核人员会追溯至微信,永久封机、封号。
浪漫社交
陌生人社交也可以如此浪漫:为了让女用户在探探上更有浪漫的感觉,最新一版的探探推出了“擦肩而过”功能,给用户推荐和自己一天中经过相同地点的人,可以看到你们曾经“擦肩而过”的地点、次数。次数越多说明生活圈子越相近、越有缘份。
转载请注明出处51数据库 » 敏感词检索软件 关于监控网站敏感词的检索问题