‘网络’栏目的所有文章
浅谈验证码的识别技术
这些天出于一些需要,要求做程序识别某网站的验证码,于是潜心研究了一番,颇有心得,特此分享。
验证码识别这项工作不适合浮躁的人,它需要足够的技术和耐心。由于此技术的特殊性,任何一个被公开识别技术的验证码都会很快地失效,相关网站都会很快地更换验证码。所以本文只介绍最简单的验证码的识别和识别原理。
—————————
首先我选择一个最简单的验证码,找来找去,就选挑战网的评论验证码作为例子吧。随便打开挑战网一篇文章,找到发表评论处的验证码,查看其属性,获得其生成地址“ http://tiaozhan.com/checkcode.php ”。
显然,这是最简单的一类验证码:有固定的背景颜色,字符颜色,字体,连字符的坐标都是固定的。对于这类验证码,我们只需要对每个数字进行采样,建立标准库,然后应用的时候一一对照标准库,就可以轻易做到100%识别。
使用ImageCreateFromPNG函数把图片取回来,然后用imagecolorat函数取得每一个坐标点的色值,并且把第一个点的颜色确定为背景色。然后按照图像大小比例画一个表格,如果该单元对应的坐标颜色与背景色相同,不显示任何内容;反之显示黑色块。于是我们得到这样的分解图:
可以观察到,数字所占区域的y坐标是6-15,四个数字所占区域的x坐标分别为3-10,12-19,21-28,30-37。
于是建立以0-9为样本建立10个二维数组($arr_eg[0] – $arr_eg[9]),该数组每一个元素均对应该数字区域的每一个坐标,如果该坐标色值与背景相同,值为0,反之为1 。这就是我们的标准库。
识别的时候,同样取得四个数组,与标准数组一一对照,就可以精确地把四个数字识别出来。
同时附上此验证码识别程序,供大家研究。(demo.php是程序;arr.php是标准库)
附件: secode.rar (1688 字节)
———————–
以上的例子虽然简单,但是已经把基本原理介绍清楚了,就是 采样->建立标准库->应用->对照标准库->识别。
但是,实际应用中,遇到的往往不是如此简单的情况。比如下面是稍微复杂的一类验证码,它的背景和字符都不是纯色,还有很多干扰点,但其字符的坐标都是固定的。
首先我们对其进行去噪处理。就是首先把每个字符区域分割出来,按照出现的频率确定其主色值(字符的色值),然后去除与其相差大于一定程度的坐标,过滤之后得到目标所在的坐标数组,然后同样与标准库对照。但是这种情况下是不会精确吻合的,我们只能选择吻合度最高的昨作为结果。经过实践,识别率可以达到99%。
再难一点的,就是下面这种:使用了变色、干扰点、干扰线、变位等几种用于干扰手段。
与上一种不同,它的每一个字符所在的位置是不确定的,这就需要我们自己去确定其位置,把字符所占据的大小固定的那一个小块切出来。首先把所有的干扰点和干扰线去掉(去掉之后字符是有所“误伤”的,通常会缺1-3个像素点),得到比较干净的图,然后用一条横向和竖线去扫描它(比较形象的说法,具体如何实现请自己思考),把扫到的没有出现颜色的横竖线全部去掉,把分析范围缩到一个较小区域。然后再用竖线扫描,根据颜色的出现与否,又得到5个小区域,每个小区域再用横线扫,除去空白,得到目标区域。得到的目标区域有时候会比标准区域小想办法补全,然后对照,按吻合率最高的原则得出结果。最后识别率达90%以上。
再难一点。就是目前我研究的最难的一种了。如图,这种验证码除了干扰背景之外,每个字符的位置,大小,甚至字体都是不确定的。还好每个字符之间没有粘连。没有粘连就比较容易切字(当然要比上面那种难),切字之后字块大小不确定,所以很难建立标准库。我能想到的只有这样处理:切字之后对字块用横线或竖线扫描,根据其色块的坐标变化规律确定结果。目前正在实验中,能识别的字符还不完全,识别率也不甚理想。
———————
验证码识别这个问题算是人工智能和计算机视觉领域的一个难题。作为破解者,总是会处于劣势地位,而且此技术带有一定的不正当性,没有太多的研究交流,因此要做得很好,是非常困难的。而且个人对于很多OCR的技术,理解有限得很,不敢在此乱写,只能利用有限的知识,抛砖引玉而已。
KuiGG 2008-10-26
QQ 727136
E-mail i@kuigg.com
Happy birthday to Google
刚刚才发现Google的logo换了,还不明白是因为什么,看了一下logo的路径文件名(http://www.google.cn/logos/9th_birthday.gif),才知道是Google在庆祝自己生日。
小凡敬贺Google九年大寿,望多多发钱才是,哈哈。
iis命令行
Microsoft在安装IIS的时候同时安装了一个工具,叫 iisreset,你可以在winnt\system32 中找到它,他可以和PING一样以命令行方式使用。它有多个参数,下面是几个重要的,也是我们本文切题的参数:
/RESTART 停止后启动IIS
/START 启动IIS (如果停止)
/STOP 停止IIS (如果启动)
/REBOOT 重启电脑
/REBOOTONERROR 如果停止IIS失败重启电脑
/NOFORCE 不用强迫IIS停止
/TIMEOUT:X 在X秒后, IIS被强制停止,除非 /NOFORCE 参数给出.如果 /REBOOTONERROR 给出, 它重启电脑.
昨夜百度大更新,我的破博客两个词成绩不错
两个主关键词:
小凡 第5 http://www.baidu.com/s?ie=gb2312&bs=pda&sr=&z=&cl=3&f=8&wd=%D0%A1%B7%B2&ct=0
小葵 第1 http://www.baidu.com/s?ie=gb2312&bs=%D0%A1%B7%B2&sr=&z=&cl=3&f=8&wd=%D0%A1%BF%FB&ct=0
百度指数:
今天扔了几颗炸弹,希望“小凡”能排到第一…………
都是做着玩的,呵呵。
windows2003修改3389端口的方法
1、HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Terminal Server\Wds\rdpwd\Tds\tcp下的PortNumber=3389改为自宝义的端口号
2、HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Terminal Server\WinStations\RDP-Tcp下的PortNumber=3389改为自宝义的端口号
这样就可以关闭3389端口,避免被扫描到
APACHE2如何里一个站点绑定多个域名?用ServerAlias
以前很笨,要使多个域名指向同一站点总是这样写:
<VirtualHost *:80>
ServerAdmin i@kuigg.com DocumentRoot /www/kuigg.com ServerName kuigg.com
</VirtualHost> <VirtualHost *:80>
ServerAdmin i@kuigg.com DocumentRoot /www/kuigg.com ServerName www.kuigg.com
</VirtualHost> <VirtualHost *:80>
ServerAdmin i@kuigg.com DocumentRoot /www/kuigg.com ServerName abc.kuigg.com
</VirtualHost> 这样一来就等于绑了多少域名就开了多少虚拟主机………… 后来看了看书,发现有个叫”ServerAlias“的东西可以用 其实可以这样: <VirtualHost *:80>
ServerAdmin i@kuigg.com DocumentRoot /www/kuigg.com ServerName kuigg.com ServerAlias www.kuigg.com abc.kuigg.com
</VirtualHost> 要绑多少个域名都可以写在 ServerAlias 后面,用空格隔开即可
301重定向的实现方法
页面永久性移走(301重定向)是一种非常重要的“自动转向”技术。
301重定向可促进搜索引擎优化效果
从搜索引擎优化角度出发,301重定向是网址重定向最为可行的一种办法。当网站的域名发生变更后,搜索引擎只对新网址进行索引,同时又会把旧地址下原有的外部链接如数转移到新地址下,从而不会让网站的排名因为网址变更而收到丝毫影响。同样,在使用301永久性重定向命令让多个域名指向网站主域时,亦不会对网站的排名产生任何负面影响。
302重定向可影响搜索引擎优化效果
迄今为止,能够对302重定向具备优异处理能力的只有Google。也就是说,在网站使用302重定向命令将其它域名指向主域时,只有Google会把其它域名的链接成绩计入主域,而其它搜索引擎只会把链接成绩向多个域名分摊,从而削弱主站的链接总量。既然作为网站排名关键因素之一的外链数量受到了影响,网站排名降低也是很自然的事情了。
综上所述,在众多重定向技术中,301永久性重定向是最为安全的一种途径,也是极为理想的一款解决方案。
对于正确实施301重定向,有这样几个方法可供大家参考:
1.在.htaccess文件中增加301重定向指令
采用“mod_rewrite”技术,形如:
RewriteEngine on
RewriteRule ^(.*)$ http://www.kuigg.com/$1 [R=301,L]
2.适用于使用Unix网络服务器的用户
通过此指令通知搜索引擎的spider你的站点文件不在此地址下。这是较为常用的办法。
形如:Redirect 301 / http://www.kuigg.com/
3.在服务器软件的系统管理员配置区完成301重定向
适用于使用Window网络服务器的用户
4.绑定/本地DNS
如果具有对本地DNS记录进行编辑修改的权限,则只要添加一个记录就可以解决此问题。若无此权限,则可要求网站托管服务商对DNS服务器进行相应设置。
DNS服务器的设置
若要将其它域名指向http://www.kuigg.com,则只需在DNS服务中应增加一个别名记录,可写成:blog IN CNAME http://www.kuigg.com。
如需配置大量的虚拟域名,则可写成:* IN CNAME www.kuigg.com.
这样就可将所有未设置的以kuigg.com结尾的记录全部重定向到www.kuigg.com上。
5.用ASP/PHP实现301重定向:
ASP:
Response.Status=”301 Moved Permanently”
Response.AddHeader “Location”,”http://www.kuigg.com/”
Response.End
PHP:
header(“HTTP/1.1 301 Moved Permanently”);
header(“Location:http://www.kuigg.com/“);
exit();
做英文站须知(整理中……)
1、尽量原创,谨慎采集,因为老外都很注重版权,而且比较认真,采集多了没准那一天会惹事上身;
2、服务器一定要在国外,国内的ip做英文站老外访问慢,搜索收录也不好;
3、编码问题,千万不要搞个gbk,老外看乐是乱码;
4、如果是买国外的空间,一定要可以在线打包解压的,要不一个个传零碎文件会很久;
5、空间不要光看着在国内访问快,关键是要老外访问快。这里采用的是位于美国Kentucky的第3方网站来测试!(测试从美国连接您的站的反应速度)
http://www.dnsstuff.com/tools/ping.ch?ip=www.***.com(将www.***.com换做目标站域名)
seo黑帽作弊范例
上个月我上网查win2003服务器的配置教程,在百度查找“win2003教程”排在首位的是 http://www.5fi.cn/?bloggerlog/server-blog/tqrn
(现在已经被百度无情地k掉了)
这个页面的源代码 如下:
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”>
<head>
<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ />
<title>2003服务器的配置</title>
<link href=”/css/global.css” rel=”stylesheet” type=”text/css” />
</head>
<body>
<h2>2003服务器的配置</h2>
<div class=”po”>
<h1>2003服务器的配置</h1>是在具有与Internet<h1>2003服务器的配置</h1>时实相连的数据中心(IDC)放置一台服务器,或向其<h1>2003服务器的配置</h1>租用一台服务器,客户可以通过远程控制将服务器配置成WWW、E-mail、Ftp等功能的服务器。虚拟主机<h1>2003服务器的配置</h1>托管是指:将一台UNIX或NT系统整机<h1>2003服务器的配置</h1>的硬盘划细,细分后的每块硬盘空间可以被配置成具有独立域名和IP地址的www、email、FTP服务器。这样的服务器,在<h1>2003服务器的配置</h1>被人们浏览时,看不出来它是与别人共享一台<h1>2003服务器的配置</h1>主机系统资源的。在这台机器上租用空间的用户只能通过文<h1>2003服务器的配置</h1>件传输(FTP)等手段来控制属于他的那部分空间,达到有限的功能配置<h1>2003服务器的配置</h1>如信息的上下载等。而服务器托管的用户则可以通过远程控制软件(如PCANYWHERE)来完全控制自己的服务器,从<h1>2003服务器的配置</h1>而实现各种应用功能。 随着<h1>2003服务器的配置</h1>网络资源服务市场的<h1>2003服务器的配置</h1>成熟,现在发展起来的共有三种基本的网站系统方式:虚拟主机,整机租用以及服务器托管。<h1>2003服务器的配置</h1>整机租用是由数据中心提供服务器,只能有一个客户或者是网站通过租用方式使用它,并且由 Internet数据中心替客户进行管理维护。<h1>2003服务器的配置</h1>您轻松享受从设备、环境到维护的一整套服务。服<h1>2003服务器的配置</h1>务器托管是客户自身拥有一台服务器,并把它<h1>2003服务器的配置</h1>放置在Internet数据中心的机房,由客户自己进行维护,或者是由其它的签约人进行远程维护。两者相比,整机租用在成本和服务方面的优势更为显著。它让您起步更轻松,不仅综合性价比更优良,且有很好的可扩展性和多样<h1>2003服务器的配置</h1>化的选择服务器品牌和操作系统。</div>
<div class=”asdf”>
<div class=”fff”>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqrt>win2003 终端服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqrq>2003服务器的安装</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqrj>2003服务器教程</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqrd>2003服务器 端口</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqrb>微软服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmu>微软补丁服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmr>制作微软补丁服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmm>msn 服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmw>msn服务器下载</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmn>msn的服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmt>msn 服务器地址</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmq>msn 服务器ip</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmj>msn 国内服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmd>msn邮箱服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqmb>msn邮箱服务器地址</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwu>exchange服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwr>exchange服务器架设</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwm>win2000 2003服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqww>win2003服务器版本</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwn>win2000 邮件服务器</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwt>sina邮件服务器地址</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwq>sohu邮件服务器地址</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwj>新浪邮件服务器地址</a></h2>
<h1><a href=http://www.5fi.cn/?bloggerlog/server-blog/tqwd>网易邮件服务器地址</a></h2>
<h1><a [...]



wordpress中默认的发邮件用户和地址的修改方法
wordpress中默认的发邮件用户和地址是 WordPress <wordpress@kuigg.com>
我想把它修改成 kuiGG <i@kuigg.com>
研究了一下,找到修改的方法:
需要修改的文件是 wp-includes\pluggable.php
搜索“wordpress@” 有两处 都改成 “i@”
还有 找到以下代码
1
2
3
if ( !isset( $from_name ) ) {
$from_name = ‘WordPress’;
}
修改成
1
2
3
if ( !isset( $from_name ) ) {
$from_name = ‘kuiGG’;
}