聊聊IP地址库那些事儿

 人参与 | 时间:2015年11月29日 15:26

聊聊IP地址库那些事儿 好文分享 第1张

网络世界没有空间概念,但有几种方式可以将网民标注到物理世界的地理坐标上,比如GPS,比如IP地址。因为移动互联网的普及,GPS大概已经广泛地被人所知(连不会说英文的小贩都能准确说出“机匹诶死”四个音节),而IP地址却并不常被提起。

早期QQ聊天界面里输入框的侧栏用户信息栏里会标注对方位于“广东顺德”或者某个地址位置,这些地址信息就是根据IP地址给出的参考结果。每一个IP地址对应一个(或多个)物理地址,众多的IP地址及对应的地理信息就构成了IP地址库。

“高春辉的个人主页”的作者、手机之家创始人——那个网友说“看见您的名字,我就想起了96、97年刚上网那会儿”,现在就在做卖IP库服务的生意,网站叫IPIP.NET。

IP地址是有对应的物理地址的,但相互之间没有必然联系,运营商可以把一个IP 段比如103.196.XXX/XX分配到世界上任意一个角落,哪怕是分配好了也可以再变更,一个今天在赣州的IP地址,也许明天就可能变成南昌的了;有可能你去离家不到1公里的网吧登录QQ,系统会提示你“异地登录请注意账号安全”。IP信息是动态的,世界上没有一个100% 准确的IP库,只有相对准确的IP库——他希望做到 NO.1 的位置。

维护一个相对准确的IP地址信息库是相当卷帙浩繁的工程。他从做ipip.net到现在超过两年的时间,只有一天两天没有更新数据。“也不是真的一定需要每天更新,只不过要提着这股劲儿,怕松懈,一旦停下来有可能就会断掉了。我见过很多人做事情一开始是热火朝天雄心勃勃的,后来中途发生一点变故,就中断了。你看起点上那么多网络小说信誓旦旦地说‘绝不断更’、‘绝不太监’,后面还是因为各种各样的原因就没有然后了,连停更公告都没有。”

为什么会选择IP库这么考验耐力和毅力的工程?

这要从他2007年在ECSHOP的时候说起,那时候为了做用户访问分析,他开始接触IP库,当时市面上最主流的是纯真IP库,但纯真的数据结构相对杂乱,“北京”、“北京朝阳”、“呼家楼”,大到省级,小到楼栋,没有办法直接使用;并且因为无法验证,准确性也没有保障,一个被标注为北京的IP地址,实际上有可能是山东的。“当然就是想验证的话可能也验证不了,你凭什么验证呢?人家没条件又没收入,能坚持做就不错了。”他说。

纯真也是一个很特别的团队,十年如一日地维护着一个免费的IP库,保持五天一更新的节奏。“你试试?”

但那个时候,高春辉并没有打算要自己做一个IP库,因为觉得工程浩大,自己无法坚持下去:“光是想想一个40岁的大叔天天在电脑面前给你维护IP库,自己就先哭了。”

2011年,他开始做“爱壁纸”,这种图片应用用户对流量和下载速度都非常敏感,所以高春辉花了不少精力去研究如何改善体验,其中一件很重要的事情就是通过解析CDN 加速域名获知用户的物理地址。原先的爱壁纸业务趋于稳定,他在这件事上投入的时间越来越多,越发觉得目前市面上的IP库用得不顺手。“干脆自己做一个。”

认识他的人都知道他的风格是不走别人的老路,“一个不能和别人拉开档次的事情,绝对不干”。

首先是原始数据的积累,包括不限于利用市面上已有的数据库,解析、结构化、重新入库,自有或者其它可信任的数据来源,全球 WHOIS / BGP / ASN / RADB 数据,自行维护的全球 rDNS 以及骨干网路由 IP 数据库,运营商、客户、合作伙伴的反馈数据和网友提交纠错的数据等等。这些数据每天都在更新,新增,或者发生一些变化。

解决了原始数据积累,接下来就是数据准确程度的问题,高春辉用了280多个遍布于世界的云主机作为监测点,比如要验证一个IP是不是位于纽约,就从纽约就近的几个监测点去访问这个地址,从响应的速度——是不是一毫秒两毫秒——去判断这个地址是不是真的在纽约。

这280个监测点的分布,除了中国大陆、港台、亚太地区(澳门暂时没有)占据了不少之外 ,北美和欧洲分布也比较密集。“拉美和非洲加起来都不过10来个,印度也很少,监测点的分布和需求是对应的。现在很多国内厂商出海第一站是印度,那可能是物理世界的市场足够大,但对于我们这样的纯数字业务,感受不明显,反而不如巴西。”

每天对着一堆数字和表格,维护数据库是一个相当消磨耐心和毅力的工作。高春辉说,它首先是一个技术活,其次还是一个力气活,如果你问竞争对手做了怎么办,腾讯做了怎么办,你倒是让他们先去试试。

聊聊IP地址库那些事儿 好文分享 第2张

“我去见一个曾经维护过 IP 库的朋友的时候,聊着聊着就差抱头痛哭了,因为遇到的坑大部分是一样的。”他说。

IP库的需求和价值在哪儿?

对于处于草莽阶段的公司来说,验证产品需求是否强烈、商业模式是否可行是第一要务,用户地址定位的准确与否并不急迫,开发者往往从淘宝、新浪、百度的IP库里爬一些数据或者从纯真上面下载一个了事,这在粗放经营的业务形态里一般也没有什么大问题。

但对于产品形态已经确定、需要精细化运作的公司来说,IP地址的准确度和产品体验就发生了关系。一般来说,有如下几种场景需要IP地址库:

基于地理位置的服务,比如58同城,美团,大众点评,地方商超的互联网产品,需要根据用户的准确位置来推送相关信息,他的客户说,移动产品反而更需要精确的地域数据,毕竟GPS从用户角度,不是每个应用的强需求。

对访问要求比较高,比如游戏、在线视频、音频,静态内容等等,可以根据IP地址引导用户去就近就快访问服务器,用户体验会更有保障。

对于广告行业,有精准投放广告的需求,比如按照用户所在地域。

最普遍的需求就是做用户的地域数据分析,尤其是规模达到一定程度以上的情况,比如用户百万日活以上。

除此之外,任何互联网产品,如果能够有精确的地理信息,体验都会得到改善。十家公司做一样的产品,最终胜出来的只有一家,他们是产品形态、功能、创意上有什么本质的差别吗,或者可能只是因为那一家的响应速度比其他几家快了那么几十毫秒、推送的店铺离用户近了50米种种润物细无声的差异而已?

而据他说,他们维护的版本和别的IP库版本相比,差异度是随着时间逐渐加大的。

ipip.net现在的付费用户约200个,遍布安全、硬件、电商、移动广告、生活服务门户、CDN、云存储等领域。至于到底有多少公司需要用准确的IP库,高春辉并没有一个确切的答案,谁也不知道天花板在哪里。

“用户付费之后,你把离线数据库整包都发给他,这样数据不是很容易流出去?”

“我经常跟别人说,用户买的不是我们的数据,而是更新和维护服务,用户买回去基本上是‘开箱即用’,不需要自己折腾,我们有专人和专业积累来帮他们维护更新;加上定价也并不难以接受(高配版的年费9600,平均一个月800块,这个钱你连实习生都雇不到),一般企业用户不愿意也不应该花这个时间和金钱成本,他们的时间应该花在自己的‘刀刃’上,做好自己的应用,而不是在基础设施上较劲。如果他非要用这种方式去用,我也没办法干预,这样的用户,哪怕是没有备用选项,本来也没有多大可能会付费的。”他讲。

ipip.net仍然维持着不间断的数据完善和修正。“要不是跟你在这儿聊天,我可能这会儿就正在电脑前更新数据库。”目前,得益于那两百个付费用户带来的收入,ipip.net已经由依赖他个人热情的one man project变成了3、4个人的团队。

有用户付费使用更好的服务,一个团队因此有了良好的商业回报而持续输出稳定、可靠的服务,一部分没有支付能力的人可以无偿使用免费版——他正努力创造一个多赢局面。

他们也在研发新产品,也许就快就会推出来。

来源:雷锋网

相关阅读:

PV与IP的关系反应出什么?

百度来路IP和关键词原理是什么?

一个IP到底值多少钱

顶: 0踩: 0

来源:,欢迎分享,(QQ/微信:13340454)