母延年:希望以后提到Lucene除了ES还能想到录信

在搜索领域你可能没有听过“录信”,但是一定听过Lucene。

录信数软CTO 母延年

“‘录信’是‘Lucene’的谐音,我的Lucene发音不太准。”在刚刚过去的SACC2019大会上,录信数软CTO母延年讲到公司名字由来时脸上满是笑意,那笑意里有他对Lucene十多年的热爱与坚持,也有对万亿级数据时代到来的信心。

垂直深处有洞天

Apache Lucene被誉为迄今为止最先进、性能最好、功能最全的搜索引擎库,业内耳熟能详的Elasticsearch(ES)便是基于Lucene 的开源搜索引擎,目前在大数据搜索领域ES基本上一家独大。

2018年10月ES的母公司Elastic在大洋彼岸敲钟上市,这被视为技术创业者的春天来了。在此三个月前,一家名为录信数软的中国技术公司正式注册,基于Lucene开发支持超万亿级规模的大数据搜索与统计产品,要与ES分一杯羹。

在数据是新石油的大数据时代,创业者众多,2013年被称为中国大数据元年,前后涌现了大批大数据创业者,有的基于业务有的偏于底层,经过7、8年的发展,当初的创业公司大浪淘沙后不少从工具做到了平台,而平台间的厮杀要拼技术、资源与生态。

“如果现在做平台的话,可能机会不是特别多了。”创业初期母延年就决定深耕垂直领域,躲开红海的厮杀,发挥自己的长处。从新浪做搜索第一次接触Lucene到现在十多年,虽然中途辗转过几个公司,但是技术方向从未变过,一直是Lucene,他了解Lucene的任何细节,明白自己的长处是索引,录信一开始也定位在做一个有垂直特性的小插件。在服务客户的时候与更懂业务的行业集成商合作,发挥自己的技术优势。

业内做索引大多是基于ES,对于一家商业公司而言无法随便更改。录信一方面做ES没有的特性,基于Lucene开发可以搜人、搜图、搜轨迹等,另一方面与ES形成互补,基于Hadoop存储对于容灾以及过载保护有独特的优势。此外优化改造Lucene使之支持列簇存储,能够根据场景存储,实现万亿数据秒查。

根据IDC预测,全球数据总量预计2020年达到44个ZB,中国国数据量将达到8060个EB,占全球数据总量的18%,海量的数据带来很多挑战和机遇。

去年8月份,录信推出了检索分析型数据库,恰逢军民融合的浪潮,其首个客户也是来自军队,随着国产自主可控的需求加大,海量数据的处理涉及很多特性场景ES的通用解决方案的不足也逐渐凸显,录信迎来了自己的机会,凭借产品的高性能和低成本,其客户也延伸到公安、汽车等行业。

随着合作的深入,基于客户的需求录信也不断延展自己产品,某一合作客户有数据统计分析的需求,海外的一款产品1T数据量需要20万元,而该客户一个集群几亿数据成本太高,录信自研推出了自己的统计分析型数据库产品,将成本降到了几百万元,而在服务客户的过程中发现有些客户有一体机的需求,推出了检索分析一体机。

目前录信已经推出检索分析型数据库、统计分析型数据库、检索分析一体机三款产品,与行业集成商累计服务300多个项目,涵盖公安、军队、汽车等垂直行业。

技术之外多修行

成立一年多来录信目前有20多人,支撑起300多个项目已经达到了较高的人均产出比,这离不开母延年最初产品化发展的路线。

“我更适合做产品,ToB服务每个行业做项目都需要理解定制化的需求。如果按照项目堆很多人,成本不合算,我们出产品,与行业集成商一起为客户提供整体解决方案。”现在市场的认可给了母延年更多的信心,而可以经受风雨的信心需要与现实的磨合积累。

任何公司应用新的技术都会比较谨慎,尤其是录信服务的几个行业可能会更慎重。一开始从边缘业务和场景测试,慢慢向核心业务转直到生产环境中。最初第一个军队的客户测试了半年多还没有成单。卖掉股票创业的母延年对启动资金能支撑多久心里没底,对奋斗的小伙伴也有肩上的责任,他开始质疑自己的这次创业。

消除质疑的最好方式是实践,在反思与坚持中伴随着努力、等待和希望,后来慢慢得到军队和公安几个客户的认可,“吃了一颗定心丸。”母延年回忆。

几乎每个创业者都会经历一个探索期,产品在探索中不断打磨,而创业者也会以更快的速度成长。“创业跟之前在阿里、腾讯工作完全不一样,在阿里、腾讯工作比较单纯,就是我只需要做这一样事情做好就可以,创业要教代码、带团队、融资,也要制定好企业未来的方向。”没有谁是天生的领导者,母延年在Lucene十年如一日的积累让他在搜索技术方面有了可以与ES一较高下的资本,而创业需要综合能力,木桶效应会被无情的战场放大,所以他快速意识到团队的重要性,势必要建立一支真正无往不胜的战队。

如今录信以平均每天都有项目在上线的速度增长,客户从测试到落地周期也缩短到三个月。母延年相信随着5G的不断商用,万亿级数据时代会真正到来,那是录信团队可以一展身手的舞台。未来录信一方面会深挖垂直领域的索引和分析场景,比如时空分析、音波碰撞、农业图谱等,另一方面会探索更多与特种硬件的结合,比如一体机与GPU结合性能可以提升一个量级,都需要从Lucene底层架构改造,那正是他擅长的地方。

在这次采访过程中母延年一直强调要感谢这个时代,资本与市场都逐渐认可纯技术研发创业者。创业维艰,技术之外还有很多需要录信团队去思考摸索,我们愿意相信常怀感恩之心的人运气终不会太差。

“大家一提到Lucene,除了能想到ES以外,还能想到录信。”这是母延年最朴素的期望,他认为对于有巨大需求的市场一家独大不太正常,国内也需要更多的人投入到基础研发领域。

对于技术创业者来说,这是最好的时代,没有任何一个时期能像现在这样对底层技术需求如此之深而迫切,这也是最坏的时代,没有任何时代像现在这样瞬息万变。而对于能够把自己喜欢的事变成事业的人来说,好和坏还那么重要吗?

Image placeholder
zhenglianxin
未设置
  32人点赞

没有讨论,发表一下自己的看法吧

推荐文章
代表性企业级大容量氦气硬盘解析:希捷Exos X14

 海量数据时代,AI、大数据、物联网等技术不止带来了业务应用的转型,还带来了数据的“井喷式”爆发增长。IDC曾预测,2025年全球数据量将高达163ZB。在如此情况下,数据存储成了一个至关重要的问题,

先加载css还是js?

先加载css还是js?先加载css,后加载js。因为css加载会阻塞浏览器渲染,为了打开网页白屏时间缩短,会优先选择加载css;后加载js是因为js中可能会修改dom元素,js加载会阻塞浏览器解析ht

远程工作第三年:2019年总结

去年,我35岁,一不小心就达到这个尴尬的年龄。这一年,是我远程工作的第三年,也是我在OpenRestyInc.工作的第二年。去年,儿子开始上小学,正式受教育。远程工作继2018年我退掉共享办公的工位之

万万没想到,HashMap默认容量的选择,竟然背后有这么多思考!?

集合是Java开发日常开发中经常会使用到的,而作为一种典型的K-V结构的数据结构,HashMap对于Java开发者一定不陌生。在日常开发中,我们经常会像如下方式以下创建一个HashMap:Map ma

机器扭碎,强力消磁还能恢复!数据中心年年升级,废弃“云垃圾”让谷歌头大

大数据文摘出品作者:蔡婕、林安安、曹培信今年7月1日,《上海市生活垃圾管理条例》正式实施,它被称为“史上最严垃圾分类措施”。条例一出,这4种颜色的桶,就彻底改变了上海人民的生活。但是一种新型的垃圾——

四面受敌!ARM暂停与华为合作,芯片备胎计划还能执行么?

大数据文摘出品作者:周素云、蒋宝尚一波未平,一波又起,华为四面受敌。继谷歌限制华为的安卓服务后,当地时间5月22日,BBC报道英国芯片设计商ARM刚刚宣布暂停与华为合作!根据BBC获得的内部文件,AR

css 常用知识点全在这里了。哪位大侠还能补充?

努力学习与总结是对自己能力的提升,也希望能帮助到同学们。BFC块状格式化上下文(blockformattingcontext)简称BFC:是页面上的一个隔离的独立容器,容器里面的子元素不会影响到外面的

除了5G,华为还有Wi-Fi 6

Wi-Fi6,这个处在“风口浪尖”的新技术,正以迅雷不及掩耳之势蹿红网络,成为继5G之后又一个热点话题。在变革当前无线网络应用承载的方式上,Wi-Fi6扮演着重要的角色。  ▲华为WLAN产品总监李兴

八年之痒!除了NLP和CV,人工智能就不能干点别的啥了?

大数据文摘出品来源:medium作者:SergiiShelpuk编译:王转转、junefish、武帅、钱天培从2012年AlexNet惊艳亮相开始算起,AI已经经历了将近8年的蓬勃发展期。这一迅猛发展

Gartner发布:2019年UCaaS魔力象限

随着企业在其UC解决方案中寻求更高的可扩展性,UCaaS已成为许多品牌获取技术的实际途径。每年,Gartner都会通过UCaaS魔力象限来帮助各种规模的公司探索UCaaS领域的主要供应商。该报告讨论了

Kubernetes 基础信息:什么是 Kubernetes?

简介 Kubernetes(常简称为K8s,在希腊语意为“舵手”或“驾驶员”)是用于自动部署、扩展和管理容器化(containerized)应用程序的开源系统。 由JoeBeda、BrendanBur

Stylus系列——webpack-spritesmith配合stylus使用示例

一、前言基于Webpack的CSSSprites实现方案,若是直接在html中调用雪碧图图标已经很方便,但是实际开发过程可能遇到需要在伪元素中使用雪碧图,或者需要hover切换另一个图标,这种情况下就

配置 Horizon 的 queue, balance, processes 参数以及 Redis 中的优先级

我假设你正在使用redis和 LaravelHorizon,要开始配置horizon,仅需用我下面的命令清空所有进程队列任务中horizon的仪表盘。我也曾在本系列的a教程中描述过 链接:phpar

基于JS的高性能Flutter动态化框架MXFlutter

导语:18年10月份,手机QQ看点团队尝试使用Flutter,做为iOS开发,一接触到Flutter就马上感受到,Flutter虽然强大,但不能像RN一样动态化是阻碍我们使用她的唯一障碍了。看Goog

Flutter路由项目实战之fluro

github:https://github.com/zhengzhuan...关于flutter路由,在小项目中,就按照原生写法,但是在大型项目中,这样的我就不会进行推荐,我这里使用的fluro路由管

mysql5.7 General tablespace使用说明

GeneraltablespaceGeneraltablespace 是一种共享的 innodb 表空间,有点类似 ibdata1 。可以在一个表空间数据文件下存储多张表,即使这些表来自不同的 sch

02.4. struct 类型

struct Go语言中,也和C或者其他语言一样,我们可以声明新的类型,作为其它类型的属性或字段的容器。例如,我们可以创建一个自定义类型person代表一个人的实体。这个实体拥有属性:姓名和年龄。这样

笨办法学 Linux 学习处理文件,`pwd`,`ls`,`cp`,`mv`,`rm`,`touch`

Bash:处理文件,pwd,ls,cp,mv,rm,touch 在Linux中,一切都是文件。但是什么是文件?现在完全可以说,它是一个包含一些信息的对象。它通常定义如下: 计算机文件是用于存储信息的

gMIS吉密斯十年执念:Lower Costs较低成本Better Productivity较高效率

Hello2020!元旦快乐!今起揭开21世纪20年代的篇章.1.gMIS吉密斯十周年2010-2020,十年转眼已成历史,gMIS吉密斯——通用管理信息系统(generalManagementInf

如何在浏览器中获取 Production Mode 的 React 实例

https://github.com/LiuuY/Blog...在ProductionMode下,React并没有暴露其实例。无论什么原因如果你要获取的话可以参考以下方法。条件浏览器安装了ReactD

你不知道的 CSS : Next-generation web styling

最近看了ChromeDevSummit2019大会视频,了解到了很多之前不知道的CSS新特性,挺有意思的。下面我就介绍几个激动人心的特性。特性总览:StickyStickeyStackSticySli

重回榜首!Facebook开源加强版BERT,全面超越XLNet

大数据文摘出品作者:宁静刚刚被拉下神坛的BERT又一次称霸了GLUE、SQuAD和RACE三个排行榜。今年六月,谷歌发布XLNet,指出并解决了BERT的缺点,在20多个指标上全面刷爆了BERT之前的

Twitter 宣布抛弃 Mesos,全面转向 Kubernetes

作者|阿里云智能高级技术专家张磊划重点Twitter的基础设施从Mesos全面转向Kubernetes阿里云容器平台团队即将开源 Kubernetes高级作业管理集合美国西部时间5月2日下午7点,Tw

【Kubernetes系列】第5篇 Ingress controller – traefik组件介绍

1.概述为了能够让Ingress资源能够工作,在Kubernetes集群中必须至少有一个运行中的ingresscontroller组件。也就是说如果在kubernetes集群中没有一个ingressc

Chaos Mesh —— 让应用跟混沌在 Kubernetes 上共舞

作者:殷成文2019年12月31日,我们在GitHub上正式开源了ChaosMesh。作为一个云原生的混沌测试平台,ChaosMesh提供在Kubernetes平台上进行混沌测试的能力。本篇文章将围绕