English version | 旧版链接
An expert is one who knows more and more about less and less.
      ——Nicholas Murray Butler
大数据侦查到人工智能的进化
谢君泽 | 本站 | 2018-4-20 | 240
大数据侦查 人工智能 行为建模 犯罪学模型

大数据侦查到人工智能的进化


本文系笔者在2018年4月10日“智慧公安协同创新论坛”的发言整理稿

作者评论:本文的行为建模适用范围是很广的。除了侦查,还有各领域的网络执法,各互联网企业的平台监管,各大网络服务系统的安全监测(入侵监测),甚至是所有网络领域的涉违法违规行为的大数据监管,这也是未来人工智能监管的发展方向。facebook扎克伯格讲的人工智能解决安全问题,正是讲这种智能监管。推荐从事和研究大数据建模的朋友阅读!

      前面两位公安专家分别讲了视频侦查和人工智能,而我讲的主题刚好是侦查和人工智能的结合。关于大数据,我近年也一直有跟踪研究,但我只关心大数据的建模问题。因为没有好的建模,大数据发挥不了任何价值。那么其他问题也就无从说起。如果在坐有研究大数据建模的朋友,应该会对这个问题比较感兴趣。

我的这个主题是有感而发。最近我参加一个大数据平台建设的专家论证,发现大数据侦查出现了很多负面的问题。比如,有领导提出,侦查大数据平台建设以后,干扰性信息太多,有效信息很少。也有干警提出,现在是数据越大案件越难办,还不如像以前做简单的话单分析就能找到嫌疑人。前面公安大学陈刚教授也讲了,好的侦查手段一定是又好又快。那为什么大数据侦查出现了负面走向:数据越大,效率越低,效果越差。

我的思考是:大数据的自然属性制约了侦查的社会功能。我们知道现在能用来做侦查的数据越来越多,我们号称可以在大数据平台中可以挖掘到至少6级以上甚至无限量的数据信息,然则有意义的信息却少之又少。这是为什么呢?这里反映了大数据的第一个自然属性问题:“海量性”。我们的大数据侦查是从海量的“大”数据输出了一个“较大”数据,而不是有侦查价值的“小”数据。其次,还有大数据的第二个自然属性“混杂性”,也就是说有价值的侦查信息与大量的无关信息混杂在一起,当我们无法把有价值的侦查信息从混杂的大数据中提取出来,混杂性变成非常大的“干扰性”。再者,大数据的“相关性”也给我们带来了困扰,如果无法把无关的信息剔除出去,大数据的“相关性”走向了负面,即“无关性”。以上就是大数据侦查出现负面走向的根本原因。

     那么,我们就要进一步思考,侦查领域的大数据和其他领域的大数据有什么不同吗?我们都说大数据可以预测未来,但是不幸的是,侦查的社会功能并不是为了预测未来,而是为了查明过去。鉴于这个原因,有人曾经提出来,侦查领域从来都没有“大数据侦查”,而是“数据大侦查”,这是有些道理的。其次,前面公安大学的陈刚教授也讲到,好的侦查手段一定要“又好又快”。这也反映了侦查具有“效率与效果需要兼顾衡平”的社会属性,这与其他领域也是不尽相同的。如果大数据侦查花费的时间非常大,那么它就有可能被人遗弃。最后,由于大数据侦查属于司法领域的问题,它并不关心相关事实,而只关心行为事实。虽然大数据平台能查到嫌疑人的祖宗十八代关系,但是如果这些信息跟他的犯罪行为事实没有任何关系,那都是没有侦查价值的“相关事实”。我们所关心的是嫌疑人在案发前后跟谁联系,在什么地方,做了什么事,这些与行为事实有关的信息。就比如今天的会议,如果大数据平台只告诉我,我和陈刚老师是认识的,那没有任何意义。我需要大数据平台告诉我:什么时间什么地点,我和陈刚老师在一起做什么事。总言之,如果大数据平台不能把行为事实从相关事实中剥离出来,这一定不是一个成功的大数据侦查。

那么,如何突破大数据侦查的这些“瓶颈”呢?其实陈刚老师刚才在讲视频侦查的时候已经侧面反映了结论,那就是把“静态关系”变成“动态过程”。陈刚老师刚才在发言的时候,我很注意他说的细节。当视频的信息量非常大的时候,如果它只是静态的,那是看不到侦查价值的。只有通过“串联法”和“关联法”让信息动态地展示出行为的过程,这才有了侦查价值。显然,不管是大数据侦查,还是视频侦查,它们与传统侦查的思维方法原理都是一脉相承的,没有本质区别。我们最关心的是行为的动态过程,而非人与人之间的静态关系。所以,以后的大数据侦查平台不要再告诉我们谁跟谁认识,而应该告诉我们案发时间、案发地点,谁与谁接触过,干了什么事情。

那么,如何让大数据侦查平台达到前面所说的目标效果呢?这就涉及到建模的问题。模型是大数据的生产线!这里,我首先想跟大家分享一下我这几年在网络法理学方面的研究心得,这也许有助于大家理解这个问题。在座的各位,不管是研究大数据的,还是研究人工智能的,亦或者是研究网络法学或电子证据的,都一定听过一句话,那就是:法律一定要与技术相结合。那么请问在座的各位,谁知道“法律与技术到底该怎么结合”?那么,我告诉大家我的研究结论是:法律与技术相结合一定要以“行为”为中介。也就是说,如果你要做好法律与技术相结合的研究,一定要研究“行为”。为什么呢?原因很简单。技术改变的是人的行为方式,人的行为方式改变了,法律对行为方式的评价规则就要改变了。如果现在在互联网领域发生了一个新型案件,你非要引用现有的法条去生搬硬套,你就会发现怎么解释都是不恰当的。这就是法学思维方法上出现了问题。正确的思维方法应该是,先考虑这个新型网络案件中,网络技术是怎么影响人的行为,这种行为跟原来立法时所假定的行为模式是不是相同的。如果是,那么可以援引原来的法律规则,如果不是,恐怕就要考虑运用法律解释学进行能动性的解释,甚至有必要对现有法律条文进行颠覆性的改造。当然,这里又涉及到立法和司法的法学原理问题,有机会我们再深入讨论。那么,侦查作为司法活动的一部分,它也是同样适用前面所说的法学原理的。侦查怎样与技术相结合?那就是行为。通过技术从海量数据里提取出与行为有关的信息,才能有效地得出侦查结论。

提出问题,就要解决问题。说说在大数据侦查中如何解决大数据的“相关性”、“混杂性”和“海量性”所带来的负面问题。第一个问题,很多人知道大数据只有相关性,但仅相关性不能成为司法证明里面的证据。原因非常简单,司法证明要求有因果性,没有因果关系只有相关关系不能成为司法证据。那么,如何打通大数据的相关性与司法证明的因果性?答案是以行为关系为中介。比如说,现在许多互联网企业都面临着一种新的犯罪形态,叫“刷量”。如,刷广告,刷注册、刷评价等等。我这两年就办了好几个这样的案件,我的思路分为两部分:第一,定罪的大数据一定要形成行为闭环,建立因果关系。第二,没有行为闭环、没有因果关系的大数据作为量刑情节。这就是通过行为建立大数据因果关系的方法。

      第二个问题,怎样从“混杂性”数据变成有侦查价值的“小”数据?我想大家应该知道目前大数据领域的建模方法主要有两种:数据驱动的建模和需求驱动的建模。所谓的数据驱动的建模,就是说:我不管你有什么具体的需求,我只告诉你通过大数据分析现在有什么样的结论。至于这些结论是否满足你现在的需求,那就不知道了。数据驱动建模的主要功能是用于预测未来,显然侦查中是不会用到数据驱动建模的,反倒是犯罪预防很可能需要使用这种建模方法。至于需求驱动的建模,更好理解,目前侦查系统所谓的“一键搜”就是,它的需求就是:告诉我跟这个人或者这个手机号有关的信息有哪些。但是,大家一定要明白一个道理:侦查的需求和“一键搜”的需求,完全不是一回事。“一键搜”的需求是明确的,那就是找到与指定人或指定手机号所有相关的信息。而侦查的需求是找到本案的作案人,这是一种抽象而不明确的需求。既然连需求都是不明确的,大数据侦查显然不应该也不可能采取需求建模的方法。可见,在其他领域大数据所经常使用的数据驱动建模和需求驱动建模,在侦查领域都是行不通的。

      那么,在侦查领域大数据如何建模呢?结论是以行为特征为中介。这是由大数据侦查的本质是以行为事实而非相关事实为追求目标所决定的。这就谈到了大数据侦查独特的建模方法:行为建模。行为建模在行业里有两层次的含义:一种是侦查学模型,它其实就是各种类型案件的“技战法”。侦查学模型往往是被动的,只有等案情需要时,才会使用侦查学模型去“寻找”数据信息,它一般不能达到机器主动侦查的效果。另一种是犯罪学模型,也叫犯罪行为模型,它必须能反映某种类型犯罪的行为特征、行为方式、行为规律。有了这样的行为模型以后,大数据平台才能主动并自动地去运算和匹配,并得出具有侦查价值的“小”数据结论。我们所说的大数据侦查建模是指犯罪学模型而非侦查学模型。

      其次,行为建模的方法非常注重行为要素的分解,并且具体的分解方法与案件类型悉悉相关。比如,对公安的以事“找”人案件,它应该更注重行为时间要素和行为空间要素的分解。即,找到在案发时间、案发地点与被害人接触的人。而对于贪污受贿案件,则应更注重行为对象要素和行为结果要素的分解。即,找到官员的非法钱财及相关的行贿人。不论若何,要想从大量看似相关的数据中快速有效地发现具有因果关系的数据,必须从侦查学模型进化到犯罪学模型。

      为了让大家更感性的理解犯罪学行为建模的魅力,我举一个具体的成功案例,这就是公交大数据抓小偷。这种建模的第一步是:提取正常行为特征:从热点区域A到热点区域B的交通轨迹,绝大多数的行人会选择最优的交通方式(最短时间/距离,或者最少的换乘)。当然,这里还要考虑不同类型出行人群的行为特征,如上班族、购物族、旅游族等。第二步是:建立异常行为模型:如果一个人选择的交通路线为A->C->D->B,且异常特征数量足够多,那么他很可能是一名小偷。本案例就是一个非常简单而有效的犯罪学行为模型建模。警察叔叔抓小偷,再也不累了。

      值得注意的是,行为建模的人才从来都不是也不可能是像其他大数据领域一样被神话了的“算法师”。高手,在基层、在民间。这是因为最了解犯罪行为特征和犯罪行为规律的人,一是基层民警,二是部分具有犯罪“智慧”和“潜能”的民间群众。相信每个人都琢磨过怎么偷东西不被人抓住?公交大数据抓小偷也是由“民间”研究团队所开发。

      最后,正犹如我的师兄盘冠员处长刚才所说:在今天,人工智能并不是指一种技术,而是指一种方法和思维。大数据侦查通过行为建模的优化,完全可以升级为主动侦查和智能侦查,并完成到人工智能的进化。鉴于此,我把这种侦查模式归纳为:基于大数据的人工智能侦查!


作者介:,浙江温州人,现为中国人民大学网犯罪与安全研究中心秘书长,中国人民大学物术鉴定中心副主任,具有信息技与法律专业的双重背景,期致力于算机网据司法定、信息化侦查、网犯罪、网刑法、网安全法、网法理学等信息与法的交叉研究。