运用大数据技术揪出的犯罪分子居然是某知名电台女主持人 ...
admin
2023-08-12 17:42:08
0

电影中有很多利用先进的IT技术破案的桥段,经常令我们打开眼界。

今天给大家介绍一个仅仅利用大数据技术中的统计方法就抓获犯罪嫌疑人的案例分享。

80,90后的我们都看过电影《死亡笔记》,又名《黑色笔记》、《死神笔记》,对于该电影大家来说或许都不陌生,今天盘点一下 2006 年上映的这部系列电影电影第二部中利用大数据技术是如何进行犯罪嫌疑人锁定并进行抓捕的。




剧情回顾

夜神月为了洗脱自己是基拉的嫌疑,让死神雷姆寻找合适的继承人,一位电台主播也是基拉的支持者。就是这位高田清美。




拥有了笔记的权限开始了对罪犯的制裁。




从这个时候开始通过数据的跟踪分析就开始的高田清美抓捕行动。

这里使用到的现在的大数据技术我来一一盘点一下。

寻找合适的代理人

这个是基于大数据用户画像构建的,用户画像简单来讲,就是用户信息标签化。即收集这个用户的各种数据和行为,从而得出这个用户的一些基本信息和典型特征,最后形成一个人物原型。影片中构建的信息标准维度就是基拉(夜神月)和高田清美所谓的 “正义标准” 相近。




那么要回忆一下基拉(夜神月)的正义标准是什么?

很多时候法律没有威慑力,或者太尊重凶手人权,导致犯罪成本太低,各种人作恶,导致民不聊生。

这里通过分词技术提取关键信息构建争议标准标签

import jieba.analyse
text='很多时候法律没有威慑力,或者太尊重凶手人权,导致犯罪成本太低,各种人作恶,导致民不聊生。'
Key=jieba.analyse.extract_tags(text,topK=5,allowPOS=('n'))
print(Key)

>>> ['威慑力', '凶手', '人权', '成本', '法律']

作为死神雷姆可以看到每一个人的性格特点这样通过关键标签匹配就可以快速地找到合适的代理人了。

行为标签跟踪

在每一次制裁的犯人中对应的犯人都会有对应的标签信息。

举个例子来说构建字典就是这样的

{
"name":"xxxx",
"info":{
"性别":"男性",
"类型":"抢劫",
"危害程度":"严重",
"是否审判":"否",
......
}
}

然后在接下来的逆向追踪也证实了这一点,就是最开始的基拉(红色)制裁方式与高田清美(蓝色)的制裁方式极为相似,构建了一个3维的数据空间模型,但是两个人的习惯还是稍有差别。






到这里也算是给前面雷姆寻找基拉代理人做了个完美的解释。

数据趋势图分析

从电影中的这个情节可以看出来在进行犯罪嫌疑人数据追踪的时候进行了12个维度的对比分析,分别制作成了折线趋势图。




电影中只提到了3个因素就锁定了结果,分别是:

  • 话题的争议性,新的制裁被更广泛地报道。
  • 犯罪案件针对的性别特征。
  • 媒体被报道的次数多。

电影里没有提到更复杂的数学模型,可能怕观众看不懂吧,仅仅表示了统计学上非常基本的概念。统计频次的趋势图,这个趋势图仅仅在构建好的数据中使用聚合函数就可以搞定了。

1.话题的争议性,新的制裁被更广泛地报道

模拟一下每日的被报道的数据经过统计之后是这样的。




直接可以构建折线图。




2.犯罪案件针对的性别特征

这个是将案件被害人的性别进行了统计。数据大致如下




构建女性话题趋势图




构建男性话题趋势图




3.媒体被报道的次数

模拟生成的数据,直接一个 groupby 聚合函数统计频次就可以了。






OCR文字识别

高田清美在被监视的时候被看到写下犯人的姓名,然后通过OCR文字识别提取数据,对比是否已经被制裁。

这种技术大家肯定不会陌生。不过在06年还在懵懂的我们来说觉得很高大上了。 现在一个百度AI调包就能搞定啦。








总结

综合因素来看更接近媒体的女性,樱花电视台直接锁定了最终的目标。




你会发现中间环节看着很高大上的情节,其实Excel就都搞定了,那么用Python实现对应的可视化功能仅仅是分分钟的事情了是不是?

是不是现在发现数据分析真的就是那么简单。

欢迎留言告诉我你喜欢的影视剧,我来帮你分析其中的大数据知识。

相关内容