你平时被假新闻坑过吗?民意调查网站 YouGov 最近发布了一项调查显示,亚太地区的大多数人对网络新闻持怀疑态度。相比电视和广播,人们对假新闻要担忧得多。
造成这种现象的原因,以及假新闻的普遍特征,主要有以下几点:
当大多数热点都还在关注重大事件的假新闻时,假新闻的潜在问题已经涉及到了很多方面。
在互联网上推广产品和服务时可以用正规真实的方式,但也能轻易传递虚假夸张的信息,而这两种信息,在平等的互联网世界里几乎具有相同的影响力。这就意味着,商业竞争者可以轻易的在市场中散播对手的负面言论,同时由于互联网的天然属性,他们完全能以匿名的方式这么做:大不了矢口否认就行。
还有一种很明显的后果。通常很多机构和公司会雇佣第三方来发布他们的广告内容。这些内容都由各类自动算法发布,例如编写好的营销软件。这就意味着产品或服务的广告很有可能会被放在含有假新闻的网站上,那么产品的品牌就会因此受到牵连:人们会认为,如果网站的主要内容是假的,那么这些广告信息很有可能也是假的。
随着社交网站越来越多以及移动互利网的发展,越来越多的人通过社交网络了解外界信息,而我们关注这些平台上的新闻和文章,又直接影响到我们未来会看到哪些文章和信息,因为社交算法会将倾向于把类似的内容展示给我们。而如今恰恰有很多断章取义的报道,或者故意炮制的假新闻,一旦这些信息经过社交网络放大,会极大地影响舆论。
为了对抗假新闻,很多公司和机构不遗余力地尝试各种方法。去年美国西佛吉尼亚大学的研究人员就开始尝试用人工智能对抗假新闻,他们用机器学习中的自然语言处理技术对新闻报道进行分析,并对报道是假新闻的可能性进行打分,并且还会给出所打分值的原因。
还有些研发人员正在研究用 AI 解析来自不同网站的内容,并将文章与第三方对事件的报道进行对比,以寻找可能具有误导性的虚假内容。
除了从报道角度打假,还有一些研究人员尝试从网站的角度:判定新闻网站的真假。近日,芬兰的一位研究人员在知名论坛 Reddit 发布了一个关于假新闻网站的头条话题,分享他如何用人工智能打击假新闻:
在帖子中,他论述了人们可以利用机器学习技术判定某些网站是否是虚假网站。他的方法主要包含两部分:数据收集和机器学习。
在数据收集环节,他创建了一个新闻网站的数据集,包括 60 个发布假新闻的网站和 58 个获得普利策奖的真实新闻网站。数据集包含了这些网站一些公开信息,例如注册用户,基于 ALEXA 页面排行的热度,页面上的广告数量,是否存在病毒,基本的网站架构平台,和提供给这个网站的广告聚合服务等。
然后,机器学习算法会访问和分析每个网站,其中大约 80 %的网站被用来训练模型,20 %的网站被用来验证算法结果。具体来说,他在 scikit-learn 上搭建的预测模型,使用了决策树算法、随机森林、逻辑回归、K最近邻和朴素贝叶斯等5个算法。
在所使用的 5 个预测算法中,即使最低效的算法也可以以 88.5 %的正确率分辨出假新闻网站。最高效的算法则可以达到 94.7 %的正确率,其中只有一个真新闻站点被判断为假站点,其他所有的假新闻站点都被识别了出来。
对技术感兴趣的朋友可去原贴详细了解他用的代码、测试方法和数据集等,但对商业感兴趣的朋友,这些信息更重要:
或许,识别虚假信息源会是一个很有市场的业务。可以为企业提供 AI 工具判断他们广告服务商的成果(例如,检查商业广告的最终投放地点),或者搭建 AI 模型,探测哪里出现了假新闻网站,推广了哪些假信息。
不过,虽然人工智能可以在打击假新闻中发挥重要作用,但人类依旧肩负着遏制假新闻的主要责任。而且未来利用 AI 打假仍需人机协作,例如假新闻可以通过植入一个“事实”来保护自己,从而不会被检测到。
虽然审查新闻的 AI 算法可以利用现有的内容来验证故事的准确性,但当一家声誉良好的媒体发布突发新闻时,它可能会在没有太多故事背景的情况下发布信息,这反过来会影响到人工智能系统的决策。因此,我们每个人在社交网络上分享内容时,也应更加谨慎和认真,尽量做到不造谣、不信谣、不传谣,毕竟...没人想被喝茶吧?
向你推荐:
一文读懂CNN如何用于NLP - 集智专栏
边看边练的简明机器学习教程 Part II - 集智专栏
是直是弯?爆照判断 - 集智专栏