一种互联网假酒信息监测模型的建立与应用

引用本文

齐凤亮, 光晓俐, 邹积鑫, 林雷祥, 童长毅. 一种互联网假酒信息监测模型的建立与应用[J].刑事技术, 2021,46(4):422-427
QI Fengliang, GUANG Xiaoli, ZOU Jixin, LIN Leixiang, TONG Changyi. An Internet-based Information-catching Model for Monitoring Counterfeit Chinese Liquor’s Sale on Internet[J]. Forensic Science and Technology,2021,46(4): 422-427 复制到剪切板

Doi: 10.16467/j.1008-3650.2021.0104
Permissions

《刑事技术》编辑部

一种互联网假酒信息监测模型的建立与应用

齐凤亮¹, 光晓俐¹, 邹积鑫¹, 林雷祥¹, 童长毅²

1.公安部物证鉴定中心,北京 100038

2.遵义市公安局经侦支队,贵州遵义563000

第一作者简介:齐凤亮,男,山东邹城人,硕士,助理研究员,研究方向为情报分析、文件检验。E-mail: qifengliang@cifs.gov.cn

收稿日期: 2020-09-18 修回日期: 2020-11-04

基金资助: 中央级公益性科研院所基本科研业务费专项资金项目（2018JB045）

摘要

近年来电子商务与互联网技术、物流等行业不断融合,网络消费快速增长,但也因此滋生了各种利用互联网制售假冒伪劣商品的犯罪,严重损害了企业和群众利益,扰乱了经济秩序。受高额利润的驱使,茅台酒等高端白酒是网络制售假犯罪的重点侵害对象之一。与线下实体模式售假行为不同,互联网制售假酒行为具有虚拟性和隐蔽性,给公安机关侦查带来了不少困难。犯罪分子利用互联网制售假冒高端白酒的手段也在不断推陈出新,除了通过电商平台、社交网络微商销售外,近几年又出现了利用线上互联网广告招揽顾客的新模式。本文从贵州省遵义市公安机关破获的一起利用互联网制售假酒案例出发,介绍了一种较为新型的利用互联网制售假酒犯罪的手段和特点,并根据其特点建立了一个抓取互联网制售假酒信息的监测模型,用于公安机关发现和落地网络制售假酒犯罪线索,保护白酒企业知识产权。

关键词: 假酒; 互联网广告; 知识产权保护

中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2021)04-0422-06

An Internet-based Information-catching Model for Monitoring Counterfeit Chinese Liquor’s Sale on Internet

QI Fengliang¹, GUANG Xiaoli¹, ZOU Jixin¹, LIN Leixiang¹, TONG Changyi²

1. Institute of Forensic Science, Ministry Public Security, Beijing 100038, China

2. Economic Crime Investigation Detachment of Zunyi Public Security Bureau, Zunyi 563000, Guizhou, China

Abstract

e-Commerce has rapidly spawned with the integration of internet technology, logistics and other related industries. Yet, various crimes are also mingled among the involving activities, e.g., selling counterfeit products. Driven by high profits, offenders often manufacture and sell fake high-end liquors like Moutai through the internet. Different from selling counterfeits offline, manufacturing and selling counterfeit liquors online is virtual and concealed, frequently having brought difficulties for public security organs to investigate. Ordinarily, counterfeit high-end liquors are furtively sold through e-commerce and social network’s micro-business proprietors, indefinitely coalescing into their ever-improvised covert sales purposed for avoidance of detection and exposure. Recently, a new mode has emerged of using internet advertising to seduce customers to purchase counterfeits. Based on a case cracked down by Zunyi municipal public security authorities, this paper analyzed the artifice and peculiarity of manufacturing and selling counterfeit Chinese liquors on the internet. Accordingly, a model was therewith established on monitoring online-selling counterfeit liquors, constructing its principle designed on the appropriate keywords setup and snatching into recognizing the internet-spreading advertisements suspicious of selling counterfeit liquors. With such an approach-collected information and integration into offline pertinent investigation, valuable clues would be provided about the relevant cases and people. Such a model and operation would better protect intellectual property of Chinese liquor industry.

Key words: counterfeit liquor; internet advertising; intellectual property protection

文章图片

随着“ 互联网+” “ 新零售” 等时代的到来, 制售假酒犯罪也慢慢地隐藏到互联网这张大网下。据遵义市打假相关部门的统计, 传统的商超、店铺、批发市场公然销售假酒的现象越来越少, 市场监督管理部门开展市场检查查获的假酒数量也越来越有限。茅台等高端白酒由于其品质好、销售紧俏, 一直是造假分子的重点侵害对象, 高端白酒也成为了利用网络制售假酒犯罪的重灾区。犯罪分子利用互联网、快递物流销售假酒不仅成本低、隐蔽性强, 而且流通快速、对象虚拟, 给公安机关等部门执法和打击带来了更多挑战。近年来犯罪分子利用互联网广告, 在门户网站等平台发布虚假白酒促销信息, 大肆销售假冒茅台等高端白酒, 给大量消费者带来损失的同时, 也极大伤害了茅台等高端白酒品牌形象。

本文以作者参与办理的贵州省遵义市公安机关破获的一起互联网制售假高端白酒案件为例, 介绍了此案的犯罪手法特点; 提出了一种抓取互联网售假信息的监测模型, 用于及时发现和落地此类案件线索, 提交给公安机关和权利人企业进行打击处理。

1 案件简介与特点

2018年9月, 遵义市公安机关工作中发现, 有人在凤凰网、新浪网等门户网站及相关移动APP上发布抢购茅台酒活动销售信息广告, 经厂家核查发现该广告页面销售的为假冒贵州茅台酒。涉案地公安机关组成专案组开展工作, 成功发现了一个利用互联网制售假茅台酒的犯罪团伙。该犯罪团伙以马某A、马某B、杨某某等人为主要成员, 涉及广东、河南、浙江、山东等地。经查, 广东假酒经销商马某A负责联系互联网广告商, 发布虚假贵州茅台酒等高端白酒抢购活动广告; 山东广告商杨某某按照马某A的要求, 在东方头条、凤凰网、新浪网等平台发布广告; 网民点击广告订购后, 马某A将订单发给河南假酒生产商马某B; 最后马某B等人在河南生产假酒, 并通过物流发货到全国各地。2019年6月, 遵义公安机关一举打掉该犯罪团伙, 抓获犯罪嫌疑人11人, 捣毁生产窝点2个, 缴获假冒茅台、五粮液、剑南春等白酒1800余瓶以及假酒生产设备、包装材料若干, 冻结涉案资金数百万元。

与利用电商或社交网络微商等平台销售假货^[1]模式不同, 众多假酒犯罪分子为逃避电商平台监管, 在互联网网页、论坛等发布售假酒信息。特别是在本案中, 犯罪团伙通过不良广告公司直接在互联网广告平台投放高档白酒抢购广告, 建立售假网络, 犯罪手法的欺骗性、隐蔽性强, 假酒扩散快、危害大。一是假酒广告欺骗性强。这些广告并不直接标明销售的是茅台酒, 而是打出“ 贵州名酒原价1499限时抢购600” “ 茅台镇53° 酒750/瓶, 过时恢复原价1499/瓶” 等名头, 广告图片展示的是印着“ 茅台镇原浆酒” “ 茅台原浆酒” 等名称类似茅台酒的包装白酒, 用以逃避广告商平台的监管, 同时广告投放会选择特定的目标用户和区域, 人工网络巡查难以直接发现。二是人员身份隐蔽性强。销售商、生产商、广告商等层级分工明细, 互联网销售使交易双方身份虚拟, 广告商、销售商、生产商等之间联系时, 常以昵称相称, 通过微信等联络, 并且常用他人身份信息注册账号, 各方相互之间不见面、不了解具体身份, 交易各方身份的虚拟性, 给公安机关落地人员身份深入调查造成困难。三是假酒扩散快、危害大。假酒的购买过程非常便捷, 互联网用户点击广告后, 落地网页就变成了茅台酒的销售界面, 页面上有下单功能, 浏览者只需要选择所购买的产品, 录入姓名、手机号、地址等信息后, 无需提前支付货款, 即可完成下单, 后台有专业的订单系统, 假酒销售商拿到订单后联系生产商直接发货。假酒从下单到发货操作简单, 加之互联网的覆盖性, 导致假酒的扩散快、危害大。调查发现该案犯罪团伙从2018年11月至2019年5月发货近千次, 销售假冒茅台酒数千件, 收货地遍布全国, 涉案总价值达数千万元。

面对互联网上售假酒信息的泛滥和巨大危害, 公安机关和权利人企业打假人员也在一直努力发现和清除网上违法广告信息, 对重点线索进行打击。但采用传统的人工方式在互联网上搜索和巡查, 费时费力效率低下; 互联网的虚拟性, 也使得打假人员难以直接通过互联网上抓取的有限信息落地嫌疑人员和企业身份。公安和企业打假部门亟需一种高效的方法, 及时准确地发现互联网上售假信息并形成有效案件线索。因此, 我们可以利用互联网搜索、数据挖掘等技术, 建立互联网监测模型, 自动化地发现和提取互联网上制售假酒信息, 为打击互联网制售假酒犯罪服务。

2 互联网假酒信息监测模型

作者建立了一个针对互联网假酒信息的监测模型, 首先利用历史案件、工作搜集的数据对互联网上发布假酒广告信息的关键词进行提取和整理, 建立关键词组, 然后采用互联网搜索技术, 对互联网网站、论坛等上面发布的售假广告信息进行抓取、整理, 获得涉嫌销售假酒的广告页面信息; 对抓取的互联网广告信息进行清洗, 落地网页地址, 提取手机、微信、QQ等号码信息, 将销售信息推送给酒企鉴别真假, 对于明显低于市场销售价格、虚假的促销广告信息, 将提取的号码等信息与公安、权利人企业掌握的历史数据进行碰撞, 落地相关人员和企业身份, 及时形成案件线索, 交由公安机关进行深入调查; 对抓取的嫌疑页面进行关键词挖掘, 发现和提取新的关键词, 充实搜索关键词组, 流程如图1所示。本文将主要从关键词组的设置、涉假互联网广告信息的抓取、抓取数据的碰撞与线索生成等方面进行阐述, 介绍模型的原理与运行效果。

	Figure Option View Download New Window
	图1 互联网假酒信息监测模型流程图Fig.1 Flowchart of monitoring online sale of counterfeit liquor

2.1 关键词组的设置

假酒搜索关键词组的设置及更新基于两个直观的假设:一是涉假信息通过关键词表征, 即但凡出现关键词的信息都有极高的概率与售假相关; 二是关键词之间具有一定的联系, 即与关键词经常以特定模式出现的词也有一定的概率是关键词。

设置假酒关键词组的基本思想如下:首先, 作者根据办案工作经验, 结合研究互联网上相关的售假行为, 对各类假冒商品设置初始关键词组, 例如“ 高仿酒” “ 高仿茅台” 等, 利用这些关键词组抓取互联网上发布的广告信息。然后, 对抓取的内容清洗处理, 进行主题分析、关键词挖掘, 及时发现和加入可能出现的新关键词, 最终实现关键词组的迭代更新。为解决主题分析关键词挖掘问题, 我们使用了TextRank和TF-IDF两个成熟的关键词自动提取算法。

TextRank算法的基本思想来自于谷歌公司的PageRank^[2]算法, 首先根据文本构造词之间的连接图, 通过在词图上执行PageRank算法, 可以最终得到词的重要度分数, 最后选择得分最高的n个词作为文档的关键词^{[3, 4]}。该算法的词图模型可以形式化定义为公式（1）。

G=(V, E)（1）

其中, V是顶点的集合, 即文本中的词集, E是这些顶点之间边的集合, 即文本中词与词之间的边集。

对于给定的一个顶点V_i, TextRank的计算见公式（2）。

$ W S\left(V_{i}\right)=(1-d)+d \times \sum\limits_{j \in I n \left(V_{i}\right)}\left(\frac{\omega_{j i}}{\sum\limits_{V_{k} \in O u t\left(V_{j}\right)} \omega_{j k}} \times W S\left(V_{j}\right)\right)$（2）

公式（2）中In(V_i)是指向V_i顶点的入链集合, Out(V_j)是出链的集合, d为阻尼系数, 一般取值为0.85。ω _ji和ω _jk分别是指两个顶点之间的边权值, 通常设置为1, 表示无权图。

TF-IDF算法是基于统计的方法来衡量词或短语在文本信息中的关键性^{[5, 6]}, 一个词在目标文本使用的次数较多, 却在语料库中使用的次数较少, 那么它就能够具备良好的文本区分能力。某个词在目标文本中的TF值指的是该词在这个文本中出现的频率, IDF值是文本集合中出现包含该词的文本占比, 计算见公式（3）。

$ T F-I D F_{i}=T F_{i, j} \times I D F_{i}=\frac{f_{i, j}}{\sum_{i=1}^{n} f_{i, j}} \times \log \frac{N}{n_{i}+1} $（3）

公式（3）中TF_{i, j}为词i在文本j中的词频, f_{i, j}为词i在文本j中出现的次数, N是文本集中的文本总数, n_i为包含词i的文本数量, 加常数1是为了处理公式中分母n_i为0的情况。

TextRank使用文本的结构信息, 对词的表征方式不敏感, 算法的结果只取决于文本的结构, 而TF-IDF具备良好的文本区分能力。为了得到可信度更高的结果, 我们在实际任务中将两种算法进行融合, 从而得到最终的分数, 计算如公式（4）。

$ S_{i}=\frac{T F-I D F_{i}}{\sum_{i=1}^{n} T F-I D F_{i}} \times \frac{W S\left(V_{i}\right)}{\sum_{i=1}^{n} W S\left(V_{i}\right)}$（4）

使用“ 茅台酒” 作为初始关键词, 对抓取的网页采用上述三种关键词自动提取算法, 生成的关键词如表1所示。

表1 关键词自动提取结果 Table 1 Results of automatic extraction of keywords

人工检查后将关键词分为有效、无效、待定三类, 分别用绿色、红色、黑色标记。TF-IDF算法中前19关键词包括7个有效词、7个无效词, TextRank算法中前19关键词包括6个有效词、9个无效词, 融合算法中前19关键词包括7个有效词、6个无效词。可以看出, 融合算法可得到更多的有效关键词, 较少的无效关键词, 关键词获取效果较好。

2.2 互联网假酒信息的抓取

作者设计了基于Selenium^[7]的互联网搜索引擎信息抓取系统, 可以根据指定的关键词组, 自动化抓取搜索结果中的相关信息。Selenium是一种浏览器自动化测试框架, 常用于网络爬虫的模拟人工操作, 可以有效获取网页真实地址, 同时也可以通过设定暂停时间, 使爬虫程序行为更接近真实的访问情况, 减少网站反爬虫措施带来的影响。我们使用Python+Selenium+Chrome组合来解决自动化抓取搜索结果问题, 谷歌浏览器（Chrome）负责渲染解析, Selenium负责驱动浏览器和Python程序进行对接, Python程序负责对网页数据信息进行清洗、提取等后期处理, 三者构成一个完整的爬虫结构。

首先, 利用谷歌浏览器驱动ChromeDriver^[7]自动建立浏览器进程、登录搜索引擎、自动输入预设关键字进行搜索, 进入了搜索结果页面后, 解析页面内容实现对搜索结果的逐条抓取。然后, 对页面地址进行落地, 对数据进行清洗, 设计基于规则的无关数据筛选流程剔除无关数据, 比如, 门户网站和电商对违法信息的审核严格, 抓取的网页虽然与售假有一定相关性, 但绝大多数不是不法分子发布的售假信息, 需要将此类网页剔除。最后, 对搜索结果页面进行分析, 存储网页标题、落地页等信息, 利用正则表达式将网页中涉及的电子邮件、电话、QQ号码等信息提取并保存。图2展示了部分从互联网抓取的互联网可疑售假网页信息。

	Figure Option View Download New Window
	图2 从互联网抓取的可疑售假网页信息Fig.2 Snapped webpages containing the information suspicious of selling counterfeit liquor

2.3 抓取信息的碰撞与线索生成

可以将抓取的互联网可疑售假信息与公安、企业、互联网数据等各类数据等进行关联比对, 落地相关内容, 刻画嫌疑人员和企业, 将可疑度高的线索转给相关公安机关和企业打假部门, 做进一步研判和处理。为此, 本文建立了信息比对碰撞平台, 汇集的公安数据包括2010年以来遵义市公安机关办理的侵犯知识产权相关犯罪案件信息700余条, 犯罪嫌疑人信息1 000余条; 企业数据包括茅台等酒企掌握的涉嫌制售假酒的黑、灰名单人员信息5 000余条, 嫌疑企业信息2 933条; 互联网数据包括厦门美亚柏科公司网搜平台搜集的通信、地址、人员、企业信息等数据10亿余条。我们运用这些数据与互联网抓取的信息进行碰撞, 例如, 模型发现百度ID“ yerutin* * * * ” 长期在百度贴吧发布出售假酒的信息, 通过网搜平台对“ yerutin* * * * ” 贴文中留下的“ 135* * * * 1573” 手机号码进行关联, 发现新的手机号码“ 134* * * * 8255” , 通过对“ 134* * * * 8255” 再次进行搜索, 进而发现该手机的实名信息李某, 并关联出该号码关联的湖南省娄底市的地址信息, 如图3所示。可见, 对互联网模型抓取的一条信息, 通过多次迭代搜索的方式, 可挖掘并分析出相关人员身份、手机、地址等内容, 最终勾勒出涉嫌人员信息, 形成更加有价值的线索。

	Figure Option View Download New Window
	图3 抓取信息的碰撞与人员刻画Fig.3 Snatched information for collision and personal portrayal

将监测模型抓取的1 000余条涉嫌销售假酒信息推送给贵州遵义公安机关, 从应用情况看, 模型能较好地抓取互联网网页、论坛等发布的涉嫌销售假酒信息, 通过公安机关进一步研判, 已经形成一批有价值的案件线索。研究中还发现, 近期有不法分子开始在视频App等手机移动App上发布虚假广告信息, 并使用二维码作为联系方式, 下一步我们还将研究如何在移动App等平台上进行广告线索抓取, 建立二维码信息的自动采集、识别方法, 不断完善监测模型, 更加高效准确地获取互联网售假线索信息。

3 小结

本文介绍了一种较为新型的利用网络制售假酒案件情况, 分析了案件特点, 针对互联网涉假信息的发现、提取问题, 利用互联网搜索、数据挖掘技术, 提出了一种互联网假酒犯罪监测模型。从应用情况看, 模型可及时发现网上销售假酒犯罪线索, 帮助公安、企业打假部门及时进行打击处理。运用技术对互联网制售假酒犯罪进行监测, 虽能够获取线索, 但还需要强化综合治理, 加强互联网广告、物流等行业的管理, 汇聚公安、权利人企业的数据和资源, 形成工作合力, 才能够标本兼治, 从根本遏制利用互联网制售假酒等侵犯知识产权犯罪。

参考文献

文献选项

[1]	蔡鑫. 论网络售假的治理[D]. 合肥: 安徽大学, 2016. (CAI Xin. On the control of selling counterfeits on the internet [D]. Hefei: Anhui University, 2016. ) [本文引用:1]
[2]	李稚楹, 杨武, 谢治军. PageRank算法研究综述[J]. 计算机科学, 2011, 38(B10): 185-188. (LI Zhiying, YANG Wu, XIE Zhijun. A survey of PageRank algorithm[J]. Computer Science, 2011, 38(B10): 185-188. ) [本文引用:1]
[3]	LU G M, XIA Y L, WANG J M, et al. Research on text classification based on TextRank[C]//Proceedings of 2016 International Conference on Communications, Information Management and Network Security (CIMNS2016), 2016: 328-331. [本文引用:1]
[4]	TU S Z, HUANG M L. Mining microblog user interests based on TextRank with TF-IDF factor[J]. The Journal of China Universities of Posts and Telecommunications, 2016, 23(5): 40-46. [本文引用:1]
[5]	GUO A Z, YANG T. Research and improvement of feature words weight based on TFIDF algorithm[C]//Proceedings of 2016 IEEE Information Technology, Networking, Electronic and Automation Control Conference (ITNEC 2016), 2016: 445-449. [本文引用:1]
[6]	杨凯艳. 基于改进的TFIDF关键词自动提取算法研究[D]. 湘潭: 湘潭大学, 2015. (YANG Kaiyan. Research on automatic keyword extraction algorithm based on improved TFIDF [D]. Xiangtan: Xiangtan University, 2015. ) [本文引用:1]
[7]	樊涛, 赵征, 刘敏娟. 基于Selenium的网络爬虫分析与实现[J]. 电脑编程技巧与维护, 2019(9): 155-156. (FAN Tao, ZHAO Zheng, LIU Minjuan. Analysis and implementation of web crawler based on Selenium[J]. Programming Skills and Maintenance, 2019(9): 155-156. ) [本文引用:1]
[8]	ChromeDriver user documentation [EB/OL]. [2020-09-10]. https://sites.google.com/a/chromium.org/chromedriver/home. [本文引用:1]

2016

0.0

... 与利用电商或社交网络微商等平台销售假货^[1]模式不同,众多假酒犯罪分子为逃避电商平台监管,在互联网网页、论坛等发布售假酒信息 ...

2011

0.0

... TextRank算法的基本思想来自于谷歌公司的PageRank^[2]算法,首先根据文本构造词之间的连接图,通过在词图上执行PageRank算法,可以最终得到词的重要度分数,最后选择得分最高的n个词作为文档的关键词^[3,4] ...

2016

0.0

2016

0.0

2016

0.0

... TF-IDF算法是基于统计的方法来衡量词或短语在文本信息中的关键性^[5,6],一个词在目标文本使用的次数较多,却在语料库中使用的次数较少,那么它就能够具备良好的文本区分能力 ...

2015

0.0

2019

0.0

... 2 互联网假酒信息的抓取作者设计了基于Selenium^[7]的互联网搜索引擎信息抓取系统,可以根据指定的关键词组,自动化抓取搜索结果中的相关信息 ...

0.0

... 首先,利用谷歌浏览器驱动ChromeDriver^[7]自动建立浏览器进程、登录搜索引擎、自动输入预设关键字进行搜索,进入了搜索结果页面后,解析页面内容实现对搜索结果的逐条抓取 ...