我们的技术是如何帮助这场抗疫之战的?
它们背后用到了哪些工具和方法?
今天我们盘点了此时此刻在这场战疫中
正在运用中的五个案例。
阿里巴巴,高德地图
这几周大家慢慢开始复工,很多人最关心的问题之一就是乘坐公共交通工具的人流。
除了地铁线路和乘客的实时交通流量外,高德地图计划在不久的将来发布更多实时交通信息,以帮助用户做出更好的出行安排计划。之前高德地图已在包括北京在内的数十个主要城市中启动了实时公交服务,通过提供精准的公交车到达时间来为大家最大程度地减少等待时间。
功能:
实时跟踪地铁/火车上的交通密度
数据集:
数据由北京市交通委员会提供,涵盖了该市所有地铁线路和车站。与地图API集成以形成GIS位置地图
方法:
- 基于IoT的数据传感器。(诸如IoT之类的技术使大数据成为可能。目前智慧城市的概念就是基于此)
- 通过移动电话(选择性),地图路由器跟踪移动数据点来计数
使用的技术工具:
实时流传输(很可能取决于其内部技术堆栈)
数据通道:
- 生产者和消费者(Kafka)的消息队列
- SparkStreaming(实时分析,例如流量统计聚合)
- SQL的数据存储区可以使用Hbase和其他内部工具。
机器学习计算机模型,可以训练该模型来分析化合物的分子结构,并将其与特定特征(例如杀死细菌的能力)相关联。
方法:
此数据驱动的建立模型以使药物能够杀死细菌的预测是一个分类问题,随机森林是一个很好的基线,SVM可能是候选算法之一。随机森林是应用于自举版本的训练数据的回归树的集合。典型的机器学习应用程序设置分类阈值以选择多数票(表示森林中的整体树木),即分类阈值为0.8。绘制接收器工作曲线(ROC)。当分类阈值从0变为1时,真实阳性率相对于阴性阳性率的接收器工作曲线图。接收机工作曲线越靠近左上角,预测质量越好。因此,用来衡量整体预测准确性的通用指标是ROC下的面积,即AUC。
对于数据准备,收集和组合相关类型的数据至关重要,大多数情况下可以使用样本数据。该模型正在训练大约2,500个分子,包括大约1,700种FDA批准的药物以及800种具有不同结构和广泛生物活性的天然产物。分为训练,验证和测试数据集,训练数据集用于训练预测算法,验证是在训练期间固定参数,测试数据集可用作“现实世界”数据集,以评估生产结果。
该应用程序使用来自Broad Institute的Drug Repurpose Hub的大约6,000种化合物的库作为测试数据集,并从AINC15数据库中选择1亿个分子。在正常情况下,如果数据集相对较高维度上具有更多特征,则可以使用特征工程技术来查看哪些变量是更重要的预测指标。Scikit学习库提供了API,用于根据要素和类之间的相关性来获取所有属性的要素重要性得分。
功能:
筛选、识别和体温预警系统。这是一种典型的计算机视觉应用,结合了热成像技术来监测人体温度。
数据集:
FLIR数据集
工具:
名为FLIR(Forward Looking Infrared)的热像仪
算法:
YOLO可以用作对象检测;darknet是很好的备选。
模型训练推荐运用转移学习开始,更偏行业风格,只有大型实验室更有可能从头开始训练自己的模型。因为使用预先训练的卷积权重,可以在训练模型(onImageNet)上训练自定义数据集时节省时间和成本。
TensorFlow及其模型区域提供了预训练算法,这可以是在模型训练和推理阶段中实现的选项之一。基本的CNN是该模型生成神经元,卷积层和密集层的基础。训练后,使用测试数据集检查mAP和IOU分数。训练、测试步骤需要迭代直到达到模型性能(项目开始之前定义的业务问题,通常PoC是在该阶段建立的,因此模型应满足该阶段设定的目标)。将模型部署到应用程序通常使用AWS部署工具。
作者
一个自学成才的程序媛,主要使用Python编写代码,也用JavaScript编写代码,Scala新手。目前,她是区块链行业的数据科学家,之前曾从事计算机视觉化工作。她对开源代码项目和大数据很感兴趣,也是个疯狂爱骑车的姑娘。
![]()
Solomon Soh
Solomon Soh是新加坡UpLevel的数据科学顾问。他擅长于运营,市场营销和财务分析,擅长运用ML和RL模型来推导消费者的行为。之前作为管理顾问,他深知运用DS权限解决业务或社会问题的重要性。
目前,来自世界各地的数百名数据科学家正在努力进行着有关冠状病毒的数据科学项目的研究。

Solomon Soh是新加坡UpLevel的数据科学顾问。他擅长于运营,市场营销和财务分析,擅长运用ML和RL模型来推导消费者的行为。之前作为管理顾问,他深知运用DS权限解决业务或社会问题的重要性。
目前,来自世界各地的数百名数据科学家正在努力进行着有关冠状病毒的数据科学项目的研究。
希望大家保持健康和乐观,春天就快到啦!