博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
误区1:数据是可靠的
阅读量:7049 次
发布时间:2019-06-28

本文共 880 字,大约阅读时间需要 2 分钟。

1.6  智能应用中八个常见的误区

到此,我们已经介绍了与智能应用相关的基础知识,现在你应该已经对什么是智能应用,以及应该如何使用智能应用有了一个整体的了解。你很有可能迫不及待地想要开始写代码,我们不会让你失望的。除了本章之外,每一章都会给你介绍新的有价值的代码。

但在开始进入激动人心且充满经济利益的智能应用世界之前,先来看一些带有智能功能的项目中常见的错误,或者说是误区。你可能熟悉分布式计算的八大误 区(如果没有看过,可以参考Van den Hoogen的业界评论),其中列举了第一次开发分布式应用的程序员对分布式应用的常见误区。同样,根据这个传统,我们在这里也会介绍八个智能应用开发中 常见的误区。

1.6.1  误区1:数据是可靠的

很多因素会导致你获取的数据不可靠。在考虑具体的智能算法解决方案之前,首先就要判断数据是否可信。如果数据有问题,就算是最聪明的人,通常也会得出错误的结论。

可能导致数据出错的原因有很多,在此不可能一一列举,下面列出了部分有代表性的可能导致数据出错的因素:

在开发过程中所使用的数据不能代表产品环境中的数据。例如,对某个社交网络中的用户按身高分类"高"、"一般"和"矮"。如果开发阶段所使用的数据中最矮的用户的身高是1米84,那就有可能会得出"你太矮了,才1米84"的可笑结论。

数据中可能含有缺失值。实际上,除非数据是人造的,否则数据就肯定会含有缺失值。缺失值的处理非常需要技巧,通常,既可以保持缺失值状态不变,也可以用某种默认值或是计算得到的值来填充。两种情况都可能导致不稳定的实现。

数据可能会改变。数据库策略可能会变,或者数据库中数据的语义也有可能发生变化。

数据没有规范化。假如我们关注的是每个人的体重。为了能根据体重得到有意义的结论,所有的单位应该是统一的:磅或是公斤,两者只能取其一,而不能是两者的混合。

所想的算法可能不适合数据。数据有不同的形式,也就是数据类型。有些数据集是数值类型的,有些则不是;有些数据集可以排序,有些则不能;有些数值的数据集是离散的(例如,房间中的人数),有些则是连续的(例如气温)。

转载地址:http://otdol.baihongyu.com/

你可能感兴趣的文章
用pushd、popd和cd - 快速定位目录
查看>>
Android安全防护之旅---带你把Apk混淆成中文语言代码
查看>>
mysql清空表的方法
查看>>
Http协议及apache配置笔记
查看>>
读书笔记-大颠狂(非同寻常的大众幻想与群众性癫狂)
查看>>
MySQL 多条数据的一个字段合并
查看>>
jquery AJAX清除IE缓存问题
查看>>
Percona XtraBackup (译一):首页
查看>>
一大早就解决了个服务器***问题
查看>>
配置 WebLogic Maven Plug-In 远程部署weblogic
查看>>
聊一聊Java中的系列化
查看>>
Objective-c 继承,多态,封装
查看>>
Red Hat Linux 6.0安装图解
查看>>
Python列表详解
查看>>
Fresco图片显示
查看>>
从无法开启 OCSP Stapling 说起,OCSP是什么
查看>>
我的友情链接
查看>>
项目中遇到的问题
查看>>
Linux下进程管理工具之(三):glances
查看>>
如何添加AdMob广告到现有的Unity3D ios游戏
查看>>