TensorFlow 中文社区,TensorFlow安装,TensorFlow教程,机器学习,人工智能,深度学习,神经网络,计算机视觉,自然语言处理,GitHub

 找回密码
 立即注册
查看: 1202|回复: 10

关于数据回归预测的问题

[复制链接]

2

主题

4

帖子

120

积分

注册会员

Rank: 2

积分
120
发表于 2017-11-15 15:47:37 | 显示全部楼层 |阅读模式
有个关于数据回归的工程需求,有几点问题想要咨询一下各位,谢谢!
1、做模型训练之前必须要做数据归一化处理吗,不做可不可以。
2、之前在网上找的波士顿房价预测之类的demo,都是一次性从CSV文件中读取全部数据然后训练,但我的数据量比较大而且是保存在数据库中的,假如需要做归一化处理的话,是不是得全部把数据都读取了才能做归一化处理,除此之外还有别的办法吗?
3、除了波士顿房价的demo,网上还有没有其他的demo可以参考的
回复

使用道具 举报

106

主题

284

帖子

18万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
180723
发表于 2017-11-15 15:51:38 | 显示全部楼层
1.数据肯定要预处理的,预处理是非常重要的。
2.从数据库读取也是可以的。
3.数据回归的例子很多。
回复

使用道具 举报

106

主题

284

帖子

18万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
180723
发表于 2017-11-15 15:51:43 | 显示全部楼层
1.数据肯定要预处理的,预处理是非常重要的。
2.从数据库读取也是可以的。
3.数据回归的例子很多。
回复

使用道具 举报

2

主题

4

帖子

120

积分

注册会员

Rank: 2

积分
120
 楼主| 发表于 2017-11-15 16:00:32 | 显示全部楼层
归一化处理我是用的sklearn做的,必须得读取全部数据然后逐列做归一化,假如只是按批次读取的话,做归一化有什么好的建议吗?还有测试数据也要做归一化吗?
回复

使用道具 举报

2

主题

4

帖子

120

积分

注册会员

Rank: 2

积分
120
 楼主| 发表于 2017-11-15 16:04:41 | 显示全部楼层
admin 发表于 2017-11-15 15:51
1.数据肯定要预处理的,预处理是非常重要的。
2.从数据库读取也是可以的。
3.数据回归的例子很多。 ...

归一化处理我是用的sklearn做的,必须得读取全部数据然后逐列做归一化,假如只是按批次读取的话,做归一化有什么好的建议吗?还有测试数据也要做归一化吗?
回复

使用道具 举报

106

主题

284

帖子

18万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
180723
发表于 2017-11-15 16:33:10 | 显示全部楼层
测试集和训练集最好一致处理,可以分批处理,然后存起来就行了。
回复

使用道具 举报

0

主题

4

帖子

122

积分

注册会员

Rank: 2

积分
122
发表于 2017-11-20 10:43:42 | 显示全部楼层
请问归一化训练数据,测试数据一起归一化,还是分开归一化?
回复

使用道具 举报

106

主题

284

帖子

18万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
180723
发表于 2017-11-20 12:36:48 | 显示全部楼层
Sunsapience 发表于 2017-11-20 10:43
请问归一化训练数据,测试数据一起归一化,还是分开归一化?

一般都是数据统一处理,然后,拆分成训练集,测试集。
回复

使用道具 举报

0

主题

4

帖子

122

积分

注册会员

Rank: 2

积分
122
发表于 2017-12-1 18:55:18 | 显示全部楼层
admin 发表于 2017-11-20 12:36
一般都是数据统一处理,然后,拆分成训练集,测试集。

好的,谢谢您。我想的就是这样,但看到了有人分开处理,所以有点困惑。顺便再问一个关于验证数据集的问题。我的想法是验证数据参与训练,通过它来判断是否过拟合。当训练集loss下降,而验证集loss上升,就需要停止迭代,这个时候就已经过拟合。您看,验证集应该扮演什么样的角色?
回复

使用道具 举报

106

主题

284

帖子

18万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
180723
发表于 2017-12-1 18:56:29 | 显示全部楼层
Sunsapience 发表于 2017-12-1 18:55
好的,谢谢您。我想的就是这样,但看到了有人分开处理,所以有点困惑。顺便再问一个关于验证数据集的问题 ...

分开,训练集就是训练集,测试集不参与训练。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|TensorFlow,TensorFlow安装,TensorFlow教程,机器学习,人工智能,深度学习,神经网络,计算机视觉,自然语言处理

GMT+8, 2018-6-19 02:58 , Processed in 0.095769 second(s), 17 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表