自我介绍和简述项目经历后,第一个问题就是关于Hadoop的, 问:做数据迁移时,关于hive和oracle的一些语法转换, 上来给我问蒙了,我只说了 关于表连接查询 oracle中where语句在hive 中只能用join , 他又问,时间类型的转换区别,我说不上来,只好说to_date,后来百度后发现hive中不需要做转换,不能使用to_date。 问:关于性能优化 我说 在插入数据时,注意索引,先删除或使索引失效。在做查询时,注意查询语句中一些语法会使索引失效,我举例,对索引字段进行聚合操作,计算操作,空值判断等。对于大量数据的插入,我会考虑在建表的时候进行表分区。然后又说了关于执行计划和hints优化器的使用。 问:关于对字段脏数据的处理,他举了个例子,如何处理身份证号的脏数据。 我说针对字段特征做匹配,比如使用正则表达式对不是纯数字的,长度不对的,还有一些其他的特征做一个匹配过滤、。 之后就问完了,然后问我有什么想问的,我随便问了几个问题,然后结束了。 问关于数据倾斜: 我只说了几种造成数据倾斜的情况:group by ,count distinct 改写,join。没说解决方法,他也没往下问。 整个过程大概17分钟。