python经过Kerberos认证连接hdfs

1. Kerberos认证

最近在工作中,需要将备份数据上传到hdfs上,在服务器上需要进行Kerberos认证。 在Hadoop1.0.0或者CDH3 版本之前,是不存在安全认证的,hadoop集群默认所有节点都是可信任的。这导致恶意用户可以伪装成正常用户入侵集群,恶意提交任务。使用了Kerberos认证后,将认证的秘钥事先放在可靠的节点上,集群运行时,只有通过认证的节点才能正常使用。

python进行kerberos认证时,需要关心两样东西,一个是keytab文件,一个是 principal ,他们两个是有内在联系的。 一个 principal 就是 realm 里的一个对象,一个 principal 总是和一个密钥(secret key)成对出现的 , keytab 是包含 principals 和加密 principal key 的文件 。

2. krbcontext 和 hdfs

krbcontext 和 hdfs 是python连接hdfs时需要用到的库,它所建立的连接本质上是一个http连接,安装hdfs时,需要指定kerberos插件

pip install hdfs[kerberos]
pip install krbcontext 

hdfs模块的官方文档地址是 https://hdfscli.readthedocs.io/en/latest/ ,接口并不复杂,下面是一段代码示例

from hdfs.ext.kerberos import KerberosClient
from krbcontext import krbcontext

keytab_file = '/etc/coolpython.keytab'
principal = 'hadoop/admin@coolpython.net'

with krbcontext(using_keytab=True, keytab_file=keytab_file, principal=principal, ccache_file='/tmp/cache_keytab_zds'):
    client = KerberosClient(url='http://10.110.50.1:50070')
    hdfs_save_path = '/user/hadoop/backup/2020-06-10'
    client.makedirs(hdfs_save_path)     # 新建目录

扫描关注, 与我技术互动

QQ交流群: 211426309

加入知识星球, 每天收获更多精彩内容

分享日常研究的python技术和遇到的问题及解决方案