pandas(2)
-
Spark로 HDFS 데이터 활용하기 (+ pandas, time range filter)
python 기반입니다 HDFS 데이터 spark로 불러오기 HDFS(Hadoop File System)으로 저장 돼 있는 데이터를 주피터 노트북에 불러와서 스파크 데이터 프레임으로 활용하는 일이 종종 있다. 첫 번 째로 Spark Session을 열어줘야 된다. SparkSession은 인스턴스 생성을 위한 build() 메서드를 제공하는데, 이 메서드를 통해 인스턴스를 재사용 하거나 새로 생성할 수 있다. from pyspark.sql.session import SparkSession import pyspark.sql.functions as F # SparkSession 인스턴스 생성 spark = SparkSession.builder.appName('deepjin').getOrCreate() 위 과..
2020.07.22 -
[번역] 넷플릭스에서의 파이썬
넷플릭스 테크 블로그 포스팅 중 'Python at Netflix'을 직접 번역했습니다. 한국어로 어색하지 않으면서도 추가되거나 빠지는 내용이 없도록 번역하다 보니 문장이 매끄럽지 않습니다. 오탈자가 있다면 댓글로 알려주시기 바랍니다. 넷플릭스의 Pythonistas로부터 쓰여졌고, Amjith Ramanujam에 의해 조정되고 Ellen Livengood에 의해 편집 됨 우리 중 많은 사람들이 PyCon에 갈 준비를 하기 때문에, 우리는 넷플릭스에서 파이썬이 어떻게 쓰이는지에 대해 공유하고자 한다. 우리는 파이썬을 전체 콘텐츠의 생태주기를 통해 사용하는데, 어떤 콘텐츠를 펀딩할 것인지부터 최종 비디오를 제공하는 CDN을 운영하는 것까지, 1억 4천 8백만 명의 회원들을 대상으로 한다. 우리는 많은 파이..
2019.12.09