هفت کتابخانه‌ی پایتون برای مهندسین داده

هفت کتابخانه‌ی پایتون برای مهندسین داده

۱- requests (https://pypi.org/project/requests/)

۱️⃣ این کتابخانه بما این امکان را می‌دهد که بتوانیم محتوای وب‌سایت‌ها را استخراج نماییم.

۲- beautifulsoup (https://beautiful-soup-4.readthedocs.io/en/latest/)

۲️⃣ همانند مورد قبل این کتابخانه با امکاناتی متفاوت ما را قادر می‌سازد که اطلاعات وبسایت‌ها را استخراج کرده و داده‌ها را به نحوه مطلوب جداسازی کنیم.

۳- pandas (https://pandas.pydata.org/docs/)

۳️⃣ برای آنالیز داده‌ها، پانداز یکی از بهترین کتاب‌خانه‌های موجود در اکوسیستم پایتون است.

۴- SQLAlchemy (https://docs.sqlalchemy.org/)

۴️⃣ برای ارتباط با دیتابیس‌ها از این کتابخانه استفاده می‌کنیم.

۵- airflow (https://airflow.apache.org/docs/apache-airflow/stable/index.html)

۵️⃣ برای مدیریت جریان داده‌ها از ایرفلو استفاده می‌کنیم. ایرفلو یکی از پروژه‌های بسیار بزرگ بنیاد آپاچی با بیش از دو هزار پانصد شرکت‌کننده می‌باشد.

۶-pyspark(https://spark.apache.org/docs/3.3.1/api/python/index.html#:~:text=PySpark%20is%20an%20interface%20for,data%20in%20a%20distributed%20environment.)

۶️⃣ برای ارتباط با هسته‌ی اسپارک از این کتابخانه استفاده می‌کنیم که بتوانیم به زبان پایتون، با اسپارک تعامل داشته باشیم.

۷- kafka-python (https://kafka-python.readthedocs.io/en/master/)

۷️⃣ برای تعامل با کافکا از این کتابخانه استفاده می‌کنیم. آپاچی کافکا یکی از بهترین ابزارها برای برقراری پردازش استریم می‌باشد.

🛑 نکته: بعد از آشنایی با پایتون، بهترین روش برای یادگیری حرفه‌ای این کتابخانه‌ها، مراجعه به مستندات آنهاست (از طریق وبسایت خود کتابخانه).

▶️ Reference: https://www.kdnuggets.com/7-python-libraries-every-data-engineer-should-know

 

 

دنبال کردن در تلگرام دنبال کردن در اینستاگرام دنبال کردن در آپارات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

×