۱- requests (https://pypi.org/project/requests/)
۱️⃣ این کتابخانه بما این امکان را میدهد که بتوانیم محتوای وبسایتها را استخراج نماییم.
۲- beautifulsoup (https://beautiful-soup-4.readthedocs.io/en/latest/)
۲️⃣ همانند مورد قبل این کتابخانه با امکاناتی متفاوت ما را قادر میسازد که اطلاعات وبسایتها را استخراج کرده و دادهها را به نحوه مطلوب جداسازی کنیم.
۳- pandas (https://pandas.pydata.org/docs/)
۳️⃣ برای آنالیز دادهها، پانداز یکی از بهترین کتابخانههای موجود در اکوسیستم پایتون است.
۴- SQLAlchemy (https://docs.sqlalchemy.org/)
۴️⃣ برای ارتباط با دیتابیسها از این کتابخانه استفاده میکنیم.
۵- airflow (https://airflow.apache.org/docs/apache-airflow/stable/index.html)
۵️⃣ برای مدیریت جریان دادهها از ایرفلو استفاده میکنیم. ایرفلو یکی از پروژههای بسیار بزرگ بنیاد آپاچی با بیش از دو هزار پانصد شرکتکننده میباشد.
۶-pyspark(https://spark.apache.org/docs/3.3.1/api/python/index.html#:~:text=PySpark%20is%20an%20interface%20for,data%20in%20a%20distributed%20environment.)
۶️⃣ برای ارتباط با هستهی اسپارک از این کتابخانه استفاده میکنیم که بتوانیم به زبان پایتون، با اسپارک تعامل داشته باشیم.
۷- kafka-python (https://kafka-python.readthedocs.io/en/master/)
۷️⃣ برای تعامل با کافکا از این کتابخانه استفاده میکنیم. آپاچی کافکا یکی از بهترین ابزارها برای برقراری پردازش استریم میباشد.
🛑 نکته: بعد از آشنایی با پایتون، بهترین روش برای یادگیری حرفهای این کتابخانهها، مراجعه به مستندات آنهاست (از طریق وبسایت خود کتابخانه).
▶️ Reference: https://www.kdnuggets.com/7-python-libraries-every-data-engineer-should-know