اچامبلاگز یک پیکره بزرگ از متنهای فارسی است که بر اساس خزش پستهای وبلاگهای فارسی تهیه شده است. این پیکره دارای دو نسخه یک و سه عمومی است. نسخه یک تنها شامل پستهای وبلاگهای بلاگفا است و نسخه سه شامل پستهایی از سرویسدندههای بلاگفا و بیان میباشد. در نسخه سه شامل بیش از ۵میلیارد توکن میباشد و روی پستهای آن، سعی شده است که پستهای تکراری حذف شوند.
مشارکت کننده در ساخت :
حمزه مطهری
اطلاعات ارجاع :
HM Khansari, M Shamsfard HmBlogs: A big general Persian corpus, arXiv preprint arXiv:۲۱۱۱,۰۲۳۶۲, ۲۰۲۱.
مجوز استفاده:(CC BY ۴,۰)
https://creativecommons.org/licenses/by/۰,۴
آخرین نسخه:
۲۰۲۱