اچ‌ام‌بلاگز یک پیکره بزرگ از متن‌های فارسی است که بر اساس خزش پست‌های وبلاگ‌های فارسی تهیه شده است. این پیکره دارای دو نسخه یک و سه عمومی است. نسخه یک تنها شامل پست‌های وبلاگ‌های بلاگفا است و نسخه سه شامل پست‌هایی از سرویس‌دنده‌های بلاگفا و بیان می‌باشد. در نسخه سه شامل بیش از ۵میلیارد توکن می‌باشد و روی پست‌های آن، سعی شده است که پست‌های تکراری حذف شوند.
مشارکت کننده در ساخت :
حمزه مطهری

اطلاعات ارجاع :

HM Khansari, M Shamsfard HmBlogs: A big general Persian corpus, arXiv preprint arXiv:۲۱۱۱,۰۲۳۶۲, ۲۰۲۱.

مجوز استفاده:(CC BY ۴,۰)
https://creativecommons.org/licenses/by/۰,۴
آخرین نسخه:
۲۰۲۱