自己是最为看衰自媒体在未来之上进之

良丰富一段时间没有更新简书的情了,打算将微博爬虫完善得差不多之后,再网的把开微博爬虫的每个模块和级差还记录下来。其中微博页面抓取和分析、用户页面抓取和剖析等模块,都是可复用的。现在尚特是单机单线程,因为微博的反爬虫机制还尚未完全研究透,等找到抓取的阈值后再行考虑分布式或者多进程。这里凡是微博扩散分析的品种地址,有趣味之得看看,喜欢的讲话不防点个star,如何?

自媒体这个概念虽然近年来才起来熬起来,但是自媒体的款式好已经来矣,而且早都持有了一样模仿比较好之商业模式,那就算是为严肃文学也表示的网络文学产业。无论你肯定与否,盛大为大气之作者提供了一个阳台,然后作者可以于阳台达成载自己的篇章,用户粉丝付费阅读,作者及网站之间分掉这笔收入。这不就是是现大家苦苦追寻的自媒体嘛?


自家是一个网络文学的赤胆忠心爱好者,目睹了网络文学10年来之明亮。网络文学曾经催生出了大致10万名作者和5000万读者,掀起过显眼、持久、普遍的社会阅读需求,并深刻地影响及改变中国文艺之布置。年收入百万级别的作者,例如唐家三丢掉、我吃西红柿、南派三叔等,也发了好多。

即篇稿子写的凡冲拟登陆微博的一个有些器。使用状况是人不在办公,但是电脑没有关闭,需要远距离关闭电脑。对法登陆微博有问题的同校,请走我之当下首文章。下面进入正题。

自身看网络小说大约发生8年左右之日子了,基本上是看正在这个行业平等步一步之向前进。我深信不疑盗版这个题目是直困扰着网络文学进一步成长的不胜怪阻力,中国用户压根就没有异常好的付费习惯。那么就自媒体的前行这种困境是不是为会见发出为?可能说话科技上之章质量内容很高,但是不排有的网站会一直copy过来,像一些当活动端的文章聚合器,就好一蹴而就的抓取文章要休用失去思维其他版权问题。

思路

咱长期忽视一个实际:大量之自媒体背后是数更是宏大的读者。就以网络文学来说吧,网络文学和网络游戏基本上是以起步的,但网游产业可以发巨大的能,现在吗成为所有互联网最盈利的正业,而网络文学的进化快也迟迟了无单单一撞击。在我看来这到底就是没为大部分之读者群体参与进来,他们只是一味的圈网络文学,并从未涉足到写这个进程。这就是跟自媒体一样,如果只是那几十单熟面孔一直于描绘,广大读者没有供内容,那么漫长发展下去自媒体的向上就会愈发僵化。可能还没扩大,自媒体就既彻底崩溃了。

  • 定时模拟登陆(定时是以微博cookie24小时失效),关于模拟登陆详细步骤可参照自家之博文,代码可参看github项目
  • 定时(10分钟)获取最新一长条微博,并把发表时以及系时开比,如果离开在一半个钟头内,我们即便以为命令中,那么即便吃系统执行关机命令

自媒体生成了“作者—创作—作品—读者—阅读”的初生产关系模式,使得自媒体的存不再了依赖纸质出版,这巨大地激励了作者写及创新的热忱,对文艺之表现形式进行了积极性的探究和品尝。也就是是自媒体所一直显示的,传统媒体机构被所没有的自由度。

项目依赖

但是这些在我看来还远远不够,一个家底能否长久发展重点还在于其是否使绝大多数总人口会从中得到快乐和完成。举个例子,为什么暴雪游戏会尽早要黄的边缘一跃成为全球最炙手可热的游乐龙头,关键就在于他们把了市场趋势,知道网络游戏产业一定会比较单机游戏产业进而便捷的腾飞,吸引更多之玩家——赚再多之钱——产生品质更可以的打,这样平等法模式让网游的商海越来越宏大,这些放到自媒体这个世界内也是同一可之。但是问题的重点就是在这里:胡自媒体从博客时起上扬了这般长年累月,作者与读者中的数量差异会还会如此要命?实际大部分情愿提供内容的自媒体人多还是把草根阶层,他们无受传统媒体中僵化思维的熏陶,所以会提供一些观点鲜明的稿子。

  • 学登陆+页面解析:
  • requests+pyexecjs+beautifulsoup
  • pip install requests
  • pip install bs4
  • pip install PyExecJS
  • 指令行解析docopt
  • pip install docopt
  • phantomjs
  • windows:在phantomjs官网下载它,并且把其的不二法门加上到环境变量
  • ubuntu:sudo apt-get install phantomjs
    或者到官网下载并且累加到环境变量

在我看来想成一个闹影响力的自媒体是死艰巨的职责,为了保险读者的活跃度,你恐怕每日还要稳定的创新,完成一定的数字。在这么一个高节奏、有时候是小回报的场面下,很多作者多还是纯是业余爱好,在悠闲时光写写,他们想象在友好,抒发着好之真情实意,以期得到重新多人的认可,钱对她们来说实在并无是无限重要的。我已深思过好丰富一段时间,想变成一个自媒体不仅得有肯定的文艺素养,更如备同样种大毅力才能够好,而就是是这种对毅力的急需,才使得真正发生影响力的自媒体作者非常少。

梯次模块和代码

苟真想使找到同样条自媒体的商业模式的说话,广告并非可能是顶尖选择,为未容许每个自媒体都见面产生那坏的影响力,大至可以很好之养育自己。如果只是于业余时间写写的言辞,那么只是有所自媒体外表的传统媒体人罢了。那么如何寻找就成为了问题?

login.py

就拿虎嗅来说吧,随着影响力的逐步增大,可能会见在未来为提供内容之撰稿人支付稿费,然后因在广告获得支持。这仅仅是门户网站的翻版而已,我个人认为想如果推而广之,首先第一要素就是如果扶植再多的作者。虎嗅一些稿子下面来众多死完美的品,有时候评论甚至于文章我含有的干货更多,这些会提供上乘评论资源的读者是否当某个一样天会转变也笔者吧?本身觉着可能非常的老。如何将这些人口渐渐的呢带成内容提供者,我想这里虽未是自我所能应对的了。

欠模块代码负责模拟登陆,之前早已详尽讲了及时有代码了,在此处就不啰嗦了,最后回到的是session和uid(微博ID,用于拼凑主页URL)

只是毕竟,移动互联网时代的众人看时是碎片化,人们也许压根就是从未有过时间去来计划之读书自媒体写的稿子。就以自己吧吧,订阅了许多微信公众号,开始每天特别仔细的阅读每首文章,可能有篇还会见刻画有讲评啊的,或者跟笔者互动一下。但是现在愈加感到这如是当形成同样项任务一般,每天都见面督促着自己,有同样种植最强之压迫感,所以慢慢的发端就发出放弃读书的扼腕。所以我道在未来可能针对自媒体的需会越来越小。

** weibo_parser.py**

剖析微博主页,并且返回时一长微博以及披露时

具体代码如下
<pre>
def get_newest(session, uid):
# 获取只含有原创内容之个人主页
url =
‘http://weibo.com/’ +
uid + ‘/profile?profile_ftype=1&is_ori=1#_0’
page = session.get(url).text

soup = BeautifulSoup(page, 'html.parser')    
scripts = soup.find_all('script')    

status = ' '    
for s in scripts:        
    if 'pl.content.homeFeed.index' in s.string:            
            status = s.string    
#用正则表达式获取微博原创内容
pattern = re.compile(r'FM.view\((.*)\)')    
rs = pattern.search(status)    
if rs:       
    cur_status = rs.group(1)        
    html = json.loads(cur_status).get('html')        
    soup = BeautifulSoup(html, 'html.parser') 
    # 获取最新一条微博所有信息       
    newest = soup.find(attrs={'action-type': 'feed_list_item'})        
    # 获取最新发布内容
    post_cont = newest.find(attrs={'node-type': 'feed_list_content'}).text.strip()     
    # 获取最新发布时间
    post_stamp = int(newest.find(attrs={'node-type': 'feed_list_item_date'}).get('date')[:-3])                            
    post_time = datetime.fromtimestamp(post_stamp)        
    now = datetime.now() 
    # 计算此刻和发布时间的时间差(单位为秒)       
    t = (now - post_time).total_seconds()        
    return post_cont, t    
else:        
    return None  

</pre>

立马其间所以到之学问包括beautifulsoup和正则表达式,它们的现实性用我便不细心说了,关于正则表达式,search()函数我是为此得太多之,beautifulsoup我之所以得极其多的是find(attrs={key:
value})
,attrs斯参数真心好用!这个是beautifulsoup的合法文档:bs中文文档.关于页面解析,可能我会专门写一首稿子详细说,这里虽有些去了。

pc_shutdown.py
<pre>
“””Resolvewang

Usage:
pc_shutdow.py name <name> password <password>
pc_shutdow.py (-h | –help)
pc_shutdow.py –version

Options:
-h –help Show this screen.
–version Show version
“””
from login import get_cur_session
from weibo_parser import get_newest
from docopt import docopt
from os import system
import platform
import time

def shutdown(name, password):
session, uid = get_cur_session(name, password)
return get_newest(session, uid)

if name == ‘main‘:
# 从命执行获得登陆账号及密码
args = docopt(doc, version=’ShutdownMyPC 1.0′)
login_name = args.get(‘<name>’)
login_pass = args.get(‘<password>’)
# 循环用于定时查看是否来新微博发表
while True:
# 获取发布内容和岁月,内容用 ” “隔开,比如“关机 10”
cont, ptdelta = shutdown(login_name, login_pass)
info = cont.split(‘ ‘)
# 判断是关机命令还是如常微博
if info[0] == ‘关机’ and ptdelta < 30 * 60:
shut_time = 0
try:
shut_time = int(info[1])
except Exception:
print(‘马上自动关机’)
else:
print(‘{time}分钟后自动关机’.format(time=info[1]))
finally:
# 判断操作系统平台,由于尚未mac实验环境,所以这里没找齐加mac的连带判断
os_system = platform.system().lower()
if os_system == ‘windows’:
command = ‘shutdown -s -t
{shut_time}’.format(shut_time=shut_time60)
else:
command = ‘shutdown -h {shut_time}’.format(shut_time=shut_time)
# 执行关机命令
system(command)
time.sleep(10
60)
</pre>

就段代码的逻辑基本还写于诠释里了,其中有只docopt模块,是关于命令执行参数的,如果来非清楚的同桌可以省即时篇博客,也可看它的github,里面来成千上万例


至于用微博展开远程关机的任课都结了,上述代码还有好改善之地方,特别是pc_shutdown.py,比如

  • 下定时器进行查看新微博
  • session复用直到24时失效,这样即便毫无每隔十分钟就重新登陆一破了,可以通过多进程或多线程共享变量实现
  • 可管此小器修改成一个开机启动脚本(linux平台)或者服务(win平台)。

吾生也发出涯,而知否开阔。大家加油,共勉!

发表评论

电子邮件地址不会被公开。 必填项已用*标注